【R言語】生存時間解析survival　カプランマイヤー曲線・Cox比例ハザードモデル・ログランク検定

改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界

ポチップ

RStudioで解析したい方へ

¥3,278 （2022/06/02 22:52時点 | Amazon調べ）

ポチップ

生存時間解析

R言語で生存時間解析を行うためにはパッケージsurvivalをインストールする必要があります。

重回帰分析などのように標準で関数がインストールされているわけではないので注意が必要です。

早速、以下のコードを実行しsurvivalをインストールします。

install.packages("survival")
library(survival)

1 2	install.packages("survival") library(survival)

パッケージsurvivalにはcancerという癌に関するデータセットが含めれています。時間（time）やイベント発生の有無（status）などの変数があり、まさに生存時間解析の練習用のデータセットといった感じです。

> head(cancer)
  inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss
1    3  306      2  74   1       1       90       100     1175      NA
2    3  455      2  68   1       0       90        90     1225      15
3    3 1010      1  56   1       0       90        90       NA      15
4    5  210      2  57   1       1       90        60     1150      11
5    1  883      2  60   1       0      100        90       NA       0
6   12 1022      1  74   1       1       50        80      513       0

> head(cancer)

inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss

1 3 306 2 74 1 1 90 100 1175 NA

2 3 455 2 68 1 0 90 90 1225 15

3 3 1010 1 56 1 0 90 90 NA 15

4 5 210 2 57 1 1 90 60 1150 11

5 1 883 2 60 1 0 100 90 NA 0

6 12 1022 1 74 1 1 50 80 513 0

このデータセットは既にデータ整形されているため、少し加工し実際のデータに近い形にします。（生存時間や生存と死亡のフラグが既にnumeric型として扱えますが、実際はcharacter型だったり、日付のままだったりするので解説のために加工していきます。）

以下を実行すると、cancerに観測開始日時と終了日時が追加されたデータセットを作成することができます。

#日付データの生成
tempCancer <- cancer
tempCancer$sex <- factor(tempCancer$sex, levels = c(1, 2), labels = c("male", "female"))
tempCancer$status <- factor(tempCancer$status, levels = c(1, 2), labels = c("survived", "dead"))

dateRange <- list(min = 18000, max = 19000)

dateSerial <- sample(dateRange$min : dateRange$max, nrow(tempCancer))
time_start <- as.Date(dateSerial, origin = "1970-01-01")
time_end <- as.Date(dateSerial + tempCancer$time, origin = "1970-01-01")

tempCancer <- tempCancer[, -seq_len(ncol(tempCancer))[colnames(tempCancer) == "time"]]
tempCancer <- cbind(tempCancer, start = time_start)
tempCancer <- cbind(tempCancer, end = time_end)
tempCancer <- cbind(id = seq_len(nrow(tempCancer)) , tempCancer)
  
dataset <- tempCancer

#日付データの生成

tempCancer <- cancer

tempCancer$sex <- factor(tempCancer$sex, levels = c(1, 2), labels = c("male", "female"))

tempCancer$status <- factor(tempCancer$status, levels = c(1, 2), labels = c("survived", "dead"))

dateRange <- list(min = 18000, max = 19000)

dateSerial <- sample(dateRange$min : dateRange$max, nrow(tempCancer))

time_start <- as.Date(dateSerial, origin = "1970-01-01")

time_end <- as.Date(dateSerial + tempCancer$time, origin = "1970-01-01")

tempCancer <- tempCancer[, -seq_len(ncol(tempCancer))[colnames(tempCancer) == "time"]]

tempCancer <- cbind(tempCancer, start = time_start)

tempCancer <- cbind(tempCancer, end = time_end)

tempCancer <- cbind(id = seq_len(nrow(tempCancer)) , tempCancer)

dataset <- tempCancer

以下のように、生存時間ではなく開始と終了に関する日時が追加されているのが分かります。また、生存・死亡のフラグであるstatusも0, 1から"survived", "dead"に変更しました。

> head(dataset)
  id inst  status age  sex ph.ecog ph.karno pat.karno meal.cal wt.loss      start        end
1  1    3    dead  74 male       1       90       100     1175      NA 2019-10-09 2020-08-10
2  2    3    dead  68 male       0       90        90     1225      15 2021-10-21 2023-01-19
3  3    3 survive  56 male       0       90        90       NA      15 2021-08-18 2024-05-24
4  4    5    dead  57 male       1       90        60     1150      11 2020-11-03 2021-06-01
5  5    1    dead  60 male       0      100        90       NA       0 2020-04-24 2022-09-24
6  6   12 survive  74 male       1       50        80      513       0 2020-08-29 2023-06-1

> head(dataset)

id inst status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss start end

1 1 3 dead 74 male 1 90 100 1175 NA 2019-10-09 2020-08-10

2 2 3 dead 68 male 0 90 90 1225 15 2021-10-21 2023-01-19

3 3 3 survive 56 male 0 90 90 NA 15 2021-08-18 2024-05-24

4 4 5 dead 57 male 1 90 60 1150 11 2020-11-03 2021-06-01

5 5 1 dead 60 male 0 100 90 NA 0 2020-04-24 2022-09-24

6 6 12 survive 74 male 1 50 80 513 0 2020-08-29 2023-06-1

多分、実務でデータ入力する際に開始日と終了日の差を考慮しないことがほとんどなので、上のようなデータ日付データが一般的だと思います。

生存時間のプロット

まず、生存時間のグラフの描き方についてみていきます。

生存時間解析の本でよく見かける観測開始時点と終了時点に関するグラフを描いていきます。

生存時間を取得する際に用いるDateクラスは次の記事で紹介しています。基本的な日付・時間に関する操作をまとめています。

: R言語　日付・時間　DateクラスとPOSIXクラス
R言語の日付と時間に関してよく使うテクニックをまとめました。 Rに標準でインストールされているパッケージbaseの中のDateクラスとPOSIXクラスの操作方法について解説していきます。日付や時間か ...
続きを見る

まず、パッケージggplot2をインストールします。Rのbaseに標準で入っているplotを使うとx軸とy軸を反転できないため、ggplot2を使って描きます。

install.packages("ggplot2")
library(ggplot2)

1 2	install.packages("ggplot2") library(ggplot2)

観測開始時点と終了時点に関するグラフは次のようにしてプロットすることができます。変数statusによって色を分けるように指定しているので、死亡（"dead"）が青で打ち切り（"survived"）が赤に色分けされています。

ggplot(tempData) +
geom_segment(aes(x = id, xend = id, y = start, yend = end), color = rgb(0, 0, 0, 0.5)) +
geom_point(aes(x = id, y = end, color = status), size = 2) +
geom_point(aes(x = id, y = start),color = rgb(0, 0, 0, 0.5), size = 2) +
coord_flip() +
labs(x = "id", y = "time (day)")

ggplot(tempData) +

geom_segment(aes(x = id, xend = id, y = start, yend = end), color = rgb(0, 0, 0, 0.5)) +

geom_point(aes(x = id, y = end, color = status), size = 2) +

geom_point(aes(x = id, y = start),color = rgb(0, 0, 0, 0.5), size = 2) +

coord_flip() +

labs(x = "id", y = "time (day)")

また、グラフのy軸のstartを0に設定すると次のような左端を固定したグラフを描くこともできます。

tempData <- dataset[seq_len(30), ]
tempData <- cbind(tempData, time = as.numeric(as.Date(tempData$end) - as.Date(tempData$start)))
ggplot(tempData) +
geom_segment(aes(x = id, xend = id, y = 0, yend = time), color = rgb(0, 0, 0, 0.5)) +
geom_point(aes(x = id, y = time, color = status), size = 2) +
coord_flip() +
labs(x = "id", y = "time (day)")

tempData <- dataset[seq_len(30), ]

tempData <- cbind(tempData, time = as.numeric(as.Date(tempData$end) - as.Date(tempData$start)))

ggplot(tempData) +

geom_segment(aes(x = id, xend = id, y = 0, yend = time), color = rgb(0, 0, 0, 0.5)) +

geom_point(aes(x = id, y = time, color = status), size = 2) +

coord_flip() +

labs(x = "id", y = "time (day)")

カプランマイヤー曲線

カプランマイヤー法を用いて生存率を推定していきます。

カプランマイヤー法を実行するにはパッケージsurviveの関数survfitを用います。

関数survfit

関数survfitとその引数を以下にまとめます。

survfit(formula, data, weights, subset, na.action, newdata, individual=F, conf.int=.95, se.fit=T, type=c("kaplan-meier","fleming-harrington", "fh2"), error=c("greenwood","tsiatis"), conf.type=c("log","log-log","plain","none"), conf.lower=c("usual", "peto", "modified"))

関数survfitの引数
引数	説明
formula	Survオブジェクトまたはcoxphオブジェクト。他のformulaと同様に目的変数を~の左側に、説明変数を右側に指定する。
data	引数formula、subset、weightsで列名を指定する際にどの列なのかを解釈するためのデータフレーム
weights	非負の重み。正で与えることを推奨している。
subset	モデルを適合する際にデータのどの行を用いるかを指定する。
na.action	欠損値に対して実行する関数。デフォルトでoptions()$na.actionを行う。
newdata	formulaで指定した変数と同じ変数を持つデータフレーム。formulaがcoxphオブジェクトである場合に適用できる。
individual	logical型。データの行がぞれぞれ異なる個々の時間を表す場合TRUE、個々が複数の時間を持つ場合はFALSE。
conf.int	信頼区間の信頼水準を指定する。
se.fit	logical型。標準誤差を計算するかどうか。
type	character型。どの手法の生存曲線を求めるかどうかを指定する。"kaplan-meier"でカプランマイヤー法、"fleming-harrington"でfleming-harrington法、"fh2"でfh2法。
error	誤差の計算方法。"greenwood"でGreenwoodの式、"tsiatis"でTsiatisの式によって計算する。
conf.type	信頼区間の計算方法。"none"で信頼区間を計算しない。デフォルトで"log"。
conf.lower	信頼区間の下限の設定。

実行例

関数survfitを使ってカプランマイヤー曲線をプロットするコードを紹介します。

まず、さきほど作ったdatasetに生存時間の変数を追加します。観察開始日と終了日の変数は日付を表すcharacter型となっていますが、as.Dateを使ってDate型に変換し、さらにas.numericによってnumeric型に変換することで数値に変換することができます。

> dataset <- cbind(dataset, time = as.numeric(as.Date(dataset$end) - as.Date(dataset$start)))
> head(dataset)
  id inst  status age  sex ph.ecog ph.karno pat.karno meal.cal wt.loss      start        end time
1  1    3    dead  74 male       1       90       100     1175      NA 2019-10-09 2020-08-10  306
2  2    3    dead  68 male       0       90        90     1225      15 2021-10-21 2023-01-19  455
3  3    3 survive  56 male       0       90        90       NA      15 2021-08-18 2024-05-24 1010
4  4    5    dead  57 male       1       90        60     1150      11 2020-11-03 2021-06-01  210
5  5    1    dead  60 male       0      100        90       NA       0 2020-04-24 2022-09-24  883
6  6   12 survive  74 male       1       50        80      513       0 2020-08-29 2023-06-17 1022

> dataset <- cbind(dataset, time = as.numeric(as.Date(dataset$end) - as.Date(dataset$start)))

> head(dataset)

id inst status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss start end time

1 1 3 dead 74 male 1 90 100 1175 NA 2019-10-09 2020-08-10 306

2 2 3 dead 68 male 0 90 90 1225 15 2021-10-21 2023-01-19 455

3 3 3 survive 56 male 0 90 90 NA 15 2021-08-18 2024-05-24 1010

4 4 5 dead 57 male 1 90 60 1150 11 2020-11-03 2021-06-01 210

5 5 1 dead 60 male 0 100 90 NA 0 2020-04-24 2022-09-24 883

6 6 12 survive 74 male 1 50 80 513 0 2020-08-29 2023-06-17 1022

datasetの一番右の列にtimeが追加されているのが確認できます。

関数survfitを使ってstatus別の生存曲線を描く前に、変数statusとsexをnumeric型に変換する必要があります。

注意ポイント

関数survfitの引数formulaにSurv(time, event)~sexのようにSurvオブジェクトを指定しますが、time、event、sexに関する変数がnumeric型ではない場合、正しく生存曲線が描画されないので注意が必要です。生存曲線ではなく死亡曲線が描かれたりします。

survData <- dataset[, c("time", "status", "sex")]
survData$status <- as.numeric(as.character(factor(survData$status, levels = c("survived", "dead"), labels = c(0, 1))))
survData$sex <- as.numeric(as.character(factor(survData$sex, levels = c("male", "female"), labels = c(0, 1))))

survData <- dataset[, c("time", "status", "sex")]

survData$status <- as.numeric(as.character(factor(survData$status, levels = c("survived", "dead"), labels = c(0, 1))))

survData$sex <- as.numeric(as.character(factor(survData$sex, levels = c("male", "female"), labels = c(0, 1))))

変数statusとsexの整形が完了したら、survfit実行してみましょう。次のように記述することでカプランマイヤー法で生存率を推定することができます。

> fit <- survfit(Surv(time, status) ~ 1, data = survData, type = "kaplan-meier") #カプランマイヤー曲線 
> fit
Call: survfit(formula = Surv(time, status) ~ 1, data = survData, type = "kaplan-meier")

       n events median 0.95LCL 0.95UCL
[1,] 228    165    310     285     363

> fit <- survfit(Surv(time, status) ~ 1, data = survData, type = "kaplan-meier") #カプランマイヤー曲線

> fit

Call: survfit(formula = Surv(time, status) ~ 1, data = survData, type = "kaplan-meier")

n events median 0.95LCL 0.95UCL

[1,] 228 165 310 285 363

他の解析法と同様にfitには生存率やその信頼区間などの変数が含まれており、fitの後ろに$を付けることで参照することができます。

surv <- fit$surv #生存率
lower <- fit$lower #生存率の下限
upper <- fit$upper #生存率の上限
time <- fit$time   #生存時間（タイは1つとしている）

surv <- fit$surv #生存率

lower <- fit$lower #生存率の下限

upper <- fit$upper #生存率の上限

time <- fit$time #生存時間（タイは1つとしている）

データフレームにこれらの値を代入することで次の画像のように、csvファイルに生存率とその信頼区間を出力することができます。

resultTable <- data.frame(surv = surv, ci.lower = lower, ci.upper = upper)
write.csv(resultTable, "生存率 カプランマイヤー法.csv")

1 2	resultTable <- data.frame(surv = surv, ci.lower = lower, ci.upper = upper) write.csv(resultTable, "生存率カプランマイヤー法.csv")

カプランマイヤー生存曲線をプロットする際は、survivalパッケージに含まれている関数plot.survfitを使います。実際に使用する際にはplot()のように使うため、一見、Rのbaseに標準で実装されている関数plotだと思ってしまいますが、こちらの関数は第一引数にSurvオブジェクトを指定するため全く別物となります。

下記のコードを実行することで、通常のカプランマイヤー曲線とsex別のカプランマイヤー曲線が描けます。

1行目のように引数formulaをSurv(time, status) ~ 1と指定することで、グループ別に分けることなく生存曲線を描くことが可能です。factor型の変数のlevelごとに曲線を描きたいときはSurv(time, status) ~ sexのようにします。ここでは性別ごとの生存曲線を描いています。

プロットに打ち切りの線を引きたい場合はmark.T = TRUEとし、信頼区間を描きたい場合はconf.int = TRUEとします。（画像参照）

fit <- survfit(Surv(time, status) ~ 1, data = survData, stype = 1, ctype = 1) #カプランマイヤー曲線
fit_sex <- survfit(Surv(time, status) ~ sex, data = survData, stype = 1, ctype = 1) #カプランマイヤー曲線 （sex別）

ltypes <- seq_len(nlevels(dataset$sex))
colors <- seq_len(nlevels(dataset$sex))
legends<-  levels(dataset$sex)

plot(fit, xlab = "time", ylab = "S(t)",  mark.t = TRUE, conf.int = TRUE)

plot(fit_sex, xlab = "time", ylab = "S(t)",  mark.t = TRUE, conf.int = TRUE, col = colors, lty = ltypes)
legend(x = "bottomleft", legend = legends, col = colors, lty = ltypes)

fit <- survfit(Surv(time, status) ~ 1, data = survData, stype = 1, ctype = 1) #カプランマイヤー曲線

fit_sex <- survfit(Surv(time, status) ~ sex, data = survData, stype = 1, ctype = 1) #カプランマイヤー曲線（sex別）

ltypes <- seq_len(nlevels(dataset$sex))

colors <- seq_len(nlevels(dataset$sex))

legends<- levels(dataset$sex)

plot(fit, xlab = "time", ylab = "S(t)", mark.t = TRUE, conf.int = TRUE)

plot(fit_sex, xlab = "time", ylab = "S(t)", mark.t = TRUE, conf.int = TRUE, col = colors, lty = ltypes)

legend(x = "bottomleft", legend = legends, col = colors, lty = ltypes)

レッドブルエナジードリンク 250ml×24本

¥3,509 （2022/06/11 02:16時点 | Amazon調べ）

ZONe Ver.2.2.0 type-T エナジードリンク 500mlx24本

ポチップ

¥4,036 （2022/06/11 02:41時点 | Amazon調べ）