【R言語】関数t.testを用いた2標本t検定・母平均の差の検定

母平均の差についての検定を行う方法を解説していきます。

R言語を用いることで、母平均の差の検定である2標本t検定が簡単に実行できます。

1標本の時と同様に、検定結果などは自分で計算する必要がなく非常に楽です。

また統計学に詳しくなくても、検定結果の各項目について詳しく解説していきます。

今回扱うプログラミングコードは以下よりダウンロードできます。

R言語　2標本t検定　Rスクリプト

1 ファイル 1.28 KB

ダウンロード

テンプレート用として、ぜひぜひダウンロードしてください。

1標本t検定が見たいという方は次のリンクをクリックしてください。

: 【R言語】関数t.testを用いた母平均の検定　1標本t検定
今回はR言語で、母平均についての検定であるt検定を行う方法を解説していきます。 t検定を実行する関数やその実行例を紹介します。実行例では、実際にデータセットを用いて母平均の検定を行うだけでなく、検定 ...
続きを見る

また、2標本t検定のより詳しい内容は次の記事を参照してください。

改訂2版 RユーザのためのRStudio[実践]入門〜tidyverseによるモダンな分析フローの世界

RStudioで解析したい方へ

¥3,278 （2022/06/02 22:52時点 | Amazon調べ）

ポチップ

統計学初学者向けの教材です

¥2,970 （2022/06/01 17:41時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

2標本t検定

検定の概要

2標本t検定の概要を以下にまとめました。以下、母分散が等しい場合と等しくない場合の2通りの母平均の差の検定の手順です。

分散が等しいとき

$x_{11}, x_{12}, \ldots, x_{1n_1}$を$N(\mu_1, \sigma^2)$からの$n_1$個の無作為標本、$x_{21}, x_{22}, \ldots, x_{2n_2}$を$N(\mu_2, \sigma^2)$からの$n_2$個の無作為標本とする。また、標本$x_{11}, x_{12}, \ldots, x_{1n_1}$、$x_{21}, x_{22}, \ldots, x_{2n_2}$に対応する確率変数を$X_{11}, X_{12}, \ldots, X_{1n_1}$、$X_{21}, X_{22}, \ldots, X_{2n_2}$とする。このとき、次の仮説を考える。

\begin{align}\left\{\begin{array}{cc}H_0:\ \mu_1 - \mu_2 = 0\\H_1:\ \mu_1 - \mu_2 \neq 0\end{array}\right. .\end{align}

この仮説検定の検定統計量は次で与えられる。

\begin{align}\cfrac{\bar{X}_1-\bar{X}_2-(\mu_1-\mu_2)}{\sqrt{S^2 (1/n_1+ 1/n_2)}}\sim t_{n_1+n_2-2},\quad \mathrm{under}\ H_0, \end{align}

ここに、$\bar{X}_1$、$\bar{X}_2$、$S^2$はそれぞれ

\begin{gather}\bar{X}_1=\cfrac{1}{n_1}\sum_{i=1}^{n_1}X_{1i},\ \ \bar{X}_2=\cfrac{1}{n_2}\sum_{i=1}^{n_2}X_{2i},\ \ S^2=\cfrac{1}{n_1+n_2-2}\bigl\{(n_1-1)S_1^2+(n_2-1)S_2\bigr\}\end{gather}

であり

\begin{align}S_1^2=\cfrac{1}{n_1-1}\sum_{i=1}^{n_1}(X_{1i}-\bar{X}_1)^2,\ \ S_2^2=\cfrac{1}{n_2-1}\sum_{i=1}^{n_2}(X_{2i}-\bar{X}_2)^2.\end{align}

また、有意水準$\alpha$の棄却域は次で与えられる。

\begin{align}( -\infty, - t_{n_1 + n_2 -2, \alpha/ 2}) \cup (t_{n_1 + n_2 -2, \alpha/ 2}, \infty), \end{align}

ここに、$t_{n, \alpha}$は自由度$n$のt分布の上側$\alpha$点である。

分散が異なるとき

$x_{11}, x_{12}, \ldots, x_{1n_1}$を$N(\mu_1, \sigma_1^2)$からの$n_1$個の無作為標本、$x_{21}, x_{22}, \ldots, x_{2n_2}$を$N(\mu_2, \sigma_2^2)$からの$n_2$個の無作為標本とする。また、標本$x_{11}, x_{12}, \ldots, x_{1n_1}$、$x_{21}, x_{22}, \ldots, x_{2n_2}$に対応する確率変数を$X_{11}, X_{12}, \ldots, X_{1n_1}$、$X_{21}, X_{22}, \ldots, X_{2n_2}$とする。このとき、次の仮説を考える。

\begin{align}\left\{\begin{array}{cc}H_0:\ \mu_1 - \mu_2 = 0\\H_1:\ \mu_1 - \mu_2 \neq 0\end{array}\right. .\end{align}

この仮説検定の検定統計量は次で与えられる。

\begin{align} \cfrac{\bar{X}_1-\bar{X}_2-(\mu_1-\mu_2)}{\sqrt{S_1^2/n_1+S_2^2/n_2}}\sim t_{\nu},\quad \mathrm{under}\ H_0 \end{align}

ここに、$\bar{X}_1$、$\bar{X}_2$、$S_1^2$、$S_2^2$はそれぞれ

\begin{gather}\bar{X}_1 = \cfrac{1}{n_1}\sum_{i=1}^{n_1}X_{1i},\ \ \bar{X}_2 =\cfrac{1}{n_2}\sum_{i=1}^{n_2}X_{2i},\\ S_1^2=\cfrac{1}{n_1-1}\sum_{i=1}^{n_1}(X_{1i}-\bar{X}_1)^2,\ \ S_2^2=\cfrac{1}{n_2-1}\sum_{i=1}^{n_2}(X_{2i}-\bar{X}_2)^2\end{gather}

であり、$\nu$は次で与えられる。

\begin{align}\nu = \cfrac{(s_1^2/n_1+s_2^2/n_2)^2}{s_1^4/n_1^2(n_1-1)+s_2^4/n_2^2(n_2-1)}\end{align}

また、有意水準$\alpha$の棄却域は次で与えられる。

\begin{align}( -\infty, - t_{\nu, \alpha/ 2}) \cup (t_{\nu, \alpha/ 2}, \infty), \end{align}

関数t.test

関数t.testでt検定を実行することができます。以下、t.testとその引数です。

# S3 method for default
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, …)
# S3 method for formula
t.test(formula, data, subset, na.action, …)

関数t.testの引数
x	numeric型のベクトル。1つ目のグループの標本（観測値）。
y	numeric型のベクトル。2つ目のグループの標本（観測値）。
alternative	character型。"two.sided"で両側検定、"greater"で右片側検定、"less"で左片側検定を指定できる。
mu	numeric型。帰無仮説の下での母平均、または母平均の差の値。
paired	logical型。TRUEのとき対応のある2標本検定を行う。
var.equal	logical型。TRUEのとき等分散性を仮定する。
conf.level	numeric型。信頼区間を計算する際の信頼度数。
formula	formula型。lhs ~ rhsと書き、lhsはnumeric型の変数でrhsは2つのlevelsから成るfactor型の変数。
data	データフレーム。検定に用いるデータセット。
subset	どの観測値を検定に用いるか指定するためのベクトル。
na.action	dataがNAを含む場合どうするか。

実行例

次のパッケージggplot2とgridExtraをインストールしましょう。ヒストグラムや箱ひげ図のプロットの際に用います。

#2標本検定
install.packages("ggplot2")
install.packages("gridExtra")
library(ggplot2)
library(gridExtra)

#2標本検定

install.packages("ggplot2")

install.packages("gridExtra")

library(ggplot2)

library(gridExtra)

2標本のt検定は、関数t.testを用いることで、行うことができます。データセットとして次のToothLengthを使います。

> #2群の分散が等しいとき
> dataset <- ToothGrowth
> head(dataset)
   len supp dose
1  4.2   VC  0.5
2 11.5   VC  0.5
3  7.3   VC  0.5
4  5.8   VC  0.5
5  6.4   VC  0.5
6 10.0   VC  0.5

> #2群の分散が等しいとき

> dataset <- ToothGrowth

> head(dataset)

len supp dose

1 4.2 VC 0.5

2 11.5 VC 0.5

3 7.3 VC 0.5

4 5.8 VC 0.5

5 6.4 VC 0.5

6 10.0 VC 0.5

ToothLengthは歯の長さlenや薬の種類suppなどの変数から構成されています。

supp別にlenのヒストグラムや経験密度、箱ひげ図をプロットすると下の画像のようになります。

histPlot <- ggplot(dataset, aes(x = len, y = ..density.., colour = supp, fill = supp)) +
              geom_histogram(position = "identity", bins = 25, alpha = 0.75) +
              geom_density(stat = "density", position = "identity", alpha = 0.75) +
              xlim(min(dataset$len), max(dataset$len))

boxPlot <- ggplot(dataset, aes(x = len, y = supp, fill = supp)) +
             geom_boxplot(alpha = 0.75, colour = "gray")

grid.arrange(histPlot, boxPlot)

histPlot <- ggplot(dataset, aes(x = len, y = ..density.., colour = supp, fill = supp)) +

geom_histogram(position = "identity", bins = 25, alpha = 0.75) +

geom_density(stat = "density", position = "identity", alpha = 0.75) +

xlim(min(dataset$len), max(dataset$len))

boxPlot <- ggplot(dataset, aes(x = len, y = supp, fill = supp)) +

geom_boxplot(alpha = 0.75, colour = "gray")

grid.arrange(histPlot, boxPlot)

また、supp別のlenの散布図は以下の通りです。

ggplot(dataset, aes(x = supp, y = len, color = supp)) +
  geom_dotplot(binaxis = "y", stackdir = "center") +
  stat_summary(fun.y = mean,
               fun.ymin = function(x) mean(x), 
               fun.ymax = function(x) mean(x),
               geom = "crossbar", width = 0.4) + 
  stat_summary(fun.ymin = function(x) mean(x) - sd(x), 
               fun.ymax = function(x) mean(x) + sd(x), 
               geom = 'errorbar', width = 0.3)

ggplot(dataset, aes(x = supp, y = len, color = supp)) +

geom_dotplot(binaxis = "y", stackdir = "center") +

stat_summary(fun.y = mean,

fun.ymin = function(x) mean(x),

fun.ymax = function(x) mean(x),

geom = "crossbar", width = 0.4) +

stat_summary(fun.ymin = function(x) mean(x) - sd(x),

fun.ymax = function(x) mean(x) + sd(x),

geom = 'errorbar', width = 0.3)

suppの種類によってlenの異なることが分かります。VCよりもOJの方がlenが大きいことが図から読み取れます。

実際に、t検定で統計的に2つのグループに差があるのかを確かめてみようと思います。

レッドブルエナジードリンク 250ml×24本

¥3,509 （2022/06/11 02:16時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

ZONe Ver.2.2.0 type-T エナジードリンク 500mlx24本

¥4,036 （2022/06/11 02:41時点 | Amazon調べ）

Amazon

楽天市場

Yahooショッピング

ポチップ

2群の分散が等しいとき

まずは、2つのグループの母分散が等しいと仮定した場合の検定について解説します。

「suppがVCのグループとOJのグループでlenが異なるか」という仮説検定を実行したいと思います。

この仮説検定を実行するには、関数t.testの引数を次のように設定します。

引数var.equal=TRUEにすることで、2グループの等分散性を仮定したt検定を実行することができます。

また、1行目のようにt.testの引数formulaを指定する方法と5行目のように引数xとyを指定する方法の2通りがあります。

testResult <- t.test(len ~ supp, data = dataset, var.equal = TRUE)

len_VC <- dataset$len[dataset$supp == "VC"]
len_OJ <- dataset$len[dataset$supp == "OJ"]
t.test(len_VC, len_OJ, var.equal = TRUE) #formulaを用いない場合

testResult <- t.test(len ~ supp, data = dataset, var.equal = TRUE)

len_VC <- dataset$len[dataset$supp == "VC"]

len_OJ <- dataset$len[dataset$supp == "OJ"]

t.test(len_VC, len_OJ, var.equal = TRUE) #formulaを用いない場合

testResult を参照すると、コンソールにt検定の結果が表示されます。

> testResult

	Two Sample t-test

data:  len by supp
t = 1.9153, df = 58, p-value = 0.06039
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1670064  7.5670064
sample estimates:
mean in group OJ mean in group VC 
        20.66333         16.96333

> testResult

Two Sample t-test

data: len by supp

t = 1.9153, df = 58, p-value = 0.06039

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.1670064 7.5670064

sample estimates:

mean in group OJ mean in group VC

20.66333 16.96333

検定統計量やp値、信頼区間などの値が書いてあるのが分かります。

ポイント

今、「p-value = 0.06039」であることから、有意水準0.05の下で2つのVCとOJによってlenに違いがあるとはいえないという結論が得られました。ただし、結果の解釈に注意が必要です（有意水準次第で解釈が変わってきます）。

これらの検定結果を取得したいときは、次のようにtestResultのうしろに$をつけます。検定統計量、自由度、p値、母平均の信頼区間、標本平均、帰無仮説の下での母平均の差の値などを取得できます。

stat <- testResult$statistic    #検定統計量t値
df <- testResult$parameter        #t分布の自由度
pValue <- testResult$p.value      #p値
CI <- testResult$conf.int         #母平均の差の信頼区間
sampleMean <- testResult$estimate #2群の標本平均
diffMu <- testResult$null.value      #帰無仮説の下での母平均の差:μ1-μ2=0

stat <- testResult$statistic #検定統計量t値

df <- testResult$parameter #t分布の自由度

pValue <- testResult$p.value #p値

CI <- testResult$conf.int #母平均の差の信頼区間

sampleMean <- testResult$estimate #2群の標本平均

diffMu <- testResult$null.value #帰無仮説の下での母平均の差:μ1-μ2=0

また、次のようにデータフレームに格納すると、csvファイル等に保存するときに便利です。

#検定結果をデータフレームにまとめる
resultTable_equalVar <- data.frame(stat = stat, d.f. = df,
                                   c.i.lower = CI[1], c.i.upper = CI[2], 
                                   p.value = pValue, row.names = NULL)

#検定結果をデータフレームにまとめる

resultTable_equalVar <- data.frame(stat = stat, d.f. = df,

c.i.lower = CI[1], c.i.upper = CI[2],

p.value = pValue, row.names = NULL)

2群の分散が等しくないとき

次に、2群の分散が等しくないときのt検定、すなわちウェルチのt検定の実行方法について紹介します。

ウェルチのt検定を行うには、次のようにt.testの引数var.equalをFLASEにします。関数t.testの引数var.equalはデフォルトでFALSEであるため、var.equal = FALSEは書かなくても大丈夫です。

#2群の分散が等しくないとき
testResult <- t.test(len ~ supp, data = dataset, var.equal = FALSE)

1 2	#2群の分散が等しくないとき testResult <- t.test(len ~ supp, data = dataset, var.equal = FALSE)

testResultを参照すると、次のように検定結果が格納されていることが分かります。

> testResult 

	Welch Two Sample t-test

data:  len by supp
t = 1.9153, df = 55.309, p-value = 0.06063
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1710156  7.5710156
sample estimates:
mean in group OJ mean in group VC 
        20.66333         16.96333

> testResult

Welch Two Sample t-test

data: len by supp

t = 1.9153, df = 55.309, p-value = 0.06063

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.1710156 7.5710156

sample estimates:

mean in group OJ mean in group VC

20.66333 16.96333

ポイント

分散が等しいときと同じく、「p-value = 0.06063」であることから、有意水準0.05の下で2つのVCとOJによってlenに違いがあるとはいえないという結論が得られました。有意水準0.1だと、「VCとOJ間でlenに差がないとはいえない」という結果が得られます。

分散が等しい場合と同様に次のようにすることで、このウェルチのt検定の結果を取得することが可能です。これらの検定結果をデータフレームに格納する例を以下に載せます。

stat <- testResult$statistic    #検定統計量t値
df <- testResult$parameter        #t分布の自由度
pValue <- testResult$p.value      #p値
CI <- testResult$conf.int         #母平均の差の信頼区間
sampleMean <- testResult$estimate #2群の標本平均
diffMu <- testResult$null.value      #帰無仮説の下での母平均の差:μ1-μ2=0

resultTable_notEqualVar <- data.frame(stat = stat, d.f. = df,
                                      c.i.lower = CI[1], c.i.upper = CI[2],
                                      p.value = pValue, row.names = NULL)

stat <- testResult$statistic #検定統計量t値

df <- testResult$parameter #t分布の自由度

pValue <- testResult$p.value #p値

CI <- testResult$conf.int #母平均の差の信頼区間

sampleMean <- testResult$estimate #2群の標本平均

diffMu <- testResult$null.value #帰無仮説の下での母平均の差:μ1-μ2=0

resultTable_notEqualVar <- data.frame(stat = stat, d.f. = df,

c.i.lower = CI[1], c.i.upper = CI[2],

p.value = pValue, row.names = NULL)

最後に、検定結果をcsvファイルへ保存する例を紹介します。

分散が等しい場合と異なる場合の2種類のt検定の結果をcsvファイルへ出力したいと思います。

まず、2種類の検定結果が格納されたデータフレームを次のように縦に結合させて、名前を各検定名に変更します。あとは結合させたデータフレームを関数write.csvでcsvファイルへ出力すればおｋです。

resultTable <- rbind(resultTable_equalVar, resultTable_notEqualVar)
rownames(resultTable) <- c("Student_t", "Welch_t") #検定結果表の行名を検定名にする

write.csv(resultTable, "母平均の差の検定.csv") #csvファイルへの出力

resultTable <- rbind(resultTable_equalVar, resultTable_notEqualVar)

rownames(resultTable) <- c("Student_t", "Welch_t") #検定結果表の行名を検定名にする

write.csv(resultTable, "母平均の差の検定.csv") #csvファイルへの出力

上記を実行すると次の画像のcsvファイルを作ることができます。

片側仮説検定

補足として、片側検定の実行方法についても紹介します。

片側検定は次のように、t.testの引数alternativeを指定することで行うことができます。

alternative="greater"で右片側検定、alternative = "less"で左片側検定が実行できます。

#片側仮説検定
testResult <- t.test(len ~ supp, data = dataset, alternative = "greater")
t.test(len ~ supp, data = dataset, alternative = "less")

#片側仮説検定

testResult <- t.test(len ~ supp, data = dataset, alternative = "greater")

t.test(len ~ supp, data = dataset, alternative = "less")

上のように引数formulaで実行した場合、suppのlevelsの順番がグループの番号に対応します。つまりsuppのlevelsはOJ、VCの順なので、2行目の左片側検定の対立仮説は「OJのグループのlenの母平均<VCのグループのlenの母平均」となることに注意が必要です。

testResultを参照すると次のようになります。

> testResult

	Welch Two Sample t-test

data:  len by supp
t = 1.9153, df = 55.309, p-value = 0.03032
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 0.4682687       Inf
sample estimates:
mean in group OJ mean in group VC 
        20.66333         16.96333

> testResult

Welch Two Sample t-test

data: len by supp

t = 1.9153, df = 55.309, p-value = 0.03032

alternative hypothesis: true difference in means is greater than 0

95 percent confidence interval:

0.4682687 Inf

sample estimates:

mean in group OJ mean in group VC

20.66333 16.96333

ポイント

「p-value = 0.03032 < 0.05」より、suppがOJのグループのlenよりVCのグループのlenは等しいとは言えないという結論が出ました。

OJのグループよりもVCのグループの方がlenは大きいということが分かりました。

以下、検定結果をデータフレームに格納する例です。

stat <- testResult$statistic      #検定統計量t値
df <- testResult$parameter        #t分布の自由度
pValue <- testResult$p.value      #p値
CI <- testResult$conf.int         #母平均の差の信頼区間
sampleMean <- testResult$estimate #2群の標本平均
diffMu <- testResult$null.value   #帰無仮説の下での母平均の差:μ1-μ2=0

resultTable <- data.frame(stat = stat, d.f. = df, 
                          c.i.lower = CI[1], c.i.upper = CI[2],
                          p.value = pValue, row.names = NULL)

stat <- testResult$statistic #検定統計量t値

df <- testResult$parameter #t分布の自由度

pValue <- testResult$p.value #p値

CI <- testResult$conf.int #母平均の差の信頼区間

sampleMean <- testResult$estimate #2群の標本平均

diffMu <- testResult$null.value #帰無仮説の下での母平均の差:μ1-μ2=0

resultTable <- data.frame(stat = stat, d.f. = df,

c.i.lower = CI[1], c.i.upper = CI[2],

p.value = pValue, row.names = NULL)

まとめ

R言語で2標本t検定を実行する関数やその実行例をみていきました。

関数t.testを用いることで2標本の母平均の差を実行することができます。

引数var.equalによってStudentのt検定、Welchのt検定を選択することができます。

usagi-san

統計学とゲームとかをメインに解説していくよ。数式とかプログラミングコードにミスがあったり質問があったりする場合はコメントで受け付けます。すぐに対応します。

2024/04/28

【R言語】F検定テンプレートスクリプト

2024/04/28

【R言語】経験密度関数・経験分布関数のプロット　関数densityとecdfの使い方

2024/04/10

【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方

usagi-sanの記事をもっと見る

-R言語
-R言語, プログラミング, 統計学, 統計解析

comment コメントをキャンセル

: R言語
【R言語】ベータ関数とガンマ関数　関数beta, gammaの使い方
R言語でベータ関数とガンマ関数を計算する関数とその実行例についてまとめました。階乗を複素数に拡張した特殊関数であるガンマ関数とそれに関連するベータ関数をR言語で計算する方法を紹介します。この記事で ...

: R言語
【R言語】バートレット検定　bartlett.testの使い方
R言語でバートレット検定を実行する関数とその実行例について解説していきます。この記事では、多群の等分散性の検定であるバートレット検定の概要やR言語での実行例を扱っています。 2群のF検定については、 ...

: R言語
【R言語】ポアソン検定　poisson.testの使い方
R言語でポアソン検定を実行する関数とその実行例を紹介します。あるイベント数に関するデータがあるときに、イベントの単位時間当たりの発生頻度を検定する際に用いるポアソン検定について見ていきます。この記 ...

: R言語
【R言語】パッケージのインストール　CRAN, GitHub, Bioconductor
R言語のパッケージのインストールの仕方についてまとめました。この記事では、以下のようにCRANだけでなくや他のgit等のリモートリポジトリからパッケージをインストールする手順を解説しています。 CR ...

: R言語
【R言語】文字列の操作・正規表現
R言語で文字列（character型）の変数の操作方法について解説します。ここでは、検索、置換、切り出し、結合、分割といった基本的な操作を実行する関数やその実行例を紹介していきます。文字列に関する ...

連続分布のモーメント【統計学】

R言語　分散分析ANOVAで多群の比較を行う【初心者向け】

【R言語】関数t.testを用いた2標本t検定・母平均の差の検定

【R言語】関数t.testを用いた母平均の検定 1標本t検定

2標本t検定

検定の概要

関数t.test

実行例

2群の分散が等しいとき

2群の分散が等しくないとき

片側仮説検定

まとめ

【R言語】関数t.testを用いた母平均の検定　1標本t検定