この資料は、本研究で使用した統計手法を「何を、どう比べているのか」に焦点を当てて、例え話と実データで解説するものです。
「同じ人」が介入の前後で状態が変わったかを調べる検定です。ポイントは変わった人だけに注目すること。
75人の社員に「今日傘を持ってきましたか?」と朝と夕方に聞きます。
McNemar検定は「なくした人」と「借りた人」の数が同じくらいかを調べます。大きく違えば「何かが起きた」と言えます。
各J-CHS項目について「該当(1)→非該当(0)」に変わった人(改善)と「非該当(0)→該当(1)」に変わった人(悪化)を数えます。
| 項目 | 改善(1→0) | 悪化(0→1) | OR | p値 |
|---|---|---|---|---|
| 運動習慣低下 | 18名 | 2名 | 9.0 | 0.0004 |
| 握力低下 | 10名 | 2名 | 5.0 | 0.039 |
| 疲労感 | 10名 | 4名 | 2.5 | 0.180 |
| 体重減少 | 13名 | 9名 | 1.4 | 0.524 |
| 歩行速度低下 | 6名 | 2名 | 3.0 | 0.289 |
サイコロを1回振って6が出る確率は1/6(約17%)。でも5回振れば、少なくとも1回は6が出る確率は60%に跳ね上がります。
統計検定も同じ。5項目を検定すれば、本当は差がなくても「偶然p<0.05になる」確率が高くなります。これを多重比較問題と呼びます。
5つのp値を小さい順に並べ、小さい方から順に厳しい基準を適用します。
| 項目 | 生のp値 | Holm補正後 | 判定 |
|---|---|---|---|
| 運動習慣低下 | 0.0004 | 0.002 | 有意 |
| 握力低下 | 0.039 | 0.154 | ns |
| 疲労感 | 0.180 | 0.539 | ns |
| 歩行速度低下 | 0.289 | 0.578 | ns |
| 体重減少 | 0.524 | 0.578 | ns |
子どもの成績を予測したいとします。「勉強時間」だけでなく「睡眠時間」「朝食の有無」も影響しそうです。
重回帰分析は「他の条件を揃えたうえで、各要因がどれだけ影響しているか」を同時に調べます。
「勉強時間が1時間増えると、睡眠と朝食が同じ条件なら、点数は+5点」のように分離できます。
モデルが「どれだけうまく予測できるか」の指標。0〜1の値で、1に近いほど良い。
予測が全然当たらない。サイコロを振るのと同じ。
フレイル変化の54%を3つの要因で説明できる。社会科学では「高い」水準。
カレーに塩・胡椒・ガラムマサラを入れたら美味しくなった(ベースモデル)。
そこに「パセリ」を追加して味が変わるか?→ F検定は「パセリを入れた意味があったか」を判定する検定です。
味が変わらなければ「パセリは不要」。
ベースモデル(初回フレイル得点 + 性別 + BMI)に、身体機能指標を1つずつ追加して「味が変わるか」を検定。
| 追加した「パセリ」 | F値 | p値 | R²の変化 |
|---|---|---|---|
| + TUG | 0.19 | 0.668 | -0.005 |
| + 5回立ち座り | 0.04 | 0.841 | -0.006 |
| + 2ステップ値 | 0.01 | 0.917 | -0.007 |
| + 全部入り | 0.07 | 0.977 | -0.019 |
75人にお弁当の評価を聞いたら平均4.2点でした。でも「たまたまこの75人だから4.2」であって、別の75人に聞いたら3.8かもしれません。
ブートストラップは「75人から重複ありで75人を何度もくじ引きして、そのたびに平均を計算する」方法です。10,000回繰り返すと、平均値のばらつきが分かります。
10,000回のくじ引きの結果を小さい順に並べて、下から2.5%目〜97.5%目の範囲。
本研究の例:
主観構成比の95%CIが [44%, 88%] ということは、「くじ引きを繰り返しても、主観の構成比は最低でも44%、つまり少なくとも半分近くは主観的項目の変化」と言える。
10万人の試験で「平均0.1kg減った、p<0.001」。統計的には有意!でも0.1kgって意味ある?
逆に20人の試験で「平均5kg減った、p=0.08」。統計的には非有意。でも5kgの減量は臨床的に大きい。
p値は「確からしさ」、効果量は「大きさ」。両方見る必要がある。
| d の値 | 解釈 | 本研究の例 |
|---|---|---|
| 0.2 | 小さい効果 | — |
| 0.5 | 中程度の効果 | フレイル得点変化 d=0.49 |
| 0.8 | 大きい効果 | — |
運動習慣低下のOR=9.0は「改善した人が悪化した人の9倍いた」という意味。
本研究の効果量まとめ
AクラスとBクラスでどっちが速いか比べたい。でも1人だけ100秒(歩いた?)がいて平均が狂います。
Mann-Whitney U検定はタイムの代わりに「順位」で比べます。全員を混ぜて1位〜全員分の順位をつけ、「Aクラスの順位の合計」と「Bクラスの順位の合計」を比べます。外れ値の影響を受けにくい。
女性53名と男性22名のフレイル得点変化量を順位で比較。
結果: p = 0.034, d = 0.58
ただし男性がn=22と少なく、事後検出力が0.63(本来0.80以上が望ましい)なので、「示唆的所見」として報告にとどめています。
たまたま調子が悪くて30点だった生徒が、2回目のテストで50点になった。「勉強法が効いた!」と思いたいですが、たまたま悪かった人は次は普通に戻るだけかもしれません。
これが「平均への回帰(RTM)」。初回フレイル得点が高い人ほど変化量が大きいのは、介入の効果ではなくRTMの可能性があります。
3ヶ月間の料理教室の後に「料理の腕は上がりましたか?」と聞かれたら、お世話になった先生の前で「変わりません」とは言いにくい。
これが社会的望ましさバイアス。プログラムに参加した後は「良くなった」と答えやすくなる。
75人 → C型参加 → 再評価
「変化した」とは言えるが
「C型のおかげで変化した」とは言えない
75人 → C型 → 再評価
75人 → 何もしない → 再評価
2群の差 = C型の効果
フレイル得点は 1.28 → 0.77 に変化(Wilcoxon検定 p<0.001)
→ 「偶然ではない変化が起きた」(ただし原因は特定できない)
5項目それぞれを McNemar検定 → Holm法で補正
→ 運動習慣低下のみが「5回検定しても偶然と言えない」レベルで変化(OR=9.0)
総変化ポイントを項目ごとに分解(算術的な構成比)
→ 主観68.4%(ブートストラップ95%CI: 44-88%)
重回帰分析で初回得点・性別・BMIが関連要因(adj.R²=0.54)
→ 身体機能(TUG等)をF検定で追加 → 全て関連なし
対照群なし → RTM・回答バイアスの影響を排除できない
性別差 → 検出力不足で示唆的所見にとどめる
構成比 → 算術的分解であり因果的寄与ではない