統計ガイド
— 介護予防C型フレイル研究で使った手法 —

この資料は、本研究で使用した統計手法を「何を、どう比べているのか」に焦点を当てて、例え話と実データで解説するものです。

目次 1. McNemar検定 — 同じ人の「前」と「後」を比べる 2. 多重比較補正(Holm法) — たくさん検定したときの保険 3. 重回帰分析 — 複数の要因を同時に考慮する 4. 階層的回帰 + F検定 — 「追加する意味があるか」を調べる 5. ブートストラップ法 — 「くじ引き」で信頼区間を作る 6. 効果量(Cohen's d, OR) — 「差の大きさ」を測る 7. Mann-Whitney U検定 — 2グループの順位を比べる 8. 注意すべきバイアス — 結果をゆがめる落とし穴 9. まとめ:本研究のストーリーを統計で読む

1. McNemar検定 — 同じ人の「前」と「後」を比べる

何をしているか

「同じ人」が介入の前後で状態が変わったかを調べる検定です。ポイントは変わった人だけに注目すること。

たとえ話:傘を持ってきたか

75人の社員に「今日傘を持ってきましたか?」と朝と夕方に聞きます。

McNemar検定は「なくした人」と「借りた人」の数が同じくらいかを調べます。大きく違えば「何かが起きた」と言えます。

本研究での使い方

各J-CHS項目について「該当(1)→非該当(0)」に変わった人(改善)と「非該当(0)→該当(1)」に変わった人(悪化)を数えます。

項目改善(1→0)悪化(0→1)ORp値
運動習慣低下18名2名9.00.0004
握力低下10名2名5.00.039
疲労感10名4名2.50.180
体重減少13名9名1.40.524
歩行速度低下6名2名3.00.289
読み方:運動習慣低下では改善18名 vs 悪化2名。「改善した人が悪化した人の9倍いる」(OR=9.0)。これが偶然起きる確率はp=0.0004(0.04%)なので、偶然とは考えにくい。

2. 多重比較補正(Holm法)— たくさん検定したときの保険

なぜ必要か

たとえ話:サイコロの出目

サイコロを1回振って6が出る確率は1/6(約17%)。でも5回振れば、少なくとも1回は6が出る確率は60%に跳ね上がります。

統計検定も同じ。5項目を検定すれば、本当は差がなくても「偶然p<0.05になる」確率が高くなります。これを多重比較問題と呼びます。

Holm法のやり方

5つのp値を小さい順に並べ、小さい方から順に厳しい基準を適用します。

1番小さいp × 5 ≤ 0.05? → Yes → 有意
2番目のp × 4 ≤ 0.05? → Yes → 有意
3番目のp × 3 ≤ 0.05? → No → ここで打ち止め(以降すべてns)
項目生のp値Holm補正後判定
運動習慣低下0.00040.002有意
握力低下0.0390.154ns
疲労感0.1800.539ns
歩行速度低下0.2890.578ns
体重減少0.5240.578ns
結果:握力低下は生のp値では有意(0.039)でしたが、5回検定したことを考慮すると有意とは言えなくなりました。運動習慣低下だけが「5回検定しても偶然とは言えない」レベルの変化でした。

3. 重回帰分析 — 複数の要因を同時に考慮する

何をしているか

たとえ話:テストの点数

子どもの成績を予測したいとします。「勉強時間」だけでなく「睡眠時間」「朝食の有無」も影響しそうです。

重回帰分析は「他の条件を揃えたうえで、各要因がどれだけ影響しているか」を同時に調べます。

「勉強時間が1時間増えると、睡眠と朝食が同じ条件なら、点数は+5点」のように分離できます。

本研究の結果

フレイル得点変化 = 1.30 + 0.52 × 初回得点 − 0.56 × 性別 − 0.06 × BMI
各係数の意味:

調整R²とは

モデルが「どれだけうまく予測できるか」の指標。0〜1の値で、1に近いほど良い。

R²=0の世界

予測が全然当たらない。サイコロを振るのと同じ。

R²=0.54(本研究)

フレイル変化の54%を3つの要因で説明できる。社会科学では「高い」水準。

4. 階層的回帰 + F検定 — 「追加する意味があるか」

何をしているか

たとえ話:料理のレシピ

カレーに塩・胡椒・ガラムマサラを入れたら美味しくなった(ベースモデル)。

そこに「パセリ」を追加して味が変わるか?→ F検定は「パセリを入れた意味があったか」を判定する検定です。

味が変わらなければ「パセリは不要」。

本研究での使い方

ベースモデル(初回フレイル得点 + 性別 + BMI)に、身体機能指標を1つずつ追加して「味が変わるか」を検定。

追加した「パセリ」F値p値R²の変化
+ TUG0.190.668-0.005
+ 5回立ち座り0.040.841-0.006
+ 2ステップ値0.010.917-0.007
+ 全部入り0.070.977-0.019
読み方:どの身体機能を追加しても p > 0.05 で、R²はむしろ下がっています。「パセリを入れても味は変わらなかった」。しかも7種類の調理法(標準化・対数変換・rank変換・Winsorize・外れ値除外・ロバスト回帰・非線形)すべてで同じ結論でした。

5. ブートストラップ法 — 「くじ引き」で信頼区間を作る

何をしているか

たとえ話:お弁当の満足度調査

75人にお弁当の評価を聞いたら平均4.2点でした。でも「たまたまこの75人だから4.2」であって、別の75人に聞いたら3.8かもしれません。

ブートストラップは「75人から重複ありで75人を何度もくじ引きして、そのたびに平均を計算する」方法です。10,000回繰り返すと、平均値のばらつきが分かります。

95%信頼区間(CI)とは

10,000回のくじ引きの結果を小さい順に並べて、下から2.5%目〜97.5%目の範囲。

本研究の例:

主観構成比の95%CIが [44%, 88%] ということは、「くじ引きを繰り返しても、主観の構成比は最低でも44%、つまり少なくとも半分近くは主観的項目の変化」と言える。

なぜ使うか:通常の統計的信頼区間は「データが正規分布している」という仮定が必要。フレイル得点は整数(0〜5)なので正規分布しにくい。ブートストラップは分布の仮定なしに信頼区間を作れるので、こういう場面で威力を発揮します。

6. 効果量(Cohen's d, OR)— 「差の大きさ」を測る

p値だけでは分からないこと

たとえ話:ダイエット薬

10万人の試験で「平均0.1kg減った、p<0.001」。統計的には有意!でも0.1kgって意味ある?

逆に20人の試験で「平均5kg減った、p=0.08」。統計的には非有意。でも5kgの減量は臨床的に大きい。

p値は「確からしさ」、効果量は「大きさ」。両方見る必要がある。

Cohen's d(連続データの差の大きさ)

d = 平均の差 ÷ 標準偏差
d の値解釈本研究の例
0.2小さい効果
0.5中程度の効果フレイル得点変化 d=0.49
0.8大きい効果

オッズ比(OR)(「何倍か」を測る)

OR = 改善した人数 ÷ 悪化した人数

運動習慣低下のOR=9.0は「改善した人が悪化した人の9倍いた」という意味。

本研究の効果量まとめ

7. Mann-Whitney U検定 — 2グループの順位を比べる

何をしているか

たとえ話:AクラスとBクラスの50m走

AクラスとBクラスでどっちが速いか比べたい。でも1人だけ100秒(歩いた?)がいて平均が狂います。

Mann-Whitney U検定はタイムの代わりに「順位」で比べます。全員を混ぜて1位〜全員分の順位をつけ、「Aクラスの順位の合計」と「Bクラスの順位の合計」を比べます。外れ値の影響を受けにくい。

本研究での使い方

女性53名と男性22名のフレイル得点変化量を順位で比較。

結果: p = 0.034, d = 0.58

ただし男性がn=22と少なく、事後検出力が0.63(本来0.80以上が望ましい)なので、「示唆的所見」として報告にとどめています。

8. 注意すべきバイアス — 結果をゆがめる落とし穴

8a. 平均への回帰(Regression to the Mean)

たとえ話:100点満点のテスト

たまたま調子が悪くて30点だった生徒が、2回目のテストで50点になった。「勉強法が効いた!」と思いたいですが、たまたま悪かった人は次は普通に戻るだけかもしれません。

これが「平均への回帰(RTM)」。初回フレイル得点が高い人ほど変化量が大きいのは、介入の効果ではなくRTMの可能性があります。

本研究での問題:初回フレイル得点は変化量の最大の予測因子(β=0.52)。しかしこれは「初回に悪い人ほど次は良くなる」というRTMそのものとも解釈できる。対照群がないため、RTMと真の変化を分離できない。

8b. 回答バイアス

たとえ話:満足度アンケート

3ヶ月間の料理教室の後に「料理の腕は上がりましたか?」と聞かれたら、お世話になった先生の前で「変わりません」とは言いにくい。

これが社会的望ましさバイアス。プログラムに参加した後は「良くなった」と答えやすくなる。

本研究での問題:J-CHSの主観項目(体重減少の自覚、疲労感、運動習慣)は自己報告。プログラム参加後に「最近運動してますか?→はい」と答えやすくなっている可能性がある。主観構成比68.4%という結果は、この回答バイアスを含んでいるかもしれない。

8c. 対照群がないこと

本研究のデザイン

75人 → C型参加 → 再評価
「変化した」とは言えるが
「C型のおかげで変化した」とは言えない

理想的なデザイン

75人 → C型 → 再評価
75人 → 何もしない → 再評価
2群の差 = C型の効果

だから本研究では:「効果」「改善」ではなく「変化」という言葉を使い、「C型サービスの効果で改善した」とは主張していません。あくまで「C型利用者のフレイル変化は主観的構成要素の変化が中心であった」という記述的な報告です。

9. まとめ:本研究のストーリーを統計で読む

ステップ1:全体の変化を確認

フレイル得点は 1.28 → 0.77 に変化(Wilcoxon検定 p<0.001)
→ 「偶然ではない変化が起きた」(ただし原因は特定できない)

ステップ2:どの項目が変化したか

5項目それぞれを McNemar検定Holm法で補正
→ 運動習慣低下のみが「5回検定しても偶然と言えない」レベルで変化(OR=9.0)

ステップ3:主観と客観、どちらが中心か

総変化ポイントを項目ごとに分解(算術的な構成比)
→ 主観68.4%(ブートストラップ95%CI: 44-88%)

ステップ4:何と関連しているか

重回帰分析で初回得点・性別・BMIが関連要因(adj.R²=0.54)
→ 身体機能(TUG等)をF検定で追加 → 全て関連なし

ステップ5:解釈に慎重になる

対照群なし → RTM・回答バイアスの影響を排除できない
性別差 → 検出力不足で示唆的所見にとどめる
構成比 → 算術的分解であり因果的寄与ではない

統計は「証明」ではなく「証拠の強さ」を示す道具です。
本研究では、主観的項目(特に運動習慣)の変化が大きいという記述的な事実を、複数の手法で確認し、解釈の限界も含めて報告しています。

作成: 2026-03-28 / 対象: 介護予防C型 J-CHS構成要素別フレイル変化パターン研究
Generated by Claude Code