統計ガイド
— 介護予防C型フレイル研究で使った手法 —

この資料は、本研究で使用した統計手法を「何を、どう比べているのか」に焦点を当てて、例え話と実データで解説するものです。

目次 1. McNemar検定 — 同じ人の「前」と「後」を比べる 2. 多重比較補正（Holm法） — たくさん検定したときの保険 3. 重回帰分析 — 複数の要因を同時に考慮する 4. 階層的回帰 + F検定 — 「追加する意味があるか」を調べる 5. ブートストラップ法 — 「くじ引き」で信頼区間を作る 6. 効果量（Cohen's d, OR） — 「差の大きさ」を測る 7. Mann-Whitney U検定 — 2グループの順位を比べる 8. 注意すべきバイアス — 結果をゆがめる落とし穴 9. まとめ：本研究のストーリーを統計で読む

1. McNemar検定 — 同じ人の「前」と「後」を比べる

何をしているか

「同じ人」が介入の前後で状態が変わったかを調べる検定です。ポイントは変わった人だけに注目すること。

たとえ話：傘を持ってきたか

75人の社員に「今日傘を持ってきましたか？」と朝と夕方に聞きます。

朝も夕方も「はい」→ ずっと持ってた人（変化なし）
朝も夕方も「いいえ」→ ずっと持ってない人（変化なし）
朝「はい」→ 夕方「いいえ」→ 傘をなくした人
朝「いいえ」→ 夕方「はい」→ 途中で傘を借りた人

McNemar検定は「なくした人」と「借りた人」の数が同じくらいかを調べます。大きく違えば「何かが起きた」と言えます。

本研究での使い方

各J-CHS項目について「該当(1)→非該当(0)」に変わった人（改善）と「非該当(0)→該当(1)」に変わった人（悪化）を数えます。

項目	改善(1→0)	悪化(0→1)	OR	p値
運動習慣低下	18名	2名	9.0	0.0004
握力低下	10名	2名	5.0	0.039
疲労感	10名	4名	2.5	0.180
体重減少	13名	9名	1.4	0.524
歩行速度低下	6名	2名	3.0	0.289

読み方：運動習慣低下では改善18名 vs 悪化2名。「改善した人が悪化した人の9倍いる」（OR=9.0）。これが偶然起きる確率はp=0.0004（0.04%）なので、偶然とは考えにくい。

2. 多重比較補正（Holm法）— たくさん検定したときの保険

なぜ必要か

たとえ話：サイコロの出目

サイコロを1回振って6が出る確率は1/6（約17%）。でも5回振れば、少なくとも1回は6が出る確率は60%に跳ね上がります。

統計検定も同じ。5項目を検定すれば、本当は差がなくても「偶然p<0.05になる」確率が高くなります。これを多重比較問題と呼びます。

Holm法のやり方

5つのp値を小さい順に並べ、小さい方から順に厳しい基準を適用します。

1番小さいp × 5 ≤ 0.05？ → Yes → 有意
2番目のp × 4 ≤ 0.05？ → Yes → 有意
3番目のp × 3 ≤ 0.05？ → No → ここで打ち止め（以降すべてns）

項目	生のp値	Holm補正後	判定
運動習慣低下	0.0004	0.002	有意
握力低下	0.039	0.154	ns
疲労感	0.180	0.539	ns
歩行速度低下	0.289	0.578	ns
体重減少	0.524	0.578	ns

結果：握力低下は生のp値では有意（0.039）でしたが、5回検定したことを考慮すると有意とは言えなくなりました。運動習慣低下だけが「5回検定しても偶然とは言えない」レベルの変化でした。

3. 重回帰分析 — 複数の要因を同時に考慮する

何をしているか

たとえ話：テストの点数

子どもの成績を予測したいとします。「勉強時間」だけでなく「睡眠時間」「朝食の有無」も影響しそうです。

重回帰分析は「他の条件を揃えたうえで、各要因がどれだけ影響しているか」を同時に調べます。

「勉強時間が1時間増えると、睡眠と朝食が同じ条件なら、点数は+5点」のように分離できます。

本研究の結果

フレイル得点変化 = 1.30 + 0.52 × 初回得点 − 0.56 × 性別 − 0.06 × BMI

各係数の意味：

初回フレイル得点 β=+0.52：初回に1点高い人は、性別・BMIが同じ条件で、変化量が0.52ポイント大きい
性別 β=−0.56：男性（=1）は女性に比べて変化量が0.56ポイント小さい
BMI β=−0.06：BMIが1上がると変化量が0.06ポイント小さい

調整R²とは

モデルが「どれだけうまく予測できるか」の指標。0〜1の値で、1に近いほど良い。

R²=0の世界

予測が全然当たらない。サイコロを振るのと同じ。

R²=0.54（本研究）

フレイル変化の54%を3つの要因で説明できる。社会科学では「高い」水準。

4. 階層的回帰 + F検定 — 「追加する意味があるか」

何をしているか

たとえ話：料理のレシピ

カレーに塩・胡椒・ガラムマサラを入れたら美味しくなった（ベースモデル）。

そこに「パセリ」を追加して味が変わるか？→ F検定は「パセリを入れた意味があったか」を判定する検定です。

味が変わらなければ「パセリは不要」。

本研究での使い方

ベースモデル（初回フレイル得点 + 性別 + BMI）に、身体機能指標を1つずつ追加して「味が変わるか」を検定。

追加した「パセリ」	F値	p値	R²の変化
+ TUG	0.19	0.668	-0.005
+ 5回立ち座り	0.04	0.841	-0.006
+ 2ステップ値	0.01	0.917	-0.007
+ 全部入り	0.07	0.977	-0.019

読み方：どの身体機能を追加しても p > 0.05 で、R²はむしろ下がっています。「パセリを入れても味は変わらなかった」。しかも7種類の調理法（標準化・対数変換・rank変換・Winsorize・外れ値除外・ロバスト回帰・非線形）すべてで同じ結論でした。

5. ブートストラップ法 — 「くじ引き」で信頼区間を作る

何をしているか

たとえ話：お弁当の満足度調査

75人にお弁当の評価を聞いたら平均4.2点でした。でも「たまたまこの75人だから4.2」であって、別の75人に聞いたら3.8かもしれません。

ブートストラップは「75人から重複ありで75人を何度もくじ引きして、そのたびに平均を計算する」方法です。10,000回繰り返すと、平均値のばらつきが分かります。

95%信頼区間（CI）とは

10,000回のくじ引きの結果を小さい順に並べて、下から2.5%目〜97.5%目の範囲。

本研究の例：

フレイル得点変化量: 0.51 95%CI [0.27, 0.75]
主観構成比: 68.4% 95%CI [44.0%, 87.9%]

主観構成比の95%CIが [44%, 88%] ということは、「くじ引きを繰り返しても、主観の構成比は最低でも44%、つまり少なくとも半分近くは主観的項目の変化」と言える。

なぜ使うか：通常の統計的信頼区間は「データが正規分布している」という仮定が必要。フレイル得点は整数（0〜5）なので正規分布しにくい。ブートストラップは分布の仮定なしに信頼区間を作れるので、こういう場面で威力を発揮します。

6. 効果量（Cohen's d, OR）— 「差の大きさ」を測る

p値だけでは分からないこと

たとえ話：ダイエット薬

10万人の試験で「平均0.1kg減った、p<0.001」。統計的には有意！でも0.1kgって意味ある？

逆に20人の試験で「平均5kg減った、p=0.08」。統計的には非有意。でも5kgの減量は臨床的に大きい。

p値は「確からしさ」、効果量は「大きさ」。両方見る必要がある。

Cohen's d（連続データの差の大きさ）

d = 平均の差 ÷ 標準偏差

d の値	解釈	本研究の例
0.2	小さい効果	—
0.5	中程度の効果	フレイル得点変化 d=0.49
0.8	大きい効果	—

オッズ比（OR）（「何倍か」を測る）

OR = 改善した人数 ÷ 悪化した人数

運動習慣低下のOR=9.0は「改善した人が悪化した人の9倍いた」という意味。

本研究の効果量まとめ

フレイル得点変化: d = 0.49（中程度）
運動習慣低下の変化: OR = 9.0（大きい）
性別差: d = 0.58（中程度）← ただし検出力不足で「示唆的」

7. Mann-Whitney U検定 — 2グループの順位を比べる

何をしているか

たとえ話：AクラスとBクラスの50m走

AクラスとBクラスでどっちが速いか比べたい。でも1人だけ100秒（歩いた？）がいて平均が狂います。

Mann-Whitney U検定はタイムの代わりに「順位」で比べます。全員を混ぜて1位〜全員分の順位をつけ、「Aクラスの順位の合計」と「Bクラスの順位の合計」を比べます。外れ値の影響を受けにくい。

本研究での使い方

女性53名と男性22名のフレイル得点変化量を順位で比較。

結果: p = 0.034, d = 0.58

ただし男性がn=22と少なく、事後検出力が0.63（本来0.80以上が望ましい）なので、「示唆的所見」として報告にとどめています。

8. 注意すべきバイアス — 結果をゆがめる落とし穴

8a. 平均への回帰（Regression to the Mean）

たとえ話：100点満点のテスト

たまたま調子が悪くて30点だった生徒が、2回目のテストで50点になった。「勉強法が効いた！」と思いたいですが、たまたま悪かった人は次は普通に戻るだけかもしれません。

これが「平均への回帰（RTM）」。初回フレイル得点が高い人ほど変化量が大きいのは、介入の効果ではなくRTMの可能性があります。

本研究での問題：初回フレイル得点は変化量の最大の予測因子（β=0.52）。しかしこれは「初回に悪い人ほど次は良くなる」というRTMそのものとも解釈できる。対照群がないため、RTMと真の変化を分離できない。

8b. 回答バイアス

たとえ話：満足度アンケート

3ヶ月間の料理教室の後に「料理の腕は上がりましたか？」と聞かれたら、お世話になった先生の前で「変わりません」とは言いにくい。

これが社会的望ましさバイアス。プログラムに参加した後は「良くなった」と答えやすくなる。

本研究での問題：J-CHSの主観項目（体重減少の自覚、疲労感、運動習慣）は自己報告。プログラム参加後に「最近運動してますか？→はい」と答えやすくなっている可能性がある。主観構成比68.4%という結果は、この回答バイアスを含んでいるかもしれない。

8c. 対照群がないこと

本研究のデザイン

75人 → C型参加 → 再評価
「変化した」とは言えるが
「C型のおかげで変化した」とは言えない

理想的なデザイン

75人 → C型 → 再評価
75人 → 何もしない → 再評価
2群の差 = C型の効果

だから本研究では：「効果」「改善」ではなく「変化」という言葉を使い、「C型サービスの効果で改善した」とは主張していません。あくまで「C型利用者のフレイル変化は主観的構成要素の変化が中心であった」という記述的な報告です。

9. まとめ：本研究のストーリーを統計で読む

ステップ1：全体の変化を確認

フレイル得点は 1.28 → 0.77 に変化（Wilcoxon検定 p<0.001）
→ 「偶然ではない変化が起きた」（ただし原因は特定できない）

ステップ2：どの項目が変化したか

5項目それぞれを McNemar検定 → Holm法で補正
→ 運動習慣低下のみが「5回検定しても偶然と言えない」レベルで変化（OR=9.0）

ステップ3：主観と客観、どちらが中心か

総変化ポイントを項目ごとに分解（算術的な構成比）
→ 主観68.4%（ブートストラップ95%CI: 44-88%）

ステップ4：何と関連しているか

重回帰分析で初回得点・性別・BMIが関連要因（adj.R²=0.54）
→ 身体機能（TUG等）をF検定で追加 → 全て関連なし

ステップ5：解釈に慎重になる

対照群なし → RTM・回答バイアスの影響を排除できない
性別差 → 検出力不足で示唆的所見にとどめる
構成比 → 算術的分解であり因果的寄与ではない

統計は「証明」ではなく「証拠の強さ」を示す道具です。
本研究では、主観的項目（特に運動習慣）の変化が大きいという記述的な事実を、複数の手法で確認し、解釈の限界も含めて報告しています。

作成: 2026-03-28 / 対象: 介護予防C型 J-CHS構成要素別フレイル変化パターン研究
Generated by Claude Code

統計ガイド— 介護予防C型フレイル研究で使った手法 —

1. McNemar検定 — 同じ人の「前」と「後」を比べる

何をしているか

本研究での使い方

2. 多重比較補正（Holm法）— たくさん検定したときの保険

なぜ必要か

Holm法のやり方

3. 重回帰分析 — 複数の要因を同時に考慮する

何をしているか

本研究の結果

調整R²とは

4. 階層的回帰 + F検定 — 「追加する意味があるか」

何をしているか

本研究での使い方

5. ブートストラップ法 — 「くじ引き」で信頼区間を作る

何をしているか

95%信頼区間（CI）とは

6. 効果量（Cohen's d, OR）— 「差の大きさ」を測る

p値だけでは分からないこと

Cohen's d（連続データの差の大きさ）

オッズ比（OR）（「何倍か」を測る）

7. Mann-Whitney U検定 — 2グループの順位を比べる

何をしているか

本研究での使い方

8. 注意すべきバイアス — 結果をゆがめる落とし穴

8a. 平均への回帰（Regression to the Mean）

8b. 回答バイアス

8c. 対照群がないこと

9. まとめ：本研究のストーリーを統計で読む

ステップ1：全体の変化を確認

ステップ2：どの項目が変化したか

ステップ3：主観と客観、どちらが中心か

ステップ4：何と関連しているか

ステップ5：解釈に慎重になる

統計ガイド
— 介護予防C型フレイル研究で使った手法 —