因果関係に関する疫学的研究における統計の役割については、多くの議論があります。 疫学では、統計は主に、人間 (および動物) の集団に基づいてデータを評価するための方法の集まりです。 特に、統計学は不確実な現象を定量化し、測定するための技術です。 現実の非決定論的で可変的な側面を扱うすべての科学的調査は、統計的方法論から恩恵を受ける可能性があります。 疫学では、変動性は観察単位に固有のものであり、人は決定論的な存在ではありません。 ランダムな変動に関して統計の仮定をよりよく満たすという点で実験計画は改善されるでしょうが、倫理的および実際的な理由から、このアプローチはあまり一般的ではありません. 代わりに、疫学は観察研究に従事しており、ランダムおよびその他の変動源の両方に関連しています。
統計理論は、経験的観察から有効な推論を行うために、データの構造化されていない変動性を制御する方法に関係しています。 調査された現象の可変挙動についての説明が欠けているため、統計はそれを次のように想定しています。 ランダム—つまり、自然界の平均的な状態からの非体系的な逸脱です (これらの仮定に対する批判については、Greenland 1990 を参照してください)。
科学は経験に頼る 証拠 自然現象の理論モデルが妥当性を持っているかどうかを実証すること。 実際、統計理論から使用される方法は、現実世界での観測が科学者の見解 (数学的モデル形式) にどの程度一致するかを決定します。 したがって、数学に基づく統計手法は慎重に選択する必要があります。 「統計で嘘をつく方法」についての例はたくさんあります。 したがって、疫学者は、病気のリスクを測定するために適用する技術の適切性を認識する必要があります。 特に、統計的に有意な結果と統計的に有意でない結果の両方を解釈する際には、細心の注意が必要です。
言葉の最初の意味 統計 一連の値で計算された集計数量に関連します。 算術平均、中央値、最頻値などの記述指標または統計は、一連の観察結果の情報を要約するために広く使用されています。 歴史的に、これらの要約記述子は州によって管理目的で使用されていたため、名前が付けられました。 統計. 疫学では、一般的に見られる統計は、疫学の性質に固有の比較から導き出されます。これは、次のような質問をします。 このような比較を行う場合、相対リスクは、個人の特徴と病気になる確率との間の関連の強さの一般的な尺度であり、病因研究で最も一般的に適用されます。 帰属リスクは、個人の特徴と病気の発生との関連の尺度でもありますが、問題の要因を取り除く介入によって免れる症例数の観点からの利益を強調しています。これは主に公衆衛生と予防医学に適用されます。
言葉の第二の意味 統計 技術のコレクションと統計的推論の基礎となる理論に関連しています。 これは、経験的観測の特定のセットから有効な一般化を取得するためのルールを指定する帰納的論理の特定の形式です。 この一般化は、いくつかの仮定が満たされていれば有効です。 これは、教育を受けていない統計の使用が私たちを欺く XNUMX つ目の方法です。観察疫学では、統計手法によって暗示された仮定を確信することは非常に困難です。 したがって、感度分析と堅牢な推定量は、正しく実施されたデータ分析の仲間でなければなりません。 また、最終的な結論は全体的な知識に基づいている必要があり、統計的仮説検定の結果だけに頼るべきではありません。
定義
A 統計単位 経験的観察が行われる要素です。 それは、人、生物学的標本、または分析対象の原材料の一部である可能性があります。 通常、統計単位は研究者が個別に選択しますが、より複雑なデザインを設定できる場合もあります。 たとえば、縦断研究では、時間の経過とともに一連の決定が行われます。 この研究の統計単位は一連の決定であり、独立したものではありませんが、研究対象の各個人とのそれぞれの関係によって構造化されています。 統計単位間の独立性または相関性の欠如は、統計分析において特別な注意を払う必要があります。
A 変数 特定の統計単位で測定された個々の特性です。 それは 定数、固定された個人の特性—たとえば、人間に関する研究では、頭または胸部を持つことは定数ですが、研究の単一のメンバーの性別は変数です.
変数はさまざまな方法で評価されます 測定の目盛り. 最初の違いは、質的尺度と量的尺度の間です。 質的変数はさまざまな情報を提供します モダリティ or カテゴリ. 各モダリティを他のモダリティ (髪の色や性別のモダリティなど) と比較してランク付けまたは順序付けできない場合、変数を次のように表します。 名目. 病気の重症度のように、カテゴリを順序付けできる場合、変数は呼び出されます。 序数. 変数が数値で構成されている場合、スケールは定量的であると言います。 あ 個別の スケールは、変数がいくつかの明確な値 (たとえば、疾患の症例数の整数値) のみを想定できることを示します。 あ 連続的な スケールは、結果として生じる測定に使用されます リアル 数字。 連続スケールは インターバル null 値が純粋に従来の意味を持つ場合にスケーリングします。 つまり、ゼロの値は量がゼロであることを意味しません。たとえば、摂氏 XNUMX 度の温度は、熱エネルギーがゼロであることを意味しません。 この例では、値の違いのみが意味を持ちます (これが「間隔」スケールという用語の理由です)。 実際のヌル値は、 比 規模。 そのスケールで測定された変数の場合、値の比率も意味があります。実際、XNUMX 倍の比率は量が XNUMX 倍であることを意味します。 たとえば、物体の温度が XNUMX 番目の物体の XNUMX 倍であるということは、XNUMX 番目の物体の XNUMX 倍の熱エネルギーがあることを意味します。 あれば 温度は比率スケールで測定されます (たとえば、ケルビン度)。 特定の変数の許容値のセットは、変数のドメインと呼ばれます。
統計パラダイム
統計は、一連の特定の観察から一般化する方法を扱います。 この一連の経験的測定値は、 サンプル. サンプルから、収集された情報を要約するためにいくつかの記述統計を計算します。
測定値のセットを特徴付けるために一般的に必要とされる基本的な情報は、その中心的な傾向とその変動性に関連しています。 いくつかの選択肢の中から選択することは、現象を測定するために使用されるスケールと、統計が計算される目的によって異なります。 表 1 では、中心傾向と変動性 (または分散) のさまざまな測定値が説明され、適切な測定スケールに関連付けられています。
表 1. 測定尺度別の中心傾向と分散の指標
測定の目盛り |
||||
|
|
|||
索引 |
定義 |
名目 |
序数 |
間隔/比率 |
算術平均 |
観測値の合計を観測の総数で割った値 |
|
|
x |
中央値 |
観測された分布の中点値 |
|
x |
x |
モード |
最頻値 |
x |
x |
x |
レンジ |
分布の最低値と最高値 |
|
x |
x |
分散 |
観測値の合計数から 1 を引いた値で割った平均値からの各値の差の XNUMX 乗の合計 |
|
|
x |
計算された記述統計量は呼び出されます 見積もり サンプルが選択された母集団の類似量の代用としてそれらを使用する場合。 推定値の対応する母集団は、定数と呼ばれる定数です。 パラメータ. 異なる統計手法を使用して、同じパラメーターの推定値を取得できます。 見積もりは有効かつ正確でなければなりません。
母集団サンプル パラダイムは、母集団からサンプルを選択する方法によって妥当性を保証できることを意味します。 ランダムまたは確率的サンプリングが通常の戦略です。母集団の各メンバーがサンプルに含まれる確率が同じである場合、平均して、サンプルは母集団を代表する必要があり、さらに、期待値からの偏差が発生する可能性があります。たまたま説明。 ランダム サンプリングが実行されていれば、期待値からの特定の偏差の確率も計算できます。 同じ種類の推論が、母集団パラメーターに関してサンプルに対して計算された推定値に適用されます。 たとえば、サンプルの算術平均を母集団の平均値の推定値として使用します。 サンプル平均と母集団平均の間に差がある場合は、サンプルに含まれるメンバーの選択プロセスにおけるランダムな変動に起因します。 サンプルが無作為に選択された場合、この差の任意の値の確率を計算できます。 サンプル推定値と母集団パラメーターの間の偏差が偶然に説明できない場合、推定値は次のようになります。 偏った. 観測または実験の設計は、推定値に妥当性を提供し、基本的な統計パラダイムは無作為抽出のパラダイムです。
医学では、異なるグループ間の比較が研究の目的である場合、XNUMX 番目のパラダイムが採用されます。 典型的な例は対照臨床試験です。事前に定義された基準に基づいて、類似した特性を持つ一連の患者が選択されます。 この段階では、代表性は考慮されません。 試験に登録された各患者は、標準治療と評価対象の新薬を投与する治療群、または標準治療とプラセボを投与する対照群に無作為に割り付けられます。 この設計では、各グループへの患者のランダムな割り当てが、サンプルのメンバーのランダムな選択に取って代わります。 XNUMX つのグループ間の差の推定値は統計的に評価できます。これは、新薬の有効性がないという仮説の下で、非ゼロの差の確率を計算できるためです。
疫学では、ランダムに暴露されたグループと暴露されていない人々のグループを集める可能性がありません。 この場合、分析されたグループがランダムに選択または割り当てられたかのように、統計的手法を使用できます。 この仮定の正しさは、主に研究デザインに依存します。 この点は特に重要であり、生物医学研究における統計的手法よりも疫学的研究デザインの重要性を強調しています。
信号とノイズ
用語 ランダム変数 定義された確率が、想定できる各値に関連付けられている変数を指します。 確率変数の確率分布の理論モデルは母集団モデルです。 対応するサンプルは、サンプル頻度分布によって表されます。 これは、一連のデータを報告する便利な方法です。 これは、横軸に対象の変数、縦軸に周波数または相対周波数をとったデカルト平面で構成されます。 グラフィック表示により、最も頻度の高い値と、分布が算術平均などの特定の中心値の周りにどのように集中しているかを簡単に確認できます。
確率変数とその確率分布については、次の用語を使用します パラメータ, 平均期待値 (算術平均の代わりに)および 分散. これらの理論モデルは、特定の現象の変動性を記述します。 情報理論では、信号は中心傾向 (平均値など) で表され、ノイズは分散指数 (分散など) で測定されます。
統計的推論を説明するために、二項モデルを使用します。 以降のセクションでは、点推定値と信頼区間の概念、仮説の検定と誤った決定の確率、および研究の検出力について説明します。
表 2. 二項実験の可能な結果 (はい = 1、いいえ = 0) とその確率 (n = 3)
ワーカー |
確率 |
||
A |
B |
C |
|
0 |
0 |
0 |
|
1 |
0 |
0 |
|
0 |
1 |
0 |
|
0 |
0 |
1 |
|
0 |
1 |
1 |
|
1 |
0 |
1 |
|
1 |
1 |
0 |
|
1 |
1 |
1 |
例: 二項分布
生物医学研究と疫学において、確率的変動の最も重要なモデルは二項分布です。 これは、ほとんどの現象が XNUMX つのカテゴリのみを持つ名義変数として動作するという事実に依存しています。たとえば、病気の有無: 生存/死亡、または回復/病気です。 このような状況では、私たちは成功の確率、つまり、関心のあるイベント (病気の存在、生存、回復など) と、それを変える可能性のある要因または変数に関心があります。 考えさせて n = 3 人の作業員で、視覚障害がある確率 p に関心があるとします (はい/いいえ)。 私たちの観察の結果は、表 2 の可能な結果になる可能性があります。
表 3. 二項実験の可能な結果 (はい = 1、いいえ = 0) とその確率 (n = 3)
成功数 |
確率 |
0 |
|
1 |
|
2 |
|
3 |
これらのイベントの組み合わせのいずれかの確率は、各被験者に対して一定であり、他の結果から独立している (個々の) 成功確率である p を考慮することによって簡単に取得できます。 特定の順序付けられたシーケンスではなく、成功の総数に関心があるため、表を次のように並べ替えることができ (表 3 を参照)、一般に、次の確率を表します。 x 成功 P(x) を次のように定義しています:
コラボレー x は成功数と表記 x! の階乗を表す xすなわち、 x! = x×(x–1)×(x–2)…×1。
「病気である/病気ではない」という事象を個人確率で考えると、 対象が推定される状態を指します。 疫学では、この確率は「有病率」と呼ばれます。 p を推定するには、サンプル比率を使用します。
p = x/n
分散あり:
同じサイズの複製されたサンプルの仮想的な無限シリーズ n、異なるサンプル比率が得られます p = x/n, 二項式で与えられる確率で。 の「真の」値 は各サンプル比率によって推定され、p の信頼区間、つまり p の可能性のある値のセットは、観測されたデータと事前に定義された信頼レベル (たとえば 95%) が与えられた場合に、二項分布から次のように推定されます。の確率を与える p の値のセット x 事前に指定された値 (2.5% など) よりも大きい。 私たちが観察した仮説的な実験では x = で 15 回成功 n = 30 回の試行、推定成功確率は次のとおりです。
表 4. 二項分布。 の異なる値の確率 x = n = 15 回の試行で 30 回の成功
確率 |
|
0.200 |
0.0002 |
0.300 |
0.0116 |
0.334 |
0.025 |
0.400 |
0.078 |
0.500 |
0.144 |
0.600 |
0.078 |
0.666 |
0.025 |
0.700 |
0.0116 |
表 95 から得られる p の 4% 信頼区間は 0.334 – 0.666 です。 表の各エントリは、 x = で 15 回成功 n = 二項式で計算された 30 回の試行。 たとえば、 = 0.30、次から取得します。
n 大きくて p 0.5 に近い場合、ガウス分布に基づく近似を使用できます。
コラボレー za /2 確率の標準ガウス分布の値を示します
P (|z| ³ za /2) = a/2;
1 - 選択された信頼レベルです。 検討した例では、 = 15/30 = 0.5; n = 30 で、標準のガウス テーブルから z0.025 = 1.96。 95% 信頼区間の結果は、値のセット 0.321 ~ 0.679 になります。 p = 0.5、 n = 30 z0.025 = 1.96 をガウス分布の上記の式に代入します。 これらの値は、以前に計算された正確な値に近いことに注意してください。
仮説の統計的検定には、母集団パラメーターの値に関する決定手順が含まれます。 前の例で、特定の工場の労働者の間で視覚障害のリスクが高いという命題に対処したいとします。 私たちの経験的観察によって検証される科学的仮説は、「特定の工場の労働者の間で視覚障害のリスクが高い」というものです。 統計学者は、「視覚障害のリスクの上昇はない」という補完仮説を偽ることによって、そのような仮説を実証します。 これは、数学的デモンストレーションに従います 不条理につき そして、主張を検証する代わりに、経験的証拠はそれを反証するためだけに使用されます。 統計的仮説は、 帰無仮説. XNUMX 番目のステップでは、観測値の変動性をモデル化するために使用される確率分布のパラメーターの値を指定します。 この例では、現象が XNUMX 値 (つまり、視覚障害の有無) であるため、パラメーター p (視覚障害の確率) を持つ XNUMX 項分布を選択します。 帰無仮説は、 = 0.25 とします。 この値は、トピックに関する知識のコレクションと、暴露されていない (つまり、非労働者) 集団における視覚障害の通常の有病率に関する演繹的知識から選択されます。 データが推定値を生成したとします。 = 0.50、調査した 30 人のワーカーから。
帰無仮説を棄却できますか?
はいの場合、何を支持して 代替案 仮説?
帰無仮説が棄却されることを証拠が示している場合、対立仮説を候補として指定します。 非方向性 (両側) の対立仮説は、母集団パラメーターが帰無仮説で述べられた値と異なると述べています。 方向性 (片側) の対立仮説は、母集団パラメーターが null 値よりも大きい (または小さい) ことを示します。
表 5. 二項分布。 の成功確率 = 0.25 in n = 30 回の試行
X |
確率 |
累積確率 |
0 |
0.0002 |
0.0002 |
1 |
0.0018 |
0.0020 |
2 |
0.0086 |
0.0106 |
3 |
0.0269 |
0.0374 |
4 |
0.0604 |
0.0979 |
5 |
0.1047 |
0.2026 |
6 |
0.1455 |
0.3481 |
7 |
0.1662 |
0.5143 |
8 |
0.1593 |
0.6736 |
9 |
0.1298 |
0.8034 |
10 |
0.0909 |
0.8943 |
11 |
0.0551 |
0.9493 |
12 |
0.0291 |
0.9784 |
13 |
0.0134 |
0.9918 |
14 |
0.0054 |
0.9973 |
15 |
0.0019 |
0.9992 |
16 |
0.0006 |
0.9998 |
17 |
0.0002 |
1.0000 |
. |
. |
. |
30 |
0.0000 |
1.0000 |
帰無仮説の下で、例の結果の確率分布を計算できます。 表 5 は、 = 0.25と n = 30、確率 (方程式 (1) を参照) および累積確率:
この表から、 x ³15 の視覚障害のある労働者
P(x ³15) = 1 - P(バツ15) = 1-0.9992 = 0.0008
これは、暴露されていない集団の病気の蔓延を経験した場合、15 人以上の労働者が視覚障害を持っていることを観察する可能性が非常に低いことを意味します。 したがって、帰無仮説を棄却し、調査対象の労働者集団において視覚障害の有病率が高いことを確認できます。
日時 n×p ³ 5 および n×(1-) ³ 5、ガウス近似を使用できます。
標準ガウス分布の表から、次のことが得られます。
P(|z|>2.95) = 0.0008
正確な結果と密接に一致しています。 この近似から、仮説の統計的検定の基本構造は、シグナルとノイズの比率で構成されていることがわかります。 この場合、シグナルは (p–)、帰無仮説からの観測された偏差、ノイズはの標準偏差です P:
比率が大きいほど、ヌル値の確率が低くなります.
統計的仮説に関する意思決定を行う際に、XNUMX 種類のエラーが発生する可能性があります。 またはタイプ II のエラー、偽の場合の帰無仮説の受け入れ。 確率レベル、または p値、 ギリシャ文字 a で表されるタイプ I エラーの確率です。 これは、帰無仮説の下での観測値の確率分布から計算されます。 a-error レベル (たとえば、5%、1%) を事前に定義し、観測結果がこのいわゆる臨界レベル以下の確率を持つ場合、帰無仮説を棄却するのが通例です。
タイプ II エラーの確率は、ギリシャ文字 β で表されます。 それを計算するには、対立仮説で、テストするパラメーターの α 値を指定する必要があります (この例では、 )。 一般的な対立仮説 (異なる、より大きい、より小さい) は役に立ちません。 実際には、一連の対立仮説の β 値、または検定の統計的検出力と呼ばれるその補数が重要です。 たとえば、α-エラー値を 5% に固定すると、表 5 から次のことがわかります。
P(x ³12) <0.05
帰無仮説の下で = 0.25。 少なくとも観察するなら x = 12 回成功した場合、帰無仮説は棄却されます。 対応する β 値と検出力 x = 12 は表 6 で与えられます。
表 6. x = 12、n = 30、α = 0.05 のタイプ II 誤差と検出力
β |
出力 |
|
0.30 |
0.9155 |
0.0845 |
0.35 |
0.7802 |
0.2198 |
0.40 |
0.5785 |
0.4215 |
0.45 |
0.3592 |
0.6408 |
0.50 |
0.1808 |
0.8192 |
0.55 |
0.0714 |
0.9286 |
この場合、私たちのデータは、 はヌル値の 0.25 より大きく、0.50 未満です。これは、これらの値に対して研究の検出力が低すぎる (<80%) ためです。 <0.50 — つまり、この調査の感度は 8% です。 = 0.3、22% = 0.35、…、64% = 0.45。
より低い β またはより高いレベルの検出力を達成する唯一の方法は、研究の規模を拡大することです。 たとえば、表 7 では、β と検出力を報告しています。 n = 40; 予想通り、検出できるはずです 0.40 より大きい値。
表 7. x = 12、n = 40、α = 0.05 のタイプ II 誤差と検出力
β |
出力 |
|
0.30 |
0.5772 |
0.4228 |
0.35 |
0.3143 |
0.6857 |
0.40 |
0.1285 |
0.8715 |
0.45 |
0.0386 |
0.8614 |
0.50 |
0.0083 |
0.9917 |
0.55 |
0.0012 |
0.9988 |
研究デザインは、検討に値する代替仮説のセットの慎重な精査に基づいており、適切なサンプルサイズを提供する研究への力を保証します.
疫学文献では、信頼できるリスク推定値を提供することの関連性が強調されてきました。 したがって、信頼区間 (95% または 90%) を報告することが重要です。 p-仮説検定の値。 同じ種類の推論に従って、小規模な研究からの結果の解釈に注意を払う必要があります。検出力が低いため、中間の影響でさえ検出されない可能性があり、一方で、大きな影響が後で再現されない可能性があります。
高度な方法
産業医学のコンテキストで使用される統計手法の複雑さの程度は、ここ数年で増加しています。 主な発展は、統計モデリングの分野で見られます。 Nelder および Wedderburn 族の非ガウス モデル (一般化線形モデル) は、関連する応答変数が XNUMX 値 (例: 生存/死亡) またはカウント(例:労働災害の数)。
これは、分割表に基づく従来型の分析 (単純な層別分析) に代わるものとして、回帰モデルを広範囲に適用するための出発点でした。 ポアソン回帰、コックス回帰、およびロジスティック回帰は、現在、それぞれ縦断研究およびケース コントロール研究の分析に日常的に使用されています。 これらのモデルは、カテゴリ応答変数の線形回帰に対応するものであり、関連する関連する疫学的尺度を直接提供するという優れた機能を備えています。 たとえば、ポアソン回帰の係数は率比の対数ですが、ロジスティック回帰の係数はオッズ比の対数です。
これをベンチマークとして、統計モデリングの分野でのさらなる発展は、XNUMX つの主要な方向性を示しました。反復カテゴリ測定のモデルと、一般化線形モデル (一般化加法モデル) を拡張するモデルです。 どちらの場合も、現実から生じるより複雑な問題に対処するために、統計ツールの柔軟性を高めることに重点が置かれています。 反復測定モデルは、分析単位が個人以下のレベルにある多くの職業研究で必要とされます。 例えば:
- 手根管症候群に対する労働条件の影響に関する研究では、互いに独立していない人の両手を考慮する必要があります。
- 環境汚染物質の時間的傾向の分析と子供の呼吸器系への影響は、用量反応関係の正確な関数形式を取得するのが難しいため、非常に柔軟なモデルを使用して評価できます。
ベイジアン統計のコンテキストでは、並行しておそらくより速い発展が見られました。 ベイジアン法を使用することの実際的な障壁は、コンピューター集約的な方法の導入後に崩壊しました。 ギブズ サンプリング スキームなどのモンテカルロ手順により、ベイズ法の最も困難な機能である事後分布を計算するための数値積分の必要性を回避することができました。 実際の問題や複雑な問題におけるベイジアンモデルの応用の数は、応用ジャーナルのスペースを増やしています。 たとえば、地理的分析と小地域レベルでの生態学的相関関係、およびエイズ予測モデルは、ベイジアン アプローチを使用して取り組むことがますます多くなっています。 これらの開発は、疫学的データの分析に使用できる代替統計ソリューションの数の増加を表すだけでなく、ベイジアン アプローチがより健全な戦略と見なすことができるため、歓迎されます。