20210908:データー分析の難しさ(米国に観る ”コロナ禍新規感染者数vsワクチン摂取率” ) [ただの私見]
この絵からどうしてこういう見出しが・・・と大いに疑問を持った記事に出会った:
”米感染、ワクチンで明暗”
65%接種の東部、ピークの1/5
マスク推奨も奏功
(日経紙:2021年8月31日付け朝刊総合2紙面)
CDC(米国疾病対策センター)公表数値から日経記者が整理して描いた図も示されていて(横軸=摂取率 vs 縦軸=感染者数/100万人)、その図からの解釈は担当記者が下したものだろう(NY&東京在住記者2名の署名記事)。
著作権の為にここでは図示出来ないが、図には強制的に右下がりの棒線を引いて見だしの結論に飛びついている。 が、この図から記事の様な結論を得るのは統計学的に観て無理筋だ。
結論が引き出せる程に相関係数は高く無いのが見て取れるからだ。
即ち、この図から引き出せる結論は
①摂取率>60%の州では感染者数が "相対的に低い"。
しかしこの領域で摂取率↑であっても、感染者数↓には結びついていない。
②摂取率<60%では感染者数との "相関は無い"。
下限摂取率10%程度の州と60%近くの州で感染者数に有意差を見いだすのは困難。
下限摂取率州であっても上限摂取率州と左程変わらない州がいくつもある。 それらの州が狙い通りの結論に不都合ならば例外根拠を示して相関考察から除外しなければならない。
の2点に過ぎない。
こういう思いつきというか、初めから筋書きを作っていて図を整理する・・・これはしてはならない統計データーの扱いの筈だ。
新規感染はワクチン接種だけで決まるものでは無い筈だ。
接種期間は長期に渡っていて、その間に感染能の違うウイルスの変異が頻繁に生じているし(← 最近は誰でも知る様になった "実効再生産数" が時々刻々変わっていく事を意味している)、加えて生活/行動様式等、個人に依存しすぎる要因が絡まっている筈で、多変数解析能を持つ専門家であってさえ難しい。
これだから煽り一方の新聞やTVの報道は油断ならない。
いや*2、大学の著名な先生方が感染者数を予測するシミュレーション結果を最近えらく頻繁に発表しているが、この種のシミュレーションには不特定なパラメタが沢山あって、
"その設定如何で如何様な結果も引き出せる"
代物だ( ← TV局お望みの結果が引き出せると言う意味です )。
だから、予測と違えば "事情が変わった" とか、 "想定外" とか、 "あぁだ" "こぉだ" の言い訳も簡単だ。
なにしろ、あの最先端とされる AI を組み込んだGoogleの予測ですら実質 "惨敗" の有り様なのが現実だ。
人間の行動模様を数値化するのははっきり言って困難だ。
昨年話題になったあの "8割おじさん" を含めて
責任を負わない予測発表はもういい加減にしてくれや
って想いです。
大学の先生方がプレス発表するのは、文部科学省’競争的研究資金申請する時の格好付けを狙った資料作りに過ぎない例が多い事を忘れてはいけない(現役の頃、お手伝いした事があるので "裏" を知っているのです)。
”米感染、ワクチンで明暗”
65%接種の東部、ピークの1/5
マスク推奨も奏功
(日経紙:2021年8月31日付け朝刊総合2紙面)
CDC(米国疾病対策センター)公表数値から日経記者が整理して描いた図も示されていて(横軸=摂取率 vs 縦軸=感染者数/100万人)、その図からの解釈は担当記者が下したものだろう(NY&東京在住記者2名の署名記事)。
著作権の為にここでは図示出来ないが、図には強制的に右下がりの棒線を引いて見だしの結論に飛びついている。 が、この図から記事の様な結論を得るのは統計学的に観て無理筋だ。
結論が引き出せる程に相関係数は高く無いのが見て取れるからだ。
即ち、この図から引き出せる結論は
①摂取率>60%の州では感染者数が "相対的に低い"。
しかしこの領域で摂取率↑であっても、感染者数↓には結びついていない。
②摂取率<60%では感染者数との "相関は無い"。
下限摂取率10%程度の州と60%近くの州で感染者数に有意差を見いだすのは困難。
下限摂取率州であっても上限摂取率州と左程変わらない州がいくつもある。 それらの州が狙い通りの結論に不都合ならば例外根拠を示して相関考察から除外しなければならない。
の2点に過ぎない。
こういう思いつきというか、初めから筋書きを作っていて図を整理する・・・これはしてはならない統計データーの扱いの筈だ。
新規感染はワクチン接種だけで決まるものでは無い筈だ。
接種期間は長期に渡っていて、その間に感染能の違うウイルスの変異が頻繁に生じているし(← 最近は誰でも知る様になった "実効再生産数" が時々刻々変わっていく事を意味している)、加えて生活/行動様式等、個人に依存しすぎる要因が絡まっている筈で、多変数解析能を持つ専門家であってさえ難しい。
これだから煽り一方の新聞やTVの報道は油断ならない。
いや*2、大学の著名な先生方が感染者数を予測するシミュレーション結果を最近えらく頻繁に発表しているが、この種のシミュレーションには不特定なパラメタが沢山あって、
"その設定如何で如何様な結果も引き出せる"
代物だ( ← TV局お望みの結果が引き出せると言う意味です )。
だから、予測と違えば "事情が変わった" とか、 "想定外" とか、 "あぁだ" "こぉだ" の言い訳も簡単だ。
なにしろ、あの最先端とされる AI を組み込んだGoogleの予測ですら実質 "惨敗" の有り様なのが現実だ。
人間の行動模様を数値化するのははっきり言って困難だ。
昨年話題になったあの "8割おじさん" を含めて
責任を負わない予測発表はもういい加減にしてくれや
って想いです。
大学の先生方がプレス発表するのは、文部科学省’競争的研究資金申請する時の格好付けを狙った資料作りに過ぎない例が多い事を忘れてはいけない(現役の頃、お手伝いした事があるので "裏" を知っているのです)。