COVID-19自主研究

2020年8月1日 | By 縄田 直治 | Filed in: データの利活用, 統計.

コロナ禍で自治体が公表しているオープンデータを使って、実践的な統計分析の勉強と統計ツールの利用技能の向上を兼ねて、まとめたものです。

データはいずれも2020年8月1日に東京都のCOVID19のサイトから入手したものですが、死亡者に関するデータだけは自分で東京都の報道発表から拾ったものです。

私は医療関係者ではなく記載内容は個人的見解に過ぎないことと、あくまで統計の勉強ネタとしての取り組みですので、データ処理等に誤りがある可能性は十分ある点はお含みおきください。

  • (追記 2020-08-02) スマホでグラフ右端の表示が切れる問題を解決しました。わかりにくい点を補足しました。
  • (追記 2020-08-08) ボックスプロットの線の説明が誤っていたのを訂正しました。

全体像

7月31日現在の東京都の発表データです。

検査数と陽性の関係

上の図はコロナ禍が深刻化し始めた2月中旬から発表されるようになったデータから、検査数と陽性数との関係を示したものです。グレーの縦棒が検査数ですが、ゴールデンウィーク明けまでは集計範囲も異なる(保健所以外を含まない)ことから検査数がその後と大きく異なっていますが、この時期は4月頭の緊急事態宣言をきっかけとする飲食店等の営業自粛や外出自粛などで大きく騒がれていた頃です。検査態勢が一日あたり五百件と極端に少なく、一方で陽性率(折れ線グラフ)がピーク時30%を超えた時期でもあり、医療崩壊等が騒がれていました。

東京都は連休明けからPCR検査体制を拡充しましたが、青い棒グラフで表示されている陽性数が減少したことから、国により5月25日に宣言が解除されました。その後も検査数は6月は2千件態勢、7月は5千人態勢にまで拡充していることがわかります。

これに伴い陽性者が増加していったのですが、報道発表などでは陽性者の数が強調して報道されることが多く、陽性率についての意味をきちんと報道していませんので、データの解釈に疑問を持たざるを得ません。4月は検査体制が上限一杯の中で30%のピーク、6月から7月にかけては感染源の一つと推定されている新宿や池袋の繁華街のキャバクラ等や、感染者の濃厚接触者を狙い撃ちした検査が実施されたと言われていますので、当然に無作為に検査するよりは陽性率は高いはずですが5%前後。7月は8%程度まで陽性率が上昇しています。

検査態勢により、また検査の方法によりそこから出てくる結果の数字の意味はまったく異なった解釈をすべきです。4月はおそらく症状がある人を中心に検査しているのでしょうから、その中でも新型コロナと確定した人がピークで3割いたということでしょう。しかし7月以降の狙い撃ちに基づく陽性率は、検査母集団が「東京都民12百万人のうち8%(つまり百万人)が感染している」という解釈は誤っています。検査対象を無作為抽出したわけではないからです。

検査リソースは有限でしかも検査には高いコストがかかりますので、無作為に検査することはほぼ意味がありません。逆に検査の有効性を高めるには疑いが高いところから押さえていくリスクアプローチが必要です。故に陽性率の解釈は、どのような基準で検査標本を抽出したのかを明らかにしないと、数字だけが先走ってしまい解釈を誤ります。「感染が拡大している」という印象を操作されているようにも見えます。

陽性者について

6月以降の陽性者を見ると、都心の若年層をターゲットに検査を拡充して来ていることから、それをほぼ反映した結果が出ています。男性がやや多めですが年代別の傾向に男女差はありません。そもそも検査ターゲットの男女比がわからないし年代別の検査数もわからないので、この数字は検査対象から出てきた数字そのままで解釈ができないのです。この他にも市区町村別の陽性者数のデータも公表されていますが、都区内のデータでは繁華街のある渋谷区よりも世田谷区のほうが陽性者が圧倒的に多いことや、都区内以外では八王子市、町田市、西東京市が他の地区を除いて随分と高い数が出ていたり、データに何らかのバイアスがかかっていることが伺えます。

入院数

検査陽性者は原則的には隔離するという施策(感染症に関する法律による)が取られていることから、一部の自宅療養や宿泊療養を除いた人は入院することになります。7月31日現在の東京都のデータです。※一部、性別がおかしなデータがありますが僅少なのでそのままにしてあります。

これは現在の入院数ですので過去の累計ではありませんが、むしろ累計は陽性者の数をみればほぼそれに等しいものが得られます。現在の入院数は、20代を頂点に年代が進むほどに低減しており明らかに検査のターゲットとその結果をそのまま反映していると考えられます。ここでも検査対象者の属性が明らかでないので、なぜ最も体力があり健康な年代で入院が一番多くなるのかという理由が説明できません。

軽症かつ比較的回復の早い人たちのために使う意義は、強いて言えば治療と言うよりは隔離ということになるでしょう。そのために貴重な医療リソースを税金をかけて消費することの正当性は、行政も専門家も明らかにする必要があります。さらに、我々納税者の立場でもきちんと考える必要があります。いま行政が支出している交付金や支援金の類はいずれ将来の増税として我々が直接間接に負担することになります。東日本大震災の復興特別税のようなものも出てくるかもしれません。

重症者について

グレーが入院者のその日現在の数、そして赤が重症者を表しています。重症者については年代別にはデータがありませんでした。但し、7月末現在で16名であり、一時期は三桁あった数もずっとこのレベルですので、インフルエンザなどの他の病気と違いはないものと思われます。重症者をここまで出していない日本の医療体制の素晴らしさを感じますし、医療従事者の方々への感謝の念にたえません。

重症者の推定

入院期間が個別には公表されていないところで、ここは少し工夫をして、重症者は入院期間が長期化すると想定し、さらに個別データの中で退院フラグが立っていない人が陽性発表された日から7月末まで継続して入院しているとの仮定を置きます。なお、東京都のデータの脚注で「退院者数の把握には一定の期間を要しており、確認次第数値を更新している」とあるため、必ずしも現状を正確に反映しているわけではないですが、傾向を見る上では次のデータはとても有効です。

上の図は年代別性別の7月末現在の入院者の平均入院日数です。50代まではほとんど差がなく概ね二週間程度というところでしょう。ところが60代から年代が上がるとともに入院期間が延びていきます。このデータはあくまでも「平均」ですので、母集団が少なかったり偏りがあると平均自体が代表値として使えなくなるので、入院日数の分散を見てみましょう。

この図は、年代別にいま入院している人がどの程度の期間入院しているかをプロットしたものですが、箱の部分の中にある線が中央値です。中央値とは入院日数が一番長い人から数えた数と一番少ない人から数えた数が同じになるところですので、外れ値(特に日数が長い人)の影響を受けにくく平均値より安定しています。また箱の上下の幅は67%(概ね3分の2)四分位点(25%と75%の範囲)、そして箱の上下のヒゲは95%の範囲を表しており、その上にある黒点は更に長く入院していると推定される個々のデータです。但し重症者が16名であり、退院を追跡しきれていない人がいる点を踏まえると、外れ値はほぼ追跡出来ていない人であると推定してよいでしょう。

この図からは重症者の様子は読み取りが困難ですが、以上の推定からむしろ中軽症者の様子が50代までと60代以降、80代以降で大きく傾向が異なっていることが読み取れます。明らかに60代以降、特に80代以降は入院日数が延びていますし外れ値がありません。100歳以上はそもそもデータが5件しかないので傾向値としてよりも、そのままの入院日数が現れていると捉えます。

死亡者

死亡者はデータとしてまとまったものはオープンデータにはありませんでしたので、冒頭述べたとおり東京都の報道発表を日々拾い上げました。プライバシー保護の理由かもしれませんが、一部のデータ(性別、年齢等)には欠落があります。

データは死亡日ではなく発表日であるため、連休明けに特異なデータがありますが、全体的には4月から5月は毎日数名の死亡者が発表されていましたが、5月下旬以降はまばらになっています。

上の図も年齢層別になっていますが、年齢層だけで見ると次のようになります。

年代不詳もあるものの、死亡者の半数は80代以降であり性別の違いはほとんどありません。興味深いのは、50代から70代は男性の死亡者が多く、特に70代男性の死亡者数は全体の男女の違いをほぼそのまま代表しているということです。年齢が発表されている中に10代以下の死亡者はありません。また40未満(30代以下)でみても、最も検査陽性が多い20代の死亡者は一名(これは報道された糖尿病疾患のある相撲関係者と推定できる)のみです。

総括私見

以上の分析から以下のようなことが言えます。

  1. 60歳以上は感染が悪化する可能性が相対的に高く、60未満とは別の施策をとる必要がある。特に施設等における集団感染は重大な結果を招くことになりかねないため最大限の注意が必要。但し別の疾患がある年代でもあり、死亡原因として新型コロナ感染による肺炎が直接原因なのかどうかは、さらに研究者の報告がほしいところです(但し個別特殊なケースをあたかも一般的な事例であるかのように発表したり煽ったりしてはならない。)。逆に若年層は悪化する率が極めて低く、過剰な医療対策をとるよりも感染の媒介防止策をとるほうが有効です。
  2. PCR検査は感度がそれなりにあるとすれば(公式な感度に関するデータはインタネットからは採れませんでした)、PCR検査の陽性と隔離策とは直接的に関係づけるのは過剰な対応で、抗原検査、CT検査など他の肺炎で行われる検査も併用した上で、治療が必要な人を限定するべきです。例えば簡易低コストで検査できる抗原検査でスクリーニングをかけてから陰性でない人をPCR検査にかけるなどしないと、8%の陽性率のために92%の陰性を検査していることになりリソースの浪費です。
  3. 個人としてできる対応は、手間もコストもかからず暴露を防止できるので続けるべきですが、重症化リスクの高い人(既往症、高齢者等)への対策強化と並行しながら、重症化リスクの低い人への制限の軽減は模索すべきです。これは飲食店の営業自粛等の対応にも言えることです。これは感染・発症に関するリスクへのコンセンサス形成でもあり時間はかかるかもしれませんが、逆にこれを怠ったり正確な情報が伝わらないと、怪しい民間対処法を生んだり考えの違う間での軋轢となったりします。
  4. 東京都で百万人が感染しているならば隔離策はそもそも不可能(冗談ではなく想像を絶するくらいのエネルギーが必要)で、いたずらに不安を煽るのではなく、陽性率の意味解釈と説明を丁寧に行うことが専門家の役割として必要です。発表する行政もその持つ意味の理解に責任を持つべきだし、住民も同様。このデータを批判的に見るべきメディアの姿勢は特に重要ですが、残念ながら「今日も○○人です」と左から右に事実を伝えるだけの報道や、「このままで病床は足りるのでしょうか」といった不安を煽るような稚拙な報道が眼につきます。共通するのは、陽性率の意味は検査対象の選び方や検査の方法で全く違うものになるという理解がなく、その点に関する掘り下げが足りないことです。
  5. 特に検査態勢に望むのは「PCR検査」という高コストな素人にわかりにくい(かつ何となく有り難みのある)検査の結果だけをことさら陽性者として強調するのではなく、スクリーニング検査と確定検査との段階分けをしたデータを公表してもらいたい点です。また、陽性者と発症者は区別し、発症者は軽症(自宅等通院療養可能)・中症(要入院)・重症者(要集中治療)に分けたデータを発表してもらいたいです。
  6. そして全体的傾向が時間の流れで追跡できるようになるよう、個別に発症から、検査、入退院までを追跡したデータがほしいです。さらに個人別の既往症など、重症化しやすいのはどのような属性なのかをデータでなくとも統計的には明らかにしてほしい。
  7. 「なすべきこと」「したほうがいいこと」は分けて議論すべきで、上記のようなデータが提供されることで、さらなる理解と冷静な判断ができるようになり、貴重な資源を有効活用できることにあるでしょう。
  8. いま我々がかけているコストはすべて将来の税金で賄われることと、貴重な医療リソースはよりそれを必要とする人に使われなければならないことは明らかですが、経済活動の回復も必須です。経済活動は企業が儲かるとか個人事業主が廃業しなくて済むという話もありますが、そもそも食料自給率(2018年度)でさえ37%(農林水産省2019年)の国は、外国から不足する食料を輸入するしかありませんが、その対価は国内で生産されたものと交換しなければなりません。マスクや医療機器ですら不足して輸入していて、一時凌ぎでの対応で賄えたとしても長い目で見れば日本全体の経済活動が回復しなければ、我々の生活そのものが成り立たないのです。
Print Friendly, PDF & Email

Tags:

コメントを残す

メールアドレスが公開されることはありません。

超難解計算問題 *