感染拡大防止に向けたデータ活用:1 LINE調査の怪

Submitted by Fieldworker on Fri, 04/10/2020 - 06:00
第2回LINE調査
第1回「新型コロナ対策のための全国調査」の案内(株式会社LINEウェブサイトより引用)


 中国の武漢を発生源とする新型コロナウィルスの感染拡大が収まることを知らない。そんな中、政府は電話会社をはじめとした民間企業に対し、新型コロナウィルスの感染にかかわるデータの提供を要請した※1

 その内容の一端を、多くの国民に周知させるに至ったのは、LINE株式会社と厚生労働省の連名のもとに実施された「新型コロナ対策のための全国調査」であろう※2。本調査については、すでに不信感を募らせていたり、疑問を投げかけていたりする人も少なくない※3。何を隠そう自分自身、調査内容を一目見て、無意味であると感じた一人である。ここでは、この調査の実態をひもといてみたい。

誰が企画したのか

 舛添要一は、「厚労省がLineで利用者全員にアンケートを行っている……」としているが、本当に厚生労働省がアンケートを作成し、その実施をLINEに依頼したのだろうか。もし、そうだとすれば、「こんなことに手間と時間をかける暇があったら、……早急に実施することが山ほどあるはずだ」という舛添要一の意見に手放しで賛同したい。

舛添要一Twitter
舛添要一公式Twitter、published online 2020.4.10

 しかし、である。関係機関の報道発表を見ていくと、どうやら、厚生労働省は直接的にはほとんど関与していないのではないか、という疑念が生じてくる。まずもって、2020年3月31日から4月1日にかけて実施された第1回調査に関して、厚生労働省は何にも報道発表していない。厚生労働省がこの調査に関して報道発表するのは、第2回調査が実施される時である※4

 その報道発表のタイトルは、「新型コロナウイルス感染症対策の調査に関連してLINE株式会社が健康状況等を尋ねる全国調査(第2回)を実施します」。このタイトルから明らかなように、この調査は「LINE株式会社が」実施しているのである。それは、LINE株式会社の報道発表からも明らかである※5。さらに、第1回調査に先駆けて行われた、一都三県を対象にした「新型コロナの状況把握アンケート」を、LINE株式会社が運営する「LINEリサーチ」が手掛けていることを鑑みれば、件のアンケートも、この「LINEリサーチ」が調査設計をした可能性がきわめて高い。

 つまり、LINE株式会社が厚生労働省と新型コロナウィルスの感染に関する情報提供の協定を結んだことを利用して、独自に行っていると解釈できるのである。ところで、この調査、第1回目と第2回目の質問内容は、全く同じものであった。しかし、大きく異なる点が存在する。下の図を見比べて欲しい。

LINE第1回、第2回調査
LINE株式会社による第1回と第2回の「新型コロナ対策のための全国調査」

 すぐに、おわかりになるだろう。そう、第2回調査では、LINE株式会社のロゴが追加されているのである。第1回目は、厚生労働省のロゴしか入っておらず、厚生労働省が主催する調査であると間違えてしまうのも、無理はない。本調査において、クレジットカード番号を聞く詐欺が出没したとの報道がなされたが※6、LINE株式会社も詐欺まがいのことをしているのではなかろうか。こうした詐欺の注意喚起を厚生労働省がしていることを踏まえれば、本調査は厚生労働省に余計な仕事を増やしているともいえなくない。だとすれば、本末転倒だ。では、この調査は、「感染拡大防止に資する」のだろうか。

誰が対象で、どのくらい回答したのか

 対象は、複数のメディアを通じて喧伝されたように、LINEの「国内ユーザ8,300万人」である※7。この「8,300万」という数字、2018年4月1日現在の日本における15歳未満人口が1,553万人であることを考え合わせれば※8、物心ついた日本国民のほぼ全員を網羅しているように錯覚させる。仮にそうであるならば、全国民ほぼ悉皆調査になり、国勢調査ばりの信頼度が得られるであろう。しかし、ちょっと冷静になって考えてみれば、そんなことはありえないことに気づく。

 細かく検証しないが、この数字には、会社から支給された携帯電話と個人で契約している携帯電話など、複数の端末を所有している同一人物が重複してLINEに登録していることもあるだろうし、若年層と高年層で同世代の人口に対する登録率に大きく差があろうことは、想像に難くない。

 さて、実際のところ、どうなのか。調査結果をあっちこっち探してみたが、どうしても出てこない。LINE株式会社のウェブサイトを見ても、「回答データを厚生労働省に提供」という報道発表はあるものの※9、肝心な結果が見当たらない。4月9日時点で確認できるのは、4月4日に厚生労働省が報道発表した資料の中にある「新型コロナ感染予防のためにしていること」というタイトルのグラフだけである※10

 改めて、LINE株式会社の報道発表を精読すると、「厚生労働省にてデータ解析」するとも読み取れる文面も存在するし、おそらくこの報道発表から記事を起こしたであろう日本経済新聞では、はっきりと「厚労省が回答結果の変化も分析する」と書き切っている※11。ここにきて、振り出しに戻ってしまったが、今一度、厚生労働省の報道発表を見ると、「本全国調査はLINE株式会社が実施するものです」とあることや※12、配布されたアンケートの末尾に「本調査は厚生労働省に協力し、LINE株式会社が実施しています」とあることからもわかるように※13、あくまでもLINE株式会社が独断で進めたものと見て間違いないだろう。

 ところで、第1回調査に関して公表されているのは、先に挙げたグラフのほかに、回答者数がある。調査の対象となった8,300万人のうち、回答したのは2,450万人であり、アンケートの回収率は29.6%であるという※14。ついつい数千万人という調査対象の規模に目がいってしまいがちであるが、統計で重要となるのは回収率である。

 「アンケート」「回収率」といった語句を検索エンジンで引いてもらえば、アンケート調査において、回収率を上げることが如何に重要なのかがわかるかと思うが、簡潔に記せば、回収率が高ければ信憑性が高く、回収率が低ければ信憑性が低いということになる※15。ちなみに、調査対象者数は5,000人程度であっても、回収率が90%あれば、その結果は約99%の信憑性が得られるとされる。なお、総務省統計委員会では、各省庁が行っている各種調査の調査票回収率の良し悪しを、70%以上・未満で線引きをしているようである※16。これと比べてみれば、この調査の30%に満たない回収率が、如何に低いかがわかるであろう。加えて、調査対象者の重複の問題や回答者の属性の偏りなども存在していることを考えれば、信憑性はより一層低いものとなる。

谷岡一郎『「社会調査」のウソ:リサーチ・リテラシーのすすめ』(文芸春秋、2000.6)を、Amazonで購入。

有意義な調査とするためには

 ここまで見てきたように、LINE株式会社が実施した新型コロナウィルスに関する一連のアンケート調査は、その質問内容を見るまでもなく、杜撰でお粗末な調査であると言わざるを得ない。最終的に、LINE株式会社が厚生労働省に提出したデータがどのようなものであったのか、現時点では知る由もないが、万が一、厚生労働省がこのデータを分析するのであれば、分析のしようがないというのが、本音ではなかろうか。今後、どのような成果が出てくるのか、興味深く見守りたい。

 とはいえ、国内ユーザだけでも「8,300万人」も抱えている事業者が、利用者から日々取得しているデータの数々、すなわちビッグデータは、単に新型コロナウィルスの拡散防止に有効な情報にとどまらず、多方面で活用可能であることに疑いはない。

 では、何ができるのか。

 今回のアンケートの中で、気になった質問がいくつかある。それは、最後の3問、すなわち年齢と性別、郵便番号だ。なぜ、LINE株式会社が、この3項目を聞く必要があったのか、その背景を考えてみると、ビッグデータ活用の課題が見えてくるのではないかと考えている。以下では、LINE株式会社が、これらのデータを欲した理由を通じて、ビッグデータ活用の可能性にも言及してみたい。おそらく、それが厚生労働省のデータ提供要請の主旨であるはずだから。

 LINE株式会社は、事業を通じて、利用者の発信頻度とその内容、利用者の返信速度、利用者相互の結びつき、利用者の居場所などなど、枚挙に暇がないほどのビッグデータを取得している。一方、個々の利用者に関する情報としては、LINEの登録の際に必要となる電話番号や※17、利用者が任意に設定することが可能な名前や画像、誕生日といったプロフィールなどがある。これを念頭に置いて、年齢と性別、郵便番号が必要だった理由を考えてみよう。

 まず、年齢について。登録の際に、年齢確認があるが、これは電話会社との連携によって行われる※18。つまり、登録の際に入力しなければならない電話番号をもとに、契約している電話会社を通じて、契約者の年齢を照会するのである。しかし、これは18歳以上か、未満かを判別するに過ぎず、この段階では、LINE株式会社は実年齢を把握していないと考えられる。したがって、実年齢の把握は、利用者がプロフィールに誕生日を記入したときになろう。

 次に、性別。これは、登録の際にも必要とされず、なおかつ、プロフィールにも項目がない。したがって、今回、アンケートで聞いてみないと、わからなかったはずである。

 最後に、郵便番号。これも性別同様、把握できていなかったデータであろう。確かに、LINEを登録する際に、位置情報へのアクセス許可の可否があるので、利用者がアクセスを許可していれば、利用者の居場所が追跡可能になる。しかし、位置情報から利用者の住所地を特定するのは、その利用者を一定時間モニターするなどの必要が生じ、労力がかかることは想像に難くない。

 こうして見ると、LINE株式会社がアンケートを通じて得ようとした年齢と性別、郵便番号のうち、性別と年齢は、利用者の情報として全く把握できていなかった可能性が大きく、アンケートにおける回答者の属性を特定する上で、必要不可欠な情報であったといえよう。一方、年齢は、今回あえて聞かなくとも、ある程度、把握していたはずであるが、あえて聞いた背景には、登録している利用者が少ないとか、プロフィール上の年齢に信憑性がないといった理由が考えられ、やはり回答者の属性の精度を高めるために利用したに相違ない。ちなみに、もし自分がこのデータを解析する立場だったら、プロフィールとアンケートの年齢が異なる場合、無効回答として扱うだろう。

 とどのつまり、何が言いたいのかというと、個々の事業者がいくらビッグデータを握っているといえども、そのデータは、手がける事業に特化したデータが大半を占め、自らのデータのみで解析を進めようとしても、至って低次元なところに限界があるということである。今回のアンケートでいえば、LINE株式会社は電話番号を握っているのであるから、何も嘘を答える可能性を十二分に孕んでいるアンケート対象者に、年齢や性別、郵便番号を聞くまでもなく、電話会社と連携することで、より精度の高いアンケートにできたはずである。とはいえ、回収率の問題が大きく横たわっている事実に変わりはない。

 しかし、LINE株式会社は、なんでアンケートを実施したのか、その発想の陳腐さに、首を傾げざるを得ない。うがった見方をすれば、全ての利用者を対象にしたアンケートの機会を逆手にとって、利用者情報を強化したかったのではないかとか、調査事業も手掛けていることを大々的に宣伝したかったのではないか、などと考えてしまう。

 それはさておき、もし自分が担当者だったら何をしただろうか。東洋経済オンラインの報道によれば、「(LINE上の)既存データとの掛け合わせ分析はいっさい行わない(LINE広報)」らしいが※19、ビッグデータを含め、株式会社LINEが有する既存データを掛け合わせない限り、株式会社LINEが調査をする意味は全くない。そこで、真っ先に思い浮かぶのは、集団感染とLINEグループの関係性の追求である。そこでは、厚生労働省から感染者情報をもらうことが必然となるが、厚生労働省からの要請なのだから、こちらから欲しい情報を打診する余地はあるのではないだろうか。

 果たして、集団感染による感染者の中に、LINE利用者がいるのであれば、「トーク」の内容、「グループ」内での言動、位置情報にもとづく行動などなどを、感染者とその周囲の利用者も含めて、徹底的に分析してみたいと思う。おそらく分析の中心は、位置情報になるだろう。位置情報の精度の問題はあるだろうが、距離と感染の関係が浮かび上がってくる可能性を十二分に秘めているからである。

 こういうことを書くと、個人情報云々で袋叩きに遭いそうだ。しかし、個人情報を特定できないような状態で、分析者へデータを供与することは、工夫次第で、いくらでも可能であると考えている。むしろ、そういうところに知恵を働かせないと、何のためのビッグデータなのか、わからない。

 百歩譲って、それができないということであれば、ありきたりになるが、自粛要請や緊急事態宣言の前後における「トーク」や通話機能の利用状況の分析とか、LINEを通じた医療相談の利用実態の分析とか、LINEの機能を通じた医師による診察の課題の分析などが、情報提供の対象となることが想定される。

調査の精度とデータを読む力

 さて、今回の一件に限らず、近年、よく思うのは、コンピュータが普及する前に比べ、アンケートをはじめとした統計調査の質が落ちているのではないかということである。確かに、データを集めやすくなっているのは事実だ。一方で、データを抽出する方法が、非常におろそかになっていることは見逃せない。その最たるものは、今回のようなWebアンケートである。

 Webアンケートの最大の弱点は、アンケート対象者を抽出する段階ですでに、対象者全体の中から「Webページにアクセスできる」「Webページを閲覧できる端末が使える」といった条件で対象者が絞り込まれていることである。今回のアンケートで言えば、「LINEが使える携帯電話をもっている」「LINEに日本国内の電話番号で登録している」という条件で、国民全体の中から対象者が絞り込まれている。

 このような状況下で、あえて調査をするならば、結果を公表する際には必ず、LINEの利用者を対象としたアンケートをすることの意義、すなわちLINEの利用者が国民全体の中でどのように位置づけられるのかということを説明しない限り、得られたデータは使えない。厚生労働省が細心の注意を払って、LINE株式会社の成果の一部を公表している理由がここにある。

 ところで、1990年前後に某大手新聞社の世論調査に携わったことがある。今でも印象深く覚えているのは、対象の選定がきわめて厳格に行われていたことだ。そこでは、当時の選挙権を有する20歳以上の男女が住民基本台帳から無作為抽出され、抽出された人の住所を手掛かりに調査員が訪問し、対面調査で調査票を完成させるということが為されていた。上述した、99%の信憑性も、無作為抽出という過程があって、はじめて得られるのである。このように、対象者の抽出方法は、アンケートにおいて、データの質を担保するための根幹となる。それは、ビッグデータを解析する上でも変わらない。

 今一度、LINE株式会社が行ったアンケートの意義を考えてみると、LINE株式会社は、厚生労働省の民間企業に対するデータ提供要請の主旨を履き違えていると言わざるを得ない。とはいえ、提携した翌日にアンケートを実施していることを鑑みれば、水面下での調整があったとみて間違いない。それが、厚生労働省主導で進められたことなのか、はたまたLINE株式会社主導で進められたことなのか、資料からそこまでは読み取れない。ただ、その後、Googleをはじめ、続々と民間企業から感染拡大にかかわるデータ提供がなされている状況を見れば※20、民間企業を動かす一大パフォーマンスであったとはいえるだろう。

 さて、この記事を書いてみて、一番の衝撃であり、収穫だったのは、決してLINE株式会社のアンケートの杜撰さがわかったことではない。それは、執筆前から想定していたことだ。最大の驚きは、メディアに所属する記者の資料を読み取る能力や記述する能力の低さである。厚生労働省がわざわざ注意事項として「調査結果は……回答者の属性に偏りが生じていることがあります」と記しているデータを、そのことに一切触れずに引用してみたり、報道発表の文面が読解できない記者がいるという事実には心底驚いた。

 本記事は、Fieldworker's Eyesの記念すべき一本目の記事であるが、誤報道を垂れ流さないよう細心の注意を払って、今後の執筆に臨みたい。

 この記事の続編、「感染拡大防止に向けたデータ活用:2 LINE調査、その後」を読む。

「特集 コロナ医療崩壊」『週刊東洋経済』2020年5月2日・9日合併号(東洋経済新報社、2020.4.27)を、Amazonで購入。

この記事を共有する?

本記事が参照した新聞、雑誌、書籍

『週刊東洋経済』(電子版)

『週刊東洋経済』_Fujisan

 

雑誌専門のオンライン書店「Fujisan」で定期購読。電子版、3か月(12冊)7,400円~。電子版だからこそ、最大58%OFF!

『週刊東洋経済』(紙版)

じっくり読みたいから、やっぱり紙で。紙版をAmazonで定期購読!6か月(25冊)15,800円~。購読すれば、電子版も無料で利用可。セミナーへの無料招待もあり!

『朝日新聞』(紙版)新規購読

新聞はやっぱり宅配!紙版、3か月~、4,037円(税込)/月~。電子版の同時契約は、+1,000円。3か月以上の契約で特典あり!

『朝日新聞』(紙版)試し読み

1週間(7日間)の試し読み!朝日新聞ってどうなのという方も、新聞のある生活はじめてみたいという方も、まずは1週間、無料でお試し!