2013年9月8日日曜日

クラウドデータベースとビッグデータについて

いつも読んでいるブログ
メタノート.comに,下記の本が紹介されていました.

↑一般書籍
(電子書籍も発売されています.)

少し話が前後しますが,
現在私が力を入れている
医療用のオンライン(クラウド)データベース.

おかげさまで,1万件を超える登録がありました.
1万件のデータ
というと,正直,どのように解析したら良いか?
と悩んでいました.

そんなところに,まさにタイムリーな本です.
現在,いろいろな本で紹介されている,
ビッグデータ
というキーワード.

まだまだ未知数ですが,今回読んだ文章の中から少し引用してみますと

以下本文からの引用
グーグルは、米国人が検索時に入力した言葉のうち、上位5000万件を抽出した。そして2003年から2008年までの季節性インフルエンザの流行に関するCDCのデータとの相関関係を調べた。つまり、インターネットでの検索内容から、インフルエンザ・ウイルスの感染状況が明らかになると考えたわけだ。

(補足)グーグルは,これまでとは全く別のアプローチで,インフルエンザの流行しているエリアを見つけることに成功した.これは,病院から集めたデータではなく,インターネットの検索内容の中から,"CDCが出したインフルエンザ流行に関するデータ"と,高い相関を有するものをピックアップすることで,インフルエンザの流行を捉えた.

従来の方法
日本人が胃癌になるリスクを推測するためには,
日本人の中から,ランダムに抽出した人(スモールデータ)について,過去の因果関係に関する知見から,医師が胃癌になるリスクと予想した因子について,統計解析していた.

ビッグデータを用いた解析
実際に使用するデータは,特定の抽出されたデータではなく,日本人全体のあらゆるデータ.そして,因果関係に注目するのではなく,相関する因子に注目する.
もしかしたら,胃癌の発生と「持ち家の有無」,「家から職場までの移動距離」といった,全くこれまで注目されてこなかった因子が,高い相関を示すかもしれない.

以下本文からの引用
例えば、個人の融資返済能力を数値化した「与信スコア」は、個人の行動の予測に使われている。与信スコアという概念は、1950年代にフェアアイザック(FICO)という会社が開発したものだ。  そのFICOが2011年に「服薬遵守スコア」(患者が薬剤を処方どおりに服薬しているかどうかを示すスコア)という概念を開発した。このスコアは同一の住所地での居住期間、単一の職場での勤続年数、自動車所有の有無など、ちょっと変わったものも含め、さまざまな変数を分析し、「医師の指示どおりに服薬できる人物かどうか」を判定する。

(補足)
仮定ですが,ビッグ・データの中から,服薬遵守スコアに相関する因子として,「自動車所有」だとか「単一の職場での勤続年数」といった項目が見つかるかもしれない.
そこから,なぜ?(因果関係)はわからないが,結果を予想するのには大変役立つデータである.

とても,面白い内容の本です.
私の説明が上手く無いので,伝わりにくいですが
これまでの,「全体の傾向を予想するために,ランダムに抽出したデータから,因果関係を予測して,抽出した予測因子について,相関を調べる.」
という方法から
ビッグデータから,因果関係は無視して,とにかく相関する因子を見つかることで,結果を正確に予想する.

というパラダイムシフトが起こっているようです.
このブログの書評がわかりやすいかも
マインドマップ的読書感想文



1 件のコメント:

  1. 非常に興味深かったです。それにしてもまったく関連のないような事項が相関するって不思議ですね

    返信削除