2013年9月8日日曜日

クラウドデータベースとビッグデータについて

いつも読んでいるブログ
メタノート.comに,下記の本が紹介されていました.

↑一般書籍
(電子書籍も発売されています.)

少し話が前後しますが,
現在私が力を入れている
医療用のオンライン(クラウド)データベース.

おかげさまで,1万件を超える登録がありました.
1万件のデータ
というと,正直,どのように解析したら良いか?
と悩んでいました.

そんなところに,まさにタイムリーな本です.
現在,いろいろな本で紹介されている,
ビッグデータ
というキーワード.

まだまだ未知数ですが,今回読んだ文章の中から少し引用してみますと

以下本文からの引用
グーグルは、米国人が検索時に入力した言葉のうち、上位5000万件を抽出した。そして2003年から2008年までの季節性インフルエンザの流行に関するCDCのデータとの相関関係を調べた。つまり、インターネットでの検索内容から、インフルエンザ・ウイルスの感染状況が明らかになると考えたわけだ。

(補足)グーグルは,これまでとは全く別のアプローチで,インフルエンザの流行しているエリアを見つけることに成功した.これは,病院から集めたデータではなく,インターネットの検索内容の中から,"CDCが出したインフルエンザ流行に関するデータ"と,高い相関を有するものをピックアップすることで,インフルエンザの流行を捉えた.

従来の方法
日本人が胃癌になるリスクを推測するためには,
日本人の中から,ランダムに抽出した人(スモールデータ)について,過去の因果関係に関する知見から,医師が胃癌になるリスクと予想した因子について,統計解析していた.

ビッグデータを用いた解析
実際に使用するデータは,特定の抽出されたデータではなく,日本人全体のあらゆるデータ.そして,因果関係に注目するのではなく,相関する因子に注目する.
もしかしたら,胃癌の発生と「持ち家の有無」,「家から職場までの移動距離」といった,全くこれまで注目されてこなかった因子が,高い相関を示すかもしれない.

以下本文からの引用
例えば、個人の融資返済能力を数値化した「与信スコア」は、個人の行動の予測に使われている。与信スコアという概念は、1950年代にフェアアイザック(FICO)という会社が開発したものだ。  そのFICOが2011年に「服薬遵守スコア」(患者が薬剤を処方どおりに服薬しているかどうかを示すスコア)という概念を開発した。このスコアは同一の住所地での居住期間、単一の職場での勤続年数、自動車所有の有無など、ちょっと変わったものも含め、さまざまな変数を分析し、「医師の指示どおりに服薬できる人物かどうか」を判定する。

(補足)
仮定ですが,ビッグ・データの中から,服薬遵守スコアに相関する因子として,「自動車所有」だとか「単一の職場での勤続年数」といった項目が見つかるかもしれない.
そこから,なぜ?(因果関係)はわからないが,結果を予想するのには大変役立つデータである.

とても,面白い内容の本です.
私の説明が上手く無いので,伝わりにくいですが
これまでの,「全体の傾向を予想するために,ランダムに抽出したデータから,因果関係を予測して,抽出した予測因子について,相関を調べる.」
という方法から
ビッグデータから,因果関係は無視して,とにかく相関する因子を見つかることで,結果を正確に予想する.

というパラダイムシフトが起こっているようです.
このブログの書評がわかりやすいかも
マインドマップ的読書感想文