読者です 読者をやめる 読者になる 読者になる

Eureka!/Positive Reaction!

Rêveries du promeneur solitaire

シグナル&ノイズ 天才データアナリストの「予測学」

シグナル&ノイズ 天才データアナリストの「予測学」

シグナル&ノイズ 天才データアナリストの「予測学」


600ページ近くある分厚くて重い本。もっともそのうちの70ページくらいは脚注で、よほどの物好きでもない限り、脚注を舐めるように読んだりはしないと思う。けれどもそれでも多め。持ち歩くのには体力が必要である。自慢ではないが自分は通勤電車の中でしか本を読まないという不熱心な自称趣味は読書の人なので、この本を読んでいる間、通勤がよい運動になったのであった。体力をつけたい人にはオススメできる。キンドルが切実に欲しくなる本。

著者は米国人で、原本は米国で2012年9月に出版された。”The Signal and the Noise : Why Most Predictions Fail – but Some Don't”。当時かなり売れたらしい。Amazon.com によるBest Books of 2012、ならびにウォールストリートジャーナルのThe Best Nonfiction of 2012に選ばれている。翌年の2013年には世界各国で翻訳本が出版され、日本語版は2013年11月に出版された。

米国じゃ本当にこんなブアツイ本がたくさん売れるのだろうか?ホントに読んでるのか?日本じゃ池上彰とか、薄くて字が大きめの新書とか、噛み砕かれて呑み込みやすいライトな流動食系とかじゃないとなかなか難しそうな感じがする。たまにはエビでも食べないとふやけちゃうけどな(ただし釣針には注意)。まぁ自分も結局は単純なことにしか納得できないことに鑑みれば、フウフウいいながらアツアツの本を読んだところで消化できる内容は薄っぺらな新書程度が限界なのかもしれない。

PDCAサイクルじゃないけれど、ヒトはただ行動するだけではなくて手元にある情報をもとに予測をして計画を立てたり、振り返って反省して改善したりという特徴を持っている。たまにはヤミクモにDDDDサイクル(?)で正面突破を試みるのもいいけれど、情報をうまく活用してなるべく効率的、効果的にパフォーマンスを上げたいというのは、けっこうベーシックな欲望なのではないか。

高度情報化時代という言葉は1970年代からあったのだそうだ。インターネットの時代になって情報への曝露量は爆発的に増えている。けれどもミスリードするような判断材料も比例して増えているし、知識は思うようには増えていないのが現実。

本のタイトル「シグナル&ノイズ」は、将来予測をするときに、世の溢れている情報の中から、なにをシグナルとして捉えて手掛かりとするのか、なにをノイズとして判断材料から除外するのか、うまく区別しないと予測もうまくいかない、という、とても難しい課題を示したもの。

観測されたデータにうまく当てはまる規則性を見つけたとしても、観測データの中にはシグナルとノイズがごちゃまぜになって区別できなかったりする。これでは見つけたと思った規則性はノイズにまで当てはめた過剰適合の結果であり、予測の使い物にはならないかもしれない。

自分がこの本を読んでみようと思ったきっかけは*1、2013年の初めに医学生物学分野の論文の多くに再現性が確認できなかったという研究が発表されアカデミックな世界で話題になっているという話を耳にしていて*2、その熱がまだ冷めやらぬうちに例のSTAP細胞の事件があり*3、そんな中でこの本でも医学生物学の論文の再現性の問題にに触れているというのをAmazonかなんかで見たのがきっかけだったと思う。たしか。たぶん。

各章では、さまざまな分野の予測が具体的に取り上げられ、筆者の分析や考えが述べられる。野球予測システム、天気予報、巨大地震、経済予測、インフルエンザ(パンデミック)、コンピュータ・チェスと人間との戦い、ポーカー、金融市場、地球温暖化、テロ。

これらのテーマは21世紀に入って早々話題となったものも少なからずあり、興味深く読めると思う。東日本大震災原発事故、リーマンショックパンデミック2009H1N1、アメリカ同時多発テロ事件

筆者の主張はいろいろあるけれども、全体を通じたテーマはベイズ統計学のススメである(ベイズ統計学については、以前ここでも少し話題にしたことがあるが自分は詳しいわけではない)。頻度主義といわれる統計学の主流派とベイズ統計学はあまり仲がよろしくなく、本書でも筆者は頻度主義やその大家であるロナルド・フィッシャーを批判的に取り上げている。

ベイズ推定のフレームワークは、事前に見積もった確率を新たに観測された事実によって微妙に修正して事後確率を求める、そしてそれがまた新たな事前確率となる、というサイクルの繰り返しであり、さっきのPDCAサイクルじゃないけれども、わりと常識に通じるものだと思う。

たとえば、科学に対する一般的な期待の中には、「なにかクリエイティブな新しい発見が、一気に世界の見方を根本的に変えてしまう」というようなものがあるように思われ、メディアの報道でも新発見ばかり内容もよく吟味されずに拡散される。けれども、新発見も大事だけれど実際には間違っているというか、のちのち棄却される不発の新発見も数多くあり、再現性を検証するような地味で地道な作業の繰り返しも同じように大事だと思う。

ところで、本書では予測を当てる人と外す人とのキャラクターの違いが述べられている。当てるタイプの特徴は、さまざまな分野に取り組む、柔軟、自己批判的、複雑さを受け入れる、用心深い、理論より経験を重視する(※)、ような人で、逆に外すタイプの特徴は、1つか2つの大きな問題を専門とする、硬直的、頑固、秩序を求める、自信がある、イデオロギー的であり、端的にいうと「テレビに出てくるような専門家」だという。

これは政治予測に関する、ある研究の結果であり、他の分野に当てはめるのは多少無理があるかもだけれども、目新しいことを自信満々に断定的に語る方が人目を引くし、権威がありそうに見える。アーでもないコーでもないという学者っぽい話し方よりも、話は単純な方が納得されやすい。だから、テレビには学者として「?」な人がよく顔を出してマユツバな話をする傾向があるというのは、自分の主観的なイメージには合う。




※追記
「理論より経験を重視する」というのが誤解を招きそうなので追記します。これは理論よりも個人的な体験談をアテにしろというのではなく、理屈よりも観測されるデータを重視ということで、つまり「論より証拠」ということ。個人的な体験談をアテてにするのは客観性とか正確性の面から考えたい場合にはいろいろと問題がある。「論より証拠」について、ここにそのうち何か書くかもだけれどいつになるか不明。書かないかもしれない。。

*1:(ずいぶん前に買ってしばらく積んでいたので記憶はおぼろげなのだが・・・)

*2:http://www.nature.com/news/nih-mulls-rules-for-validating-key-results-1.13469

*3:主要なメディアの報道はセンセーショナルでスキャンダルな部分の話題ばかり目立ったのだけれども、専門家の世界では事前にそういう課題認識があった。センセーショナルでスキャンダルな部分があったのはそうなのかもだけれども。

広告を非表示にする