24日にロサンゼルスで第85回アカデミー賞授賞式が行われたが、今回は「誰が取るか」だけではなく、「誰が当たるか」も話題になった。というのも、昨年の米大統領選挙を予想して完璧に的中させた統計専門家ネイト・シルバー氏と、1つだけ外した経済学者のデビッド・ロスチャイルド氏 (Microsoft Research)などがオスカー予想に参戦。データ分析の"予言"がふたたび現実になるか、それとも評論家やハリウッドレポーターの経験と勘が勝るのか……一時期のスパコン対チェスチャンピオンのように盛り上がった。
以下は、シルバー氏とロスチャイルド氏の主要賞の予想、ポイント、そして結果である。
【ネイト・シルバー】
- 作品賞:アルゴ (4.77、○)
- 監督賞:スティーブン・スピルバーグ (0.58、×:アン・リー)
- 主演男優賞:ダニエル・デイ=ルイス (3.17、○)
- 主演女優賞:ジェニファー・ローレンス (1.49、○)
- 助演男優賞:トミー・リー・ジョーンズ (1.10、×:クリストフ・ヴァルツ)
- 助演女優賞:アン・ハサウェイ (2.30、○)
【デビッド・ロスチャイルド】
- 作品賞:アルゴ (92%、○)
- 監督賞:スティーブン・スピルバーグ (76%、×:アン・リー)
- 主演男優賞:ダニエル・デイ=ルイス (99%、○)
- 主演女優賞:ジェニファー・ローレンス (74%、○)
- 助演男優賞:トミー・リー・ジョーンズ (44%、×:クリストフ・ヴァルツ)
- 助演女優賞:アン・ハサウェイ (99%、○)
2人の受賞者の予想はまったく同じだった。しかし、ポイントに違いがあるように、予想を割り出すまでのアプローチは大きく異なる。
アカデミー賞の受賞者は、映画芸術科学アカデミー会員の投票で決まる。その数は約6000人。昨年のLos Angeles Timesの記事によると、94%が白人、男性が77%で年齢の中央値は62歳と偏りがある。会員の詳細は公表されていないが、プロデューサや監督、脚本家、カメラマン、俳優など映画人が大部分であると言われており、投票では映画業界関係者ならではの偏りが起こりうる (アイドル的人気の俳優は不利など)。さらに映画会社のロビー活動も賞レースを一変させる要素になっている。18歳以上の米国民が投票の有資格者である大統領選挙のように基本的な型 (モデル)にはめにくく、それがデータを用いたオスカー受賞者の予想を難しくしている。
シルバー氏は選挙予想において世論調査(poll)を重んじる手法を採用し、オスカー予想では世論調査の代わりを他の映画賞に求めた。アカデミー賞のように映画関係者による投票もあれば、評論家やライターなど外部の人が審査員になる映画賞もある。ハリウッド寄り、インディ作品を好むなど映画賞も様々だ。同氏は数多くの映画賞をサンプルに25年以上も遡ってデータを収集した上で、アカデミー賞と審査員の重複が多く、また過去にアカデミー賞と同じ候補者が同じ部門の賞を獲得したケースが多い映画賞の比重を大きくした。ちなみにアカデミー賞に最も近い映画賞はScreen Actors Guild Awards (SAG賞)だった。
一方、ロスチャイルド氏は幅広いデータ収集とモデル作りに努めた。前述のように、賞予想では基本モデルの効果が薄い。そこで効果的な変数を取捨選択して加えられるかがポイントになる。同氏は、映画会社 (予算、公開日、全米公開のタイミング、ターゲッティングなど)、興行成績 (総売上、スクリーンあたりの売上、上映館数、売上げの推移など)、評価 (人気、専門家のレーティング、MPSAAレーティングなど)、オスカー推薦 (候補になるまで支持数)など数多くの変数を試し、過去のアカデミー賞でシミュレーションしながらモデルを作り上げた。
主要6部門で2人とも2つ外しているので、今回の的中率は決して高くはない。ちなみにロスチャイルド氏は24部門を予想し、19部門で的中。全体の的中率は79%である。
今回のアカデミー賞で最大のサプライズだった監督賞 (アン・リー監督が受賞)は、2人ともに外した。これは「アルゴ」のベン・アフレック監督がノミネートされなかった影響が大きい。アルゴの作品賞獲得はほぼ鉄板、2人の予想では高いポイント(4.77、92%)が出た。ところが、作品賞最有力候補作のベン・アフレック監督が候補から漏れた。これは非常に珍しく、今年の映画賞においてアカデミー賞が他と異なる点になった。そのためシルバー氏のケースでは消去法でスピルバーグ監督が残った。同氏のポイントはスピルバーグ (0.58)でアン・リー (0.56)。「スピルバーグがポイントで上回ったが、これが的中したら偶然の幸運だ。データによる予想において、データが無ければ予想はできない」と述べている。もう1つの外れである助演男優賞 (クリストフ・ヴァルツが受賞)もアカデミー賞予想で最も参考になるSAGなど、複数の映画賞にクリストフ・ヴァルツがノミネートされてなかった。そのためトミー・リー・ジョーンズ (1.10)に対して、クリストフ・ヴァルツ (0.74)という低いポイントになった。
ロスチャイルド氏の監督賞の予想はスピルバーグ(76%)、アン・リー(22%)と差がつき、助演男優賞はトミー・リー・ジョーンズ (44%)、クリストフ・ヴァルツ (40%)と拮抗した。アン・リーのサプライズ受賞と、どちらが受賞してもおかしくなかった助演男優賞という空気を映し出した数字と言える。
アン・リー受賞のサプライズを的中させたら驚きの上乗せになったが、今回2人の予想は多くの評論家や芸能ライターの予想と違わなかった。個人的な感想を述べると、データ分析予想が話題になったことで、そのレポートを意識した評論家や記者の予想の方が凡庸になってしまったような気もする。
主要賞受賞者の予想は全く同じだったシルバー氏とロスチャイルド氏、しかし今回評価を上げたのはロスチャイルド氏だ。
シルバー氏の手法ではデータソースとなる映画賞の結果が出そろったら予想が完了するのに対して、ロスチャイルド氏の手法はモデルが完成したらリアルタイムで予想が更新され続けていく。正確な予想を生み出せるモデルを作れるかが問題であり、今回は2つ外したものの、それを埋めるられる可能性を秘める。同氏はまた、ネットユーザーにクイズに答えてもらう形式のデータ収集も行った。今回は同じ映画が他の部門でも受賞する可能性を探るものだったが、この試みはシルバー氏が嘆いた「データ不足」を補完できるものになる。
ネイト・シルバー氏の大統領選予想の全的中が大きな話題になり、それからスーパーボウルやアカデミー賞での同氏の予想がニュースで取り上げられるようになった。気づけば、企業や政府がデータ活用を訴えても関心を示さなかった人まで、この6カ月ほどの間でデータサイエンスを話題にするようになった。「当たる」「当たらない」に興味が集中するのを危惧する声もあるが、データサイエンスを広く一般に浸透させるチャンスが生まれた影響は大きい。