データだけを見ていてもわからないこと

ただし、大倉氏によると課題も多くあるという。たとえば画像分類などにおいては、正解率が高いモデルができればそのモデルを使い続けることができるが、人間の興味はその時々で変わってしまうもの。

特にニュースは移り変わりが激しく、記事にも新しい単語がどんどん入ってくるため、細かいチューニングが常に必要となる。「オフラインでの実験とリリース後のユーザーの反応がかみ合わないこともあります。実際に運用していくなかで、データを取得する期間の設定が重要であることなどがわかってきました」(大倉氏)

  • 大倉氏

    大倉氏

また、データのみを見ていると罠に陥ることもある。大倉氏は「学習を進める際には、該当記事の前後の記事が読まれたかどうかの正解率を見ていますが、ユーザーはもっと広い視点で記事を見ています」と指摘する。

たとえばいくら興味のある話題でも、同じような記事がいくつかあった場合は、どれか1つを読めば十分だというケースがある。つまり、ユーザーの興味にマッチしている記事をレコメンドしたとしても、アプリ全体でみると一定以上読んでもらえない可能性があるということだ。したがって、ユーザーの興味に深くマッチした記事と、浅くマッチした広い記事をバランスよく拾うことが重要となる。これは、機械学習のデータをみているだけではわからない。

一方で、社内のスタッフの行動履歴をサンプルにしてテストすることもあるというが、スタッフから出た意見と、ログを分析した結果がずれていることもあるという。たとえば、「自分が興味をもっているテーマ以外の記事も読みたい」という意見があっても、データをみると実際には自分の興味ある記事しか読んでいないケースだ。

「このようにユーザーの意見と実際の行動が合っていないことも多いので、意見をどれくらい考慮すべきか、そのバランスが難しいですね」(大倉氏)

長く使い続けられるシステムにするために

ヤフーにおいて部門横断的にデータサイエンスを行う部署が創設されたのは2015年4月。それ以前は、それぞれのサービスごとにデータ管理の仕方が異なっているという課題を抱えていたという。

同部署の取り組みによって社内データの一元管理ができるようになったことで、2017年ごろより同部署のデータサイエンティストが各事業部に再配置されることとなる。大倉氏もその一環として、2017年10月に現在の所属部署であるメディアカンパニーへ異動となった。

Yahoo!ニュースの編集部と一緒に開発を進めるからからこそ、できることもあるという。「たとえば、タイムラインに流れるニュースの品質管理についてです。もともと、多くの人が閲覧することが適切ではないと思われる記事は、機械学習で除外するようにはしていますが、その時々により、記事で使われる言葉などが変わってくるため、データやモデルの作り直しが必要となります。そういったタイミングでは編集のスタッフにお願いして協力してもらっています」(大倉氏)

このように人手が必要となる改修は半年に1度程度で行っているという。大倉氏は「システムはつくったらそこで終わりではありません。実際に使っている人たちから情報をもらって機械に学習させていくことで、より長く使い続けられるシステムをつくっていくことができます」と語る。

今後のレコメンド機能開発における課題のひとつに、一部のユーザーが興味を持つような専門的なテーマの記事への対応がある。インターネット上のコンテンツが多様になってきているなか、一部のユーザーしか興味を持っていないが、強く求められているテーマの記事は多くある。

「レコメンドの世界では、こうした細かいニーズをとらえることでサービスを利用してもらいやすくなると言われています。しかし、そうした記事を集めること自体大変ですし、機械学習のロジックとしても課題です。この点についてはまだこれから、というところですね」と大倉氏。

よりユーザーに寄り添ったレコメンドシステムをつくりあげるべく、これからも大倉氏の挑戦は続く。