Text summarization with TensorFlow(同社公式ブログより) |
毎日、人々は広大な情報の中に居る。ニュースやSNSから検索結果の情報まで。機械学習によって自動的に文章の要約が正確に届けられるのであれば、それはとても有益であり、また長い期間においての目標でもある。とGoogle Brain teamは"Text summarization with TensorFlow"と題した記事をGoogle Research Blogに投稿した。
簡単そうに見える文章の要約。重要な情報を残して、それ以外をそぎ落としていく"良い要約"を行うことは、コンピューターにとっても、挑戦的な課題なのだという。
これを前に進めるために、TensorFlowのモデルセットを同チームはオープンソースで公開。英文の中からニュースのヘッドラインを作るという試みを行っている。"sequence-to-sequence learning"と呼ばれるディープラーニングの技術を用いて導き出された結果は、以下のようになる。
要約結果(同社公式ブログより) |
どのように感じるかは、人によっては違うのでは?と思うが、現段階では、データセットによって随分結果も異なるようで、他の機械学習のトレーニングと比べても難しいものであることが述べられている。人にとって一番身近なところにあるはずの文字や文章が、最先端の技術でもなかなか難しいものであるというのは、興味深いことだが、Google Brain teamは、まだこれはベースラインに過ぎないと果敢に新たなデータセットを公開している。