ニュース要約サービスの未来は明るいか?
技術的な飛躍はあるのか?
要約と一言で言っても「抜粋要約」と「大意要約」には大きな違いがあります。「抜粋要約」は与えられた文章のなかから、カギとなりそうな部分をそのまま抜き取ってくるもの。「大意要約」は、与えられた文章の大意を自分の言葉で言い換えるものです。「ざっくり言うと」やvingowは多少手が入っているものの基本的に「抜粋要約」です。 技術的にみて、特に伝統的な報道機関が報じるストレートニュースと呼ばれるタイプの記事を対象とした「抜粋要約」はさほど難しいものではありません。なぜならストレートニュースは文章が構造化されているからです。構造化というのは、ルールにそって文章が書かれているということです。定型化と言ってもいいでしょう。 ストレートニュースの典型例は、「~発表した」「~逮捕した」などと書かれた記事です。最初のパラグラフに一番大事な要素を入れ、続くパラグラフは大事な順に並べていくという新聞業界のルールがあります。プログラミングの技能がある方は、一度試してみてください。読点に気をつけながら、パラグラフごとに最初のセンテンス(好みによって最後のセンテンス)だけ抜き出してくるロジックさえ作れば、「抜粋要約」は“それらしく”簡単に作れるはずです。 これに対し、長文のルポルタージュやヒューマンストーリー、インタビューなどには記事の定形がありません。ルールに従わず自由に書かれた文章ですから、文章の一番の要点がどこにあるのか判定するのが難しくなり、自然と「抜粋要約」を作るのも難しくなっていきます。 機械にとって「大意要約」はさらに難しいレベルです。長文のルポルタージュの意味を汲み取る、文章を噛み砕いて伝える、といった読解力が問題になってきますので、機械に行間を読ませて、噛み砕いた文章をアウトプットさせるのは現時点において、無理なように思われます。 行間を読ませ、大意を要約させることは無理だとしても、2011年のWIREDはSummlyの特徴について、このように解説しています。「Summlyのアルゴリズムは、いくつもの機械学習の手法と『遺伝的』アルゴリズム――進化をまねた発見的探索法――を利用してこれを行っている」。実際にSummlyを使ってみると、センテンスを抜粋するのではなく数百ワードで自然な言葉としてアウトプットしていることがわかります。 Summlyは今のところ英語やスペイン語などにのみ対応しており、日本語に対応していませんが、要約する言語を問わないとも言われています。具体的なアルゴリズムはつまびらかにされていないものの、構造化されていない文章の要点を自動的に探りだし、自然な文章で要約してくれるとしたならば、そこには大きな技術的な飛躍があると言わざるを得ません。 Summlyが単なる抜粋ではなく、どこまで自然な日本語の文章で要約を提供できるかということが、日本に上陸した際の一番の関心事なのです。