次々に出版される研究書の数は、すべてを読みたいと願う学者の能力を超える。しかし、AIの助手に何千冊もの本を読ませて、要約を抽出させられる日は近いかも知れない。ゲーテ大学の研究チームは、まさにそれを実現させた。Beta Writerが書いた最初の論文は、現在、誰でも読めるようになっている。ただし、リチウムイオン電池に関心のない人には、面白い内容とは言えないが。

この論文のタイトルは「リチウムイオン電池:現在の研究の機械生成による要約」というクリエイティブなものになっている。250ページにおよぶ内容は、こんな感じだ。

細孔構造およびセパレーターの厚さは、機械強度とイオン導電性という2つの機能を満たすために、そのバランスが十分に保たれるよう慎重に調整されなければならない(AroraおよびZhang[40]、Leeその他[33]、Zhang[50])[5]。素材の細孔構造および多孔性は、電池内のセパレーターの素材に加え、セパレーターの性能にとって極めて重要であることは明らかである[5]。

電池の話も面白いが、本来の目的とは関係がない。この本の狙いは、機械が生成する科学文献について、著作者の問題から技術的倫理的な問題にいたる論議を引き起こすことにあると、このAIの開発者たちは、その長くて面白い序文で説明している。

つまり、答ではなく疑問を提示することが目的なのだ。彼らは前もって、こんな疑問を呈している。

機械生成された文章の原作者は誰なのか? アルゴリズムの開発者が著者とされるのか? または、最初に入力を行い(「リチウムイオン電池」といった用語など)さまざまなパラメーターの調整を行った人間か? そもそも原作者と呼べる者はいるのか? 最初に誰が、機械に何を生成させたいかを決定するのか? 倫理的な観点から、機械生成された文献の責任者は誰になるのか?

研究チーム、周囲の仲間たち、この本の製作に協力した専門家たちとの間で十分に論議を重ねてきた結果、これが始まりに過ぎないことを彼らは理解した。だが、Henning Schoenenbergerは、いずれどこかで始めなければならず、これはどこよりも望ましい出発点になると序文に書いている。

実際に私たちは最初のプロトタイプの開発に成功したが、同時にそれは、この先の道のりが長いことも示している。膨大な言語資料からの要約の抽出はいまだ不完全であり、文章の置き換え、文法、語句のつながりなど、まだぎこちない点が見られる。しかし私たちは、人の手による修正や編集は一切行わないことに決めた。それは、現在の状態をよく知ってもらうためであり、機械生成による文章との境界線を保つためだ。

彼らが言うように、この本自身は不完全でぎこちない。しかし、自然な文章を書くことは、このAIの目的のほんの一部に過ぎない。そこだけを強調して全体的な成功を見ないのは間違っている。

上から、生成された原稿、後処理(参考文献目録の整理、化学表記法の処理、結果の出力)、文章生成(要約の抽出、内容の集約、文章の抽出または言い換え)、構成生成(資料の整理またはまとめ、資料の選択またはランク付け)、処理(参考文献の分析、固有表現の検出、言葉の注釈、体系的構文解析、文章の標準化)、資料の入力

このAIは、高度な技術論文1086編を分類し、キーワードの検出、参考文献目録の作成、結論の取得、「代名詞の前方照応」などのための分析を行う。その後、論文はいくつかの集団にまとめられ、論理的で章立てのある形で提示できるよう、検出された内容に従い整理される。

代表的な文章や要約は論文から引き抜かれ、新しい本のために形式が整えられる。それには、著作権上の問題もあるが、文法的に新しい文章と揃わない場合があるからだ(チームが協力を求めた専門家は、「創造的」な表現にならないよう、できる限り原文の意味に沿うよう助言した)。

たとえば、ある論文の使いたい部分の書き出しが、こうだったとする。「したがってこれは、我々が2014年の論文で示したとおりだ、24パーセント高い断熱係数をもたらす」

AIは、この論文をよく読んで、「これ」が何を指しているかを突き止め、「これ」を本来の言葉に置き換え、「そのため」と途中の添え書きを削除してもよい形に書き換える。

これを何千回も行わなければならず、モデルが適正に対応できなかったり、明らかに下手な文章など、多くのエッジケースが飛び出してくる。たとえば、「その種の研究の第一の目的は、大容量、高速なリチウムイオンの拡散率、扱いやすさ、そして安定した構造といった優れた特性を持つ素材を獲得することにある」。ヘンリー・ジェームズのような美文ではないが、明解だ。

最終的に、おそらく1万ページほどの論文を煮詰めて、ずっとわかりやすい250ページにまとめたこの本は、普通に読めて、ことによれば有用なものになった。しかし、研究者たちの目標はもっと高いところにあると言う。

現在の目標は、そう突飛なものとは思えない。「ここ4年間の生物工学について50ページでまとめてくれ」と命ずると、数分後にポンとそれが出来上がるサービスだ。文章には柔軟性があるため、スペイン語や韓国語を指定することもできる。パラメーター化することにより、出力を簡単に調整できる。地域や著者に重点を置いたり、特定のキーワードや関係のない話題を除外することも可能だ。

これらの機能の他にも、このプラットフォームには山ほどの利便性がある。堅苦しいことを言う人を気にしなければの話だが。

科学文献や自然言語処理に興味がおありなら、この著者たちによる序文は、読む価値がある。

画像:Bryce Durbin / TechCrunch

[原文へ]

(翻訳:金井哲夫)

TechCrunch Japan

おすすめの記事