2019年2月4日月曜日

Google翻訳の責任者に話を聞く


Googleのマクダフ・ヒューズ氏に言語上の偏りと戦うことやAIが宗教的な文章を出力してしまう理由を聞いた。


The Verge
James Vincent
Jan 30, 2019

Google翻訳に無意味な単語や文章を翻訳させると、翻訳結果に不吉な宗教的予言が表示されるというニュースがいくつも報じられたことを覚えているだろうか。アクセス数を稼ぎたいサイトはこれを陰謀だと主張したりもしたがそうではない。これは、Googleの機械学習システムが混乱してトレーニングに使われたデータに立ち戻ったのだった。そのデータが宗教関係の文章だった。

だが、Google翻訳の責任者であるマクダフ・ヒューズがThe Vergeに語ってくれたところによると、機械学習こそが、このこれまでになく便利な翻訳ツールを動かしているものだという。無料、簡単、そして即座に結果が表示されるGoogleの翻訳ツールは21世紀の生活の中で多くの人が当たり前に思っているものだが、これはAIなしには実現できなかったものだ。

2016年にGoogle翻訳は方式を「統計的機械翻訳」として知られていたものからGoogleが「ニューラル機械翻訳」と呼ぶものに切り替えている。旧型の方式では単語を1つずつ訳していて、このやり方では動詞の時制や語順など文法的要素を理解できず、多くの間違いが生じていた。しかし、新しい方式では文章を文章ごと訳すため、文脈を考慮することができる。

その結果、出力される言語は「より自然でより流麗」なものになったとヒューズは語っている。彼はさらなる改良が実施されることを約束していて、例えば発音の微妙なトーンを考慮すること(その話者は丁寧なのかぞんざいなのか?)や言い回しに複数の候補を提示することができるようになるという。

Google翻訳はGoogleにとっても間違いなく好ましいプロジェクトだ。同社が行っている他のAI関連のプロジェクトには軍との協力でも話題になったように議論を呼ぶものがある。ヒューズは、Googleが翻訳機能にこだわる理由と、同社がAIを訓練するデータから偏見を取り除くためにしている努力について語ってくれた。

***

最近Google翻訳には大きなアップデートがあって、性別に特化した翻訳ができるようになりました。これを導入するきっかけは何だったのでしょう?

2つの理由が合わさったものです。1つはあらゆる種類の機械学習やAI製品に存在する社会的な偏見についての懸念です。これはGoogleとしても業界全体としても懸念していることです。機械学習によるサービスや製品は訓練に使われたデータの偏見を反映してしまいます。その偏りが更に増強され増幅されることすらあるのです。私たちは会社としてこの問題を解決する先陣を切りたいと思っていますし、Google翻訳にもこの問題があることをわかっています。特にそれは男性/女性の偏見に現れるのです。

典型的な例は医者は男性で看護師は女性というものです。こうした偏見が言語の中に存在すれば、翻訳システムはその偏見を学んでしまい増幅してしまいます。例えば、ある職業についている人の60〜70%程度が男性だった場合、翻訳システムはそのことを学び100%男性として出力します。私たちはこれに対策する必要があるのです。

そして、多くの利用者の方が言語を学んでいます。そうした人々は物事を表すのに異なる表現や使えるニュアンスを知りたがっています。ですから、私たちは長い間複数の翻訳結果とその他の詳細を表示できるようにする必要があることをわかっていました。このことが性別に関するプロジェクトと統一されたのです。

何故かと言うと、偏見の問題をとってみるとそれに対してできる明確な解答というのは存在しないのです。翻訳結果に出る男女の割合を50%ずつにすれば良いとか、ランダムにすれば良いというものではなく、より多くの情報を提供することにしたのです。ある物事をある言語で言う方法は1つではないことと、その表現毎にある違いを伝えるのです。翻訳には文化的な課題や言語学的な課題がたくさんあります。翻訳機能をより便利なものにするのと同時に、偏見の問題について何かしらの対応をしたいと考えたのです。


偏見とニュアンスの両方の観点から、次はどのような問題に取り組む予定ですか?

公平さと偏見の問題には3つの大きな取り組みがあります。1つは私たちがちょうど始めたものを更に進めることです。私たちは性別を考慮して文全体を訳す機能を作りましたが現在はトルコ語から英語にする場合のみです。この機能の質を向上させるのと、更に多くの言語に対応したいと考えています。

2つ目は文書の翻訳です。ここにも偏見が入り込むのですが、異なる対応が必要になります。例えば、Wikipediaで「女性」についてのページを別な言語から英語に訳して読む場合、高い確率で非常に多くの he や him という代名詞を見ることになります。これは文章毎に単独で翻訳されていて、元の言語が性別を明確にしていない場合に意図せずデフォルトとして he/him が使われてしまうのです。場合によっては特別に侮辱的になる可能性があるものですが、これには昨年私たちが始めて進めているものとは全く異なる対応が必要です。この例の場合だと文書全体の文脈から正しい訳をすることができます。ですから、それを解決するための研究と開発の問題です。

3つ目は性別に中立な言語の場合です。私たちは今、多くの文化的騒乱の渦中にいます。英語だけでなく非常に多くの言語で性別は別れています。世界中で性別に中立な言語を作り出す動きが生まれていて、ユーザーから私たちがいつそれに対応するのかという問い合わせをたくさん受けています。英語でよく挙げられる例は「They」を単数として使うというものです。第三者について語る時に「he is」や「she is」ではなく「they are」を使うということは、教科書やスタイルガイドには受け入れられていませんが、徐々に一般的になってきています。そして同じことがスペイン語、フランス語の他多くの言語でも起こっています。実際、このルールは専門家でも追いつけないほど急速に変化しています。


昨年Google翻訳では不思議なことが起こって、意味のない言葉を入力すると宗教的な言葉の抜粋が出力されるということが発見されました。これについておかしな解釈をつける人がいてネット上でも広まり話題になりました。結局これは何があったのでしょうか?

私はそれが起こったことについては驚きではありませんでしたが、人々の反応への関心の高さには驚きました。Googleは秘密の宗教に関する謎のメッセージを暗号化しているといった陰謀論までありました。ですが、実際に起こったことは機械学習システムに置いては一般的な問題です。予期しない入力をされた場合に予期しない振る舞いをするのです。私たちはこの問題を解決にあたっているところですが、無意味な入力からは合理的な出力はありえません。


しかし何故そういうことが起こったのでしょう?あなたはこれまでこの件について説明したことはないように思います。

その翻訳しようとした言語のトレーニングに使われたデータに宗教的な文章が多く含まれていたからです。翻訳する言語同士の組み合わせについて、私たちはウェブ上で見つけられるものは何でもトレーニングに利用します。わからなくなるとトレーニングに使われたデータの中で一般的なものを選んで出力するのはこうしたシステムの典型的な動作です。そして、材料が少ない言語、つまりウェブ上に翻訳された文章があまりない言語の場合、宗教的なものが生成されることが多いのです。

いくつかの言語では翻訳された資料として私たちが最初に見つけたのは聖書でした。私たちは使えるものは何でも使いますし、それはたいてい上手くいくのですが、訳のわからないものが入った場合にはこういう結果になります。翻訳の基盤にしているデータが法律関連の文書であったならシステムは法律的な表現を作り出したでしょうし、航空機の飛行マニュアルだったなら、航空機の飛行について説明するものを出力したでしょう。


これは興味を惹かれる話ですね。17世紀に翻訳された欽定訳聖書が今日の私たちが使う多くのフレーズの元になっているという話を思い起こさせます。同じようなことがGoogle翻訳にも起こっているということでしょうか?トレーニングに使われるデータの中にはおかしな表現の元になるようなものが何かあるでしょうか?

時々インターネット上のフォーラムから奇妙なものを見つけてくることがあります。例えばゲームについてのフォーラムやサイトで使われるスラングのようなものです。これが翻訳に影響を与えることはあり得ることです。規模の大きな言語についてはトレーニングデータはより多様になりますが、それでも時々面白いスラングをインターネットの隅から見つけてくることがあります。ちょっとこの場では具体的な例が思いつかなくて申し訳ありませんが…


AIの利用法に問題点も挙げられている昨今で、Google翻訳は特別に面白いものです。翻訳機能というものは、便利なもので比較的問題が起きないものだということはあらゆる人が同意するでしょう。むしろ理想の世界ですらあり得ます。Googleにとっては何が翻訳システムに投資し続けるモチベーションになっているのでしょうか?

私たちは公平に見て理想主義的な会社で、Google翻訳のチームはその中でも特に理想主義を分かち合っていると思っています。私たちは人が話すことが真実であることを確実にするために一生懸命働いています。そのためには偏見と戦うことと有害になりかねない誤った翻訳を見つけ出すことが重要なのです。

Googleがこれに投資している理由は何でしょう?よく聞かれる質問ですが、答えは簡単です。私たちの使命は世界の情報を整理して、普遍的にアクセスできるようにすることです。「普遍的にアクセスできる」という部分については全く達成からは程遠い状態です。世界の殆どの場所ではオンラインの情報を読むことができない状態である限り、普遍的にアクセスできるとは言えません。このGoogleにとって中心となる使命を果たすために翻訳を解決することが必要なのです。創設者たちも10年前よりもこのことを強く認識していると思います。


では、翻訳を解決することは可能だと考えていますか?最近のThe Atlanticの記事で、著名な認知科学者であるダグラス・ホフスタッター教授がGoogle翻訳の「浅はかさ」を指摘しています。この批評にはどう答えますか?

彼の指摘は公平ですし正しいものです。確かにそういう問題はあります。ですが、そうした問題は私たちが懸念していることの最先端にあるわけではありません。なぜなら実際に問題が起こるのは私たちが見ている翻訳のうちのほんの僅かな割合でしかないからです。人々が翻訳しようとしている典型的な文章を見ている限り、それらは現在は大きな問題ではありません。しかし、本当に翻訳を解決して、言語学の分野の知識を持つ熟練した専門家のレベルで翻訳できるようにするためには、いくつかの大きな進歩が必要だということについては彼の言うとおりだと思います。並列の文章の例から学ぶだけではこうした最後の数パーセントの利用者を満足させるものにはならないでしょう。

長い間、翻訳というのは完全なAIの問題であると言われてきました。翻訳を完全に解決するためには、AIについて完全に解決する必要があるという意味です。そしてそれは本当だと思います。ですが、現状でもかなり高い割合で問題が解決された状態にあります。そして私たちは今、残りの空間を埋めようとしているのです。

0 件のコメント:

コメントを投稿