2019年1月30日水曜日

脳波を理解可能な言葉に翻訳する


神経系から言葉を発するための神経補綴装置を開発するために、神経科学者たちは最近の深層学習の進歩に音声合成技術を組み合わせた。


George Dvorsky
JAN 29 2019

脳スキャン、人工知能、音声合成技術、こうしたものを使って科学者たちは脳のパターンを理解可能な言語に置き換えようとしている。最終的には声を出して話すことができるようになるはずだ。

Iスティーブン・ホーキング博士が既に生きていないのが残念なことで、彼はこの技術を喜んでくれたはずだ。ニューヨークにあるコロンビア大学の神経聴覚処理研究所の研究者たちが開発した新しい音声システムは博士のために役立つはずのものだった。

ホーキング博士は筋萎縮性側索硬化症(ALS)を患っていた。この運動ニューロン疾患は彼の言語を奪ったが、彼はコンピューターと音声合成技術を使ってコミュニケーションを続けた。博士は眼鏡に取り付けられた頬で操作するスイッチを使って、コンピューターで単語を選択することができ、それが音声合成技術によって読み上げらた。この作業は些か面倒なものだったが、それでもホーキング博士は1分間に12の単語を発することができた。

もしホーキング博士がいちいち言葉を選んで発する必要がなかったら、ということを想像して欲しい。実際、ALSや閉じ込め症候群を患っていたり、脳卒中から回復した人たちの中には、頬をちょっとだけ動かすようなコンピューターを操作するのに必要な運動能力を持たない人もいる。理想的には、人工音声システムが人の思考を直接読み込んで言葉を発するようになれば、コンピューターを操作する必要はなくなる。

今日専門誌に発表された新しい論文は、この目標の実現に向けて私たちが重要な一歩を踏み出したことを述べているが、それは個人の思考を読み取って言葉を再構成するものではなく、話を聞いている間に作られる脳のパターンを用いたものだ。

こうした神経系から言葉を発するための神経補綴装置を開発するために、神経科学者であるニマ・メスガラニと彼の同僚たちは最近の深層学習の進歩に音声合成技術を組み合わせた。彼らが作り出した脳とコンピューターの連結機構はまだ初歩的なものだが、聴覚野と呼ばれる脳領域のパターンを直接捉え、AIで動作するヴォコーダーや音声シンセサイザーを通して理解できる言語に変換する。発する言葉は極めてロボット的なものだが、ほぼ4人に3人は内容を聞き取ることができる。これは大きな進歩だ。最終的には発話能力を失った人を助けることができるかもしれない。

はっきりさせておくと、メスガラニの神経補綴装置は人の内心にある言葉を直接外に発する言葉に翻訳するものではない。残念ながら科学の観点からはまだ完全にはその領域に達していない。そうではなく、この装置は人が人の話を聞いている時に起こる特有の認知反応を捉える。深層ニューラルネットワークでこの反応のパターンを変換または翻訳することで、この装置が音声を再構築することを可能にする。

「この研究は神経信号を解読するために深層学習技術を利用する最近のトレンドに沿ったものです」と、ニューカッスル大学で教授を努め、神経インターフェイスを研究するアンドリュー・ジャクソンがGizmodoに語ってくれた。ジャクソンはこの研究には関わっていない。「この研究では、神経信号はてんかんの手術中に大脳皮質から記録されています。被験者は用意された様々な単語や文章を読み上げる音声を聞きます。ニューラルネットワークは脳の信号と音との関係を学ぶように訓練されているので、その結果として脳の信号だけに基づいて単語や文章を再構築することが可能になるのです」

この研究にてんかん患者が選ばれたのは、彼らが脳外科手術を受けることが多いためだ。メスガラニはノースウェルヘルスの神経外科アシェシュ・ディネシュ・メタの協力を得てこの研究の実験のために患者から5人のボランティアを募集した。研究チームは、患者が連続した話し声を聞いている時の神経活動を測定するために、侵襲的な皮質脳波記録法(ECoG)を用いた。例えば、被験者となった患者は0から9までの数字を話す声を聞かされる。そして、彼らの脳のパターンをAIが搭載されたヴォコーダーに入力され、最終的に音声が合成される。

その結果は極めてロボット的な音声だったが、適切に聞き取れるものだった。テストでこの音声を聞いた人はこの音声で発された数字の75%を聞き取ることができた。彼らは発しているのが男性か女性かを言うことさえできた。この結果は悪くないもので、メスガラニはGizmodoにメールで「驚き」だったと書いている。

この音声はここで聞くことができる(研究者たちは様々な技術をテストしているが、最も良い結果が見られたのは深層ニューラルネットワークとヴォコーダーの組み合わせだった)。

この研究の中で、事前に録音された単語を使って一致したものを読み上げる方式への対照法として、音声合成装置を使うことはメスガラニにとって重要なことだった。彼がGizmodoに対して説明したのは、話をするためには、適切な単語を並べること以外にするべきことがたくさんあるということだった。

「この研究の目標は話す能力を失った人々に音声でのコミュニケーションを回復することなので、私たちは脳信号を直接音声そのものに対応させることを目指しました」と彼はGizmodoに話してくれた。「音素(音の単位)や単語を変換することも可能ですが、話すことは単に内容を伝えることよりも多くの情報が含まれています。例えば、話している人の固有の声と調子、イントネーション、感情、口調などです。ですから、今回の特別な論文では、私たちは音そのものを回復することを目標にしたのです」

将来的にメスガラニはより複雑な単語や文章を音声として合成することと、単に話す行為を考えているか想像している人の脳信号を収集することを考えている。

ジャクソンはこの新しい研究に感銘を受けているが、この手法が脳とコンピューターの接続機構として直接に当てはまるものなのかまだ明確ではないと話している。

「この論文では、デコードされる信号は脳が聞き取った実際の言葉を反映しています。有用であるためには、利用者が想像した言葉をデコードできるものでなければならないはずです」とジャクソンはGizmodoに語った。「脳の中で話を、聞く、話す、想像する、という領域には重なっている部分が多いのですが、関連する脳信号がどのくらい似ているのか正確にはまだわかっていないのです」

今回の論文には関わっていないメイヨー・クリニックの神経学者ウィリアム・タトゥムは、この研究は、既知の音響刺激の生成に関わる脳波から初めて人工知能を利用して音声を再構築したという点で重要なものであると述べている。この重要性は注目に値する、「次世代のより優れた音声合成装置での深層学習の利用を促進することになるから」だと彼はGizmodoに語った。だが彼は、今回の実験については、被験者の数が少なすぎるし、手術中の人の脳から直接抽出されたデータを利用するのは理想的ではないと感じているという。

この研究のもう1つの制限は、ニューラルネットワークが単に0から9までの数字を再生する以上のことをするためには、それぞれの被験者から多数の脳信号を得て訓練されなければならないということだ。私たちは話を聞いたときにはそれぞれ異なる脳のパターンを作り出すため、このシステムのその被験者固有のものになっている。

「ある人用に訓練されたデコーダーが他の人用に一般化する方法については将来的に興味深いものになるはずです」とジャクソンは語る。「今回の研究は、今日のSiriやAlexaのようなものがニューラルネットワークを利用して誰の声でも理解できるのは対象的なもので、ユーザーが個々に訓練する必要があった初期の音声認識システムに少し似ています。時間が経てば、こうした技術が同じように脳信号に対応できるかどうかわかるでしょう」

疑いなく、するべきことはまだたくさんある。しかし、今回の新しい論文は言葉を発するための神経補綴装置の開発に向けた有望な一歩である。

0 件のコメント:

コメントを投稿