工学部知能メディア工学科 | 『宇宙兄弟』で知るTechnology+ の学び | Technology＋工学。夢を形にするチカラ。千葉工業大学

ムッタの恩人である天文学者・シャロンは、ALS※という難病でとうとう話すことができなくなる。しかし、声を失った患者向けの音声を作り出す医療用ソフトで、わずかに動く指先の動きを通して会話することができるのだった。
※ALS：手足・のど・舌の筋肉や呼吸に必要な筋肉がだんだんやせて力がなくなっていく病気。しかし、筋肉そのものの病気ではなく、筋肉を動かし、かつ運動をつかさどる神経（運動ニューロン）だけが障害をうける。その結果、脳から「手足を動かせ」という命令が伝わらなくなることにより、力が弱くなり、筋肉がやせていく。その一方で、体の感覚、視力や聴力、内臓機能などはすべて保たれることが普通。
（出典：「筋萎縮性側索硬化症（ALS）」、公益財団法人難病医学研究財団/難病情報センター）

「音声を作り出す研究」について先進工学部知能メディア工学科の竹本先生にお話をうかがいました

研究内容

人間のコミュニケーションの基本は音声です。しかし、音声を生成する過程はとても複雑で、完全には解明されていません。その生理的な過程をMRIなどの装置で観測し、物理的な過程をコンピュータでシミュレーションすることから、音声をつくる研究に取り組んでいます。

episode 05-01

音声合成の先にある「音声生成」に挑む

MRIを用いた発声中の声道形状の計測　イメージ

漫画に登場する「音声合成」は、すでに実用化されている技術です。病気やケガなどで声を失った人のQOL※を高める意図のもと、医療系からはじまったサービスが、ソフトウェアとして市販され、自分の葬儀に元気なころの自分の声であいさつするといった用途などへと広がりを見せています。また、キーボードなどを介さず、話すだけでコンピュータに文章を入力できる「音声認識」も、近年精度が大きく向上し、スマートフォンなどに搭載されています。宇宙兄弟のエピソードでは本人の音声をサンプリングする描写があります。これは、「音声合成」では、そのサンプリングした音声をつぎはぎすることで、任意の文章を読み上げさせるからです。その点、私が取り組んでいる「音声生成」では、物理シミュレーションで好みの音声をつくることをめざしているため、そのようなサンプリングを必要としません。しかし、「音声生成」の研究は、発話時の舌や喉頭の動きを外部から観察できないという問題があり、まだまだ未知の部分が多く残されている分野です。
※QOL：Quality of Lifeの略。生活の質、と訳され、人間らしく満足して生活しているかを評価する概念。

episode 05-02

MRIなどの装置を駆使して、
声を出す仕組みをモデル化

シャロン病室　イメージ

発話をシミュレーションするためには、声を出す仕組みをモデル化する必要があります。それを助けてくれるのがCTやMRI※などの体内を可視化する装置です。例えば、MRIで正確に計測した母音発声時の声道形状を樹脂で模型にして、声帯の振動音を出力しているホーンドライバーに乗せると、ブザーのような音が個人性まで再現された明瞭な母音に変わります。このような実証実験に基づいて、声を出す仕組みのモデル化を進めています。当面の課題は、音素列※をつくること。これと既存の音声合成技術を組み合わせれば、コンピュータに好みの声で文章を読ませたり、歌わせたりすることが可能です。また、物理シミュレーションによる音声は、特定の個人の声ではないので、著作権を侵害する恐れがありません。そのため駅のアナウンスなどの情報伝達だけでなく、ゲームなどエンターテイメントの分野での活用がこれまで以上に期待できます。そして、発話を完全にシミュレートできるようになれば、より人に近い滑らかで自然な音声が生成できます。さらに、同じ知能メディア工学科で研究されている飯田一博教授の3D音響システムと合わせることで、実際に会話しているときの雰囲気や気配といった臨場感も伝えられるようになることでしょう。
※CTやMRI：CT（Computed Tomography:コンピュータ断層撮影法）はX線で画像診断を行う装置。
MRI（Magnetic Resonance Imaging:磁気共鳴画像法）は、強い磁力で生体内の情報を画像にする装置。
※音素列：音素は言語音の最小単位で、母音と子音に分けられる。

飯田先生の研究内容

3D音響によるバーチャルリアリティにより、遠方の音空間(コンサートホール、オリンピック会場、観光名所など)を再現する研究を進めています。ヒトがたった２つの耳で音の方向、距離、拡がりなどを知覚するメカニズムを研究し、それをコンピュータで処理してヘッドホンで再現するシステムも開発しています。

まだどこにもない新しいコミュニケーションをつくる。そのワクワクが待っている。

人と人、人とコンピュータ、人とロボットとのコミュニケーションをよりリアルにすること。あるいはそれ以上の感覚や感情が生まれるような、リアルを超えたコミュニケーションの実現をめざしています。知能メディア工学科では、音・画像などの「メディア工学」、人工知能などの「知識工学」、アイデアにカタチを与える「情報デザイン」の3つの領域からアプローチ。１年次から応用力を磨き、世界初の研究にチャレンジすることで、総合的な企画・開発能力を備えた人材を育てます。

詳しくはこちら学科サイトはこちら

授業様子　イメージ

TOPへ戻る

音声合成の先にある「音声生成」に挑む

MRIなどの装置を駆使して、声を出す仕組みをモデル化

飯田先生の研究内容

MRIなどの装置を駆使して、
声を出す仕組みをモデル化