コンピュータ・シミュレーションによる音声研究

私たちの生活に欠かせない音声を対象とした研究は古くから行なわれていますが、現在においてもわかっていないことがたくさんあります。例えば、私たちの声は人によって違うわけですが、声を出す過程でどの部分でその違いが生じのるか、あるいは、人間の声らしさを決定づけているのはどの部分なのかなどについては、まだすべてが解明されていません。これらの解明を難しくしている理由として、音が目に見えないこと、自然な発話状態で口の中(声道と言います)に測定機器を入れて音の測定をするのが困難なことなどが挙げられます。そこで、私の研究室ではコンピュータを使用して発声過程を模擬(シミュレーション)する方法で音声の研究を行なっています。

シミュレーション手法には有限要素法(Finite Element Method, FEM)という手法を用いています。この手法は、要素と呼ばれる三角形や四角形などの形状で解析対象領域を分割し、分割されたそれぞれの要素内で方程式を組み立て、それら全ての和をとった全体の方程式を解くことで近似解を得る手法です。音の伝わる様子を表現する方程式があるのですが、口の中の形状はとても複雑で、そのままではこの方程式を解くことができません。FEMは複雑な形状を三角形などの簡単な形状に分割して計算するので、口の中のような複雑な形状でも近似的に方程式を解くことが可能になります。

発声過程を模擬するためには声道形状が必要です。声道形状の取得には磁気共鳴映像法(Magnetic Resonance Imaging, MRI)という手法で体の断層画像を撮像する機器を使います。MRIは非侵襲で、CTのように被爆する恐れがないので音声の研究ではよく利用されています。図1は撮像された画像の一例です。このような2次元断層画像を、声道全体をカバーするように複数枚撮像し、立体化するソフトウェアを使用して合成することで3次元の声道形状モデルを作成します。

図2は3次元の声道形状モデルの一例です。この声道形状モデルを用いてFEMでシミュレーションを行なった結果の一例を図3に示します。この図は声道内の音のエネルギー流をベクトルで表示したものです。色の違いでエネルギー流の大きさを表現しています。この図のように、いままで目にすることが難しかった音の伝わる様子を視覚化することで、声道のどの部位が音を特徴付けているのかを推察することができます。このような研究成果を生かして、まるで人間が話していかのようにコンピュータに喋らせることを目指して研究を進めています。

MR画像の一例 MR画像の一例 シミュレーション結果
図1: MR画像の一例 図2: 3次元形状モデル 図3: シミュレーション結果

科学技術研究補助金

共同研究

研究業績

学術論文

国際会議

口頭発表

紀要