千葉工業大学 プロジェクト研究年報 2015年版
55/168

研究項目: 科研費申請準備支援助成金 研究期間: 2014/4/1 ~ 2015/3/31 研究課題名(和文): 音声合成を用いた低ビット音声符号化システムに関する研究 研究課題名(英文): A Study on Low Bit–rate Speech Coding System Using Speech Synthesis 研究者: ○木幡 稔 千葉工業大学 KOHATA Minoru 情報科学部 情報ネットワーク学科 教授 1.はじめに 音声符号化の分野において,これまで様々な低ビット符号化方式が提案され検討が行われてきた.低ビット化音声符号化技術は,今日の携帯電話の実現と普及に欠かせないものであるが,先般の大震災において経験したように,大規模災害等の際には通信が輻輳し,携帯電話は不通となることが多い.非常時に安否の確認や津波等からの危険告知,避難指示が行えないことは大きな問題である. そのため,本研究ではこのような場合に「災害モード」として機能する極低ビット音声符号化が必要であると考え,その開発を行う.災害時においては,音質や,場合によっては話者性を犠牲にしても,最低限の言語情報を伝送することが必要である.そのため,音声を,一旦テキストデータに変換し,それを元に合成した音声を,少ない情報量によって符号化する音声モーフィングボコーダを提案し,これを用いた極低ビットでの音声符号化方式を本研究において提案する. 2.提案方式の概要 本研究において提案された極低ビット音声符号化システムの概要を図1 に示す.以下では,各部の詳細について個別に説明する. 図1 提案方式の概要 2.1 ベースボコーダ部 図1の符号化部において,音声認識,音声合成の処 理は,一般に音声認識ボコーダとよばれるもので,入 力音声を合成音声により模倣するものである.本研究ではこれをベースボコーダと名付けた.ベースボコーダとしては音声認識性能が高く,かつ出力される合成音声が後続のボコーダ型符号化による性質変換処理に適したものである必要がある.そのため,既存の音声認識,音声合成システムについて最適なものを選択する必要があるが,本研究では音声認識は誤り等の無い理想的な状態を想定し,発話内容に相当するテキスト情報が既知であるとして実験を行った.音声合成器には入力音声のテキストデータを直接入力して実験を行った.また,音声合成器としては市販されているものの中で比較的音質の優れたものとしてHOYA 製VoiceText を用いた. 2.2 ボコーダ型音声符号化部 音声認識ボコーダの出力は音素系列のみなので20-30 bit/s の極めて低いビットレートで伝送可能であるが,入力話者の声質は失われる.これを補うため,DP マッチングによる時間軸の整合処理の後,ボコーダ型音声符号化を配置し,合成音声と入力音声の両者を低ビット符号化する.ボコーダ型音声符号化器の符号化パラメータは数kbit/s程度のビットレートを要するが,図1に示すように合成音声を入力音声に近づけるための符号化パラメータ変換情報のみを「差分情報」として符号化することで話者性を損なうことなく1 kbit/s 程度での符号化が可能な方式を提案した.ボコーダ型音声符号化としてはビットレートが数kbit/s 以下で,かつ通話のために必要な最低限の音質を維持可能なことが要求されるため,本稿では米国国防省で標準化されているMELP 符号化[1] を利用する.このように,パラメータ間の差分を量子化することで,合成音声を入力音声に変換して符号化する方式を音声モーフィングボコーダとよぶことにする. 3.音声モーフィングを利用した情報圧縮 MELP 符号化では線形予測係数,フーリエ振幅強度,ゲイン,ピッチ,バンドパスボイシング,非周期フラグの6 種の符号化パラメータが出力される[1].図2 はDP マッチングにより時間軸整合後の入力音声と合成音声の線形予測係数(LSP 係数)の対応関係を多数の話者に対してプロットしたものである.提案方式では,両者の差分をベクトル量432015 千葉工業大学附属研究所 プロジェクト研究年報          Project Report of Research Institute of C.I.T 2015    

元のページ 

10秒後に元のページに移動します

※このページを正しく表示するにはFlashPlayer10.2以上が必要です