千葉工業大学 プロジェクト研究年報 2015年版
119/168

研究項目: 科研費採択者助成金(初年度) 研究期間: 2014/4/1 ~ 2015/3/31 研究課題名(和文): 音環境理解のための音カテゴリクラスタリングに関する研究 研究課題名(英文): Studies on Sound Category Clustering for Computational Auditory Scene Analysis 研究者: ○大川 茂樹 千葉工業大学 OKAWA Shigeki 工学部 未来ロボティクス学科 教授 1 はじめに 近年,関連するハードウエアの進歩に伴い,大量のデータに基づく情報処理研究,いわゆる「ビッグデータ」を活用した研究が盛んに行われている.とりわけ,人の生活にまつわる様々な情報をビッグデータとして扱う「ライフログ」研究は,ブログやTwitterのような電子日記をはじめ,ウェアラブル型のデバイスを用いて歩数や心拍を記録したり,カメラや録音装置を用いて身近な光景や音を画像・音声データとして収集したりすることで,様々な応用可能性が期待される.本研究は,そのようなライフログ研究の一環として,特にロボットの聴覚機構などへの実装を鑑みて,我々の身の回りに日常的に存在する様々な音に着目し,その物理的および聴覚心理的(意味的)カテゴリを合理的にクラスタリング(分類)する方法と,様々な音響事象のカテゴリ識別技術を検討することを目的とした3年計画のプロジェクトである. 我々人間は,たとえばTVやラジオのスイッチを入れ,そこから流れる音を耳にした途端,放送内容(ニュースかスポーツ中継か音楽番組か)をほぼ瞬時に認識できる.放送音声のような「人が聴くことを前提としている音」でなくとも,たとえば屋外や室内で耳に入る様々な音(自動車の走行音,鳥の鳴き声,自然音,ドアのノック音など)に対して,我々はそれほど時間をかけずにその音源を知ることができる.このことは,言うまでもなく人の脳内に蓄積された「様々な音に関する知識」があるからに他ならないが(その証拠に,聴いたことのない音の音源を推測することは難しい),この「知識」は,構造的に明確に分類され定義されているわけではない. 耳に入る音から,その音源や広く音が発せられている環境を分析し理解することは,「音環境理解」または「聴覚情景分析」と呼ばれる.合理的な音環境理解のためには,音カテゴリを表現するための音響特徴量の検討と,分類・識別のための学習・評価アルゴリズムの開発が重要となる. 以下,本稿では,初年度に実施した研究のうち,(i)データベース音源のクラスタリング実験,(ii)実収録音源のクラスタリング実験について述べる. 2 音響特徴量 音響特徴量により表現できる情報は,その種類により異なる.本研究では,各種特徴量の分布域を考慮し,8種類の音響特徴量を採用した(表1). 表1 音響特徴量の一覧 特徴量 次数 振幅差分の最大値1 パワー 2 零交差数 2 線形パワースペクトル 2,048 対数パワースペクトル 2,048 ケプストラム 30 メルケプストラム 30 自己相関係数 300 振幅差分の最大値と自己相関係数以外の特徴量は,短時間分析フレームの時間方向の平均値と標準偏差値から成る.平均曲線により音の持つ特徴を表現し,標準偏差により微小な変動を吸収する.特徴量ベクトルは,変量ごとに値のとる範囲が異なるため,標準化してから用いる 3 データベース音源のクラスタリング 音響特徴量の性質を知るため,データベース音源を用いた教師なしクラスタリング実験を行った. 実験には,単一マイクロホンによる105種類の音源について非音声音ドライソースが収録されたRWCP実環境音声・音響データベースを使用する.105種のドライソースから抽出した各特徴量ベクトルを,ウォード法により階層的クラスタリングする.最も音源系統の聴覚心理的(意味的)分類に成功したと考えられる,対数パワースペクトルを特徴量としたときのデンドログラムを図1に,クラスタごとの分布密度を図2に示す. 1032015 千葉工業大学附属研究所 プロジェクト研究年報          Project Report of Research Institute of C.I.T 2015    

元のページ 

10秒後に元のページに移動します

※このページを正しく表示するにはFlashPlayer10.2以上が必要です