音声情報処理
開設大学 | 愛知工科大学 |
---|---|
科目コード | 241203 |
担当教員 | 實廣 貴敏(工学部教授) |
学年配当 | 3年 |
単位数 | 2単位 |
曜日 | 金曜 |
開講期間 | 後期 |
実施形式 | 対面 |
開講時間割1 | 1限 09:30 ~ 11:00 |
教室 | 7303室 |
履修条件 | 特になし |
募集定員 | 5 |
募集時期 | 9月 |
開講期間 | 9/16~1/17 |
講義概要 | 【授業の概要】 音声・音響に関する情報処理技術は古くから活用されているが、近年、深層学習やクラウドコンピューティングの進展につれ、ますます高度な技術が利用されるようになってきている。本講義では、音の基本的性質から、音響信号処理、音声分析、音声符号化、音声合成、音声認識、および音声対話などついて、基礎から最新技術について学ぶ。 【到達目標】 音波・音声の基本的性質の理解、および、音響信号処理、音声分析、音声符号化、音声合成、音声認識、音声対話などの基本的な知識や技術を習得する。 【講義計画】 1. ガイダンス/音波の基本的性質: 音波の性質について学ぶ。 2. 聴覚の基本的性質: 聴覚機構や聴覚特性について学ぶ。 3. 音場の音響信号処理: 音響情報処理として、代表的な音響エコーキャンセラ、マイクロホンアレイなどについて学ぶ。 4. 音響信号処理(実習): 簡単な音響信号処理プログラミングを行う。 5. 音声の基本的性質: 発声器官の構造や音素の種類、音声の性質、発声器官を模擬した音声生成モデルについて学ぶ。 6. 音声分析法: フーリエ変換やケプストラム分析など、基礎的な音声分析手法について学ぶ。 7. 音声分析法(実習): フーリエ変換およびケプストラム分析のプログラムを作成し、実際に自分の声を分析する。 8. 音声の線形予測分析: 代表的な音声分析法である線形予測分析について学ぶ。 9. 音声符号化: 基本的な音声符号化、および楽音符号化について学ぶ。 10. 音声合成: テキストから音声を生成する音声合成、また、その応用といえる歌声合成について学ぶ。音声合成でのDNN (Deep Neural Network)技術についても触れる。 11. 歌声合成(実習): 歌声合成ソフトウェアを用いた実習を通じ、音声合成・歌声合成の応用について学ぶ。 12. 音声対話システム(実習): オープンソース音声対話システムMMDAgentを使った実習により応用技術を学ぶ。 13. 音声認識1: 音声認識の原理、およびDTW (Dynamic Time Warping)による音声認識について学ぶ。グループ学習で演習を行い、DTWの演算方法を身につける。 14. 音声認識2: HMM (Hidden Markov Model)、 DNNによる音声認識について学ぶ。グループ学習で演習を行い、HMMの演算方法を身につける。 15. 音声認識3: 大語彙連続音声認識で利用されている技術(言語モデル、探索技術)について学ぶ。 |
テキスト・参考文献 | テキスト 資料配布 参考文献 ・「新音響・音声工学」(近代科学社) ・「IT Text 音声認識システム 改訂2版」(オーム社) ・「音声認識(機械学習プロフェッショナルシリーズ)」(講談社) |
試験・評価方法 | 定期試験、予習・復習・演習・実習、発言で評価する。 |
別途必要な経費 | 特になし |
その他特記事項 | ・実習には、Windowsがインストールされたノートパソコンが必要です。 ・単位認定には、授業回数の4/5以上の出席が必要です。 |
科目名(英語) | Speech Processing |
使用言語 |