シラバス詳細

シラバスカテゴリー
科目コード
学年
開講期間
開始時限
修了時限
大学
科目名
単位数
曜日
履修登録時期

音声情報処理

開設大学 愛知工科大学
科目コード 241203
担当教員 實廣 貴敏(工学部教授)
学年配当 3年
単位数 2単位
曜日 金曜
開講期間 後期
実施形式 対面
開講時間割1 1限 09:30 ~ 11:00
教室 7303室
履修条件 特になし
募集定員 5
募集時期 9月
開講期間 9/16~1/17
講義概要 【授業の概要】
音声・音響に関する情報処理技術は古くから活用されているが、近年、深層学習やクラウドコンピューティングの進展につれ、ますます高度な技術が利用されるようになってきている。本講義では、音の基本的性質から、音響信号処理、音声分析、音声符号化、音声合成、音声認識、および音声対話などついて、基礎から最新技術について学ぶ。
【到達目標】
音波・音声の基本的性質の理解、および、音響信号処理、音声分析、音声符号化、音声合成、音声認識、音声対話などの基本的な知識や技術を習得する。
【講義計画】
1. ガイダンス/音波の基本的性質: 音波の性質について学ぶ。
2. 聴覚の基本的性質: 聴覚機構や聴覚特性について学ぶ。
3. 音場の音響信号処理: 音響情報処理として、代表的な音響エコーキャンセラ、マイクロホンアレイなどについて学ぶ。
4. 音響信号処理(実習): 簡単な音響信号処理プログラミングを行う。
5. 音声の基本的性質: 発声器官の構造や音素の種類、音声の性質、発声器官を模擬した音声生成モデルについて学ぶ。
6. 音声分析法: フーリエ変換やケプストラム分析など、基礎的な音声分析手法について学ぶ。
7. 音声分析法(実習): フーリエ変換およびケプストラム分析のプログラムを作成し、実際に自分の声を分析する。
8. 音声の線形予測分析: 代表的な音声分析法である線形予測分析について学ぶ。
9. 音声符号化: 基本的な音声符号化、および楽音符号化について学ぶ。
10. 音声合成: テキストから音声を生成する音声合成、また、その応用といえる歌声合成について学ぶ。音声合成でのDNN (Deep Neural Network)技術についても触れる。
11. 歌声合成(実習): 歌声合成ソフトウェアを用いた実習を通じ、音声合成・歌声合成の応用について学ぶ。
12. 音声対話システム(実習): オープンソース音声対話システムMMDAgentを使った実習により応用技術を学ぶ。
13. 音声認識1: 音声認識の原理、およびDTW (Dynamic Time Warping)による音声認識について学ぶ。グループ学習で演習を行い、DTWの演算方法を身につける。
14. 音声認識2: HMM (Hidden Markov Model)、 DNNによる音声認識について学ぶ。グループ学習で演習を行い、HMMの演算方法を身につける。
15. 音声認識3: 大語彙連続音声認識で利用されている技術(言語モデル、探索技術)について学ぶ。
テキスト・参考文献 テキスト 資料配布
参考文献
・「新音響・音声工学」(近代科学社)
・「IT Text 音声認識システム 改訂2版」(オーム社)
・「音声認識(機械学習プロフェッショナルシリーズ)」(講談社)
試験・評価方法 定期試験、予習・復習・演習・実習、発言で評価する。
別途必要な経費 特になし
その他特記事項 ・実習には、Windowsがインストールされたノートパソコンが必要です。
・単位認定には、授業回数の4/5以上の出席が必要です。
科目名(英語) Speech Processing
使用言語

pagetop