【AIでできること】音声処理編 音声認識から音声生成まで

AI技術の一分野である機械学習/深層学習を使った技術の進歩は、画像認識だけでなく音声認識にも来ています。

スマートスピーカーを普段から使っている方にはおなじみかもしれません。

音声処理・音声認識・音声合成などの分野の技術をWebで調べたのですが、

画像認識や自然言語処理に比べると入門者向け情報が少ないように思いました。

……なので!

この記事では、音声処理全般に関わる技術をまとめました!!

ビジネスや新しいアプリ開発に活用できそうな音声処理AI技術を知って、周りに差をつけちゃいましょう!

目次

音声認識

機械学習を使って音声認識システムを作る試みは様々なところで行われています。

SiriやGoogle Assistant、Alexaのようなスマートスピーカーも、音声を認識してくれますよね。

ニューラルネットワークを使った音声認識システムの簡単な作り方を解説してくれている動画を紹介します。

この動画では、音声データが収められたデータセットを、TensorFlowを使って実装する方法を解説してくれます。

音声は時系列データだと言えます。

そこでニューラルネットワークでは、RNN(リカレントニューラルネットワーク)やそれの派生であるLSTMなどのアルゴリズムを使って音声を扱っていきます。

基本的なシステムの実装自体はそこまで難しくありません。

是非試してみてください。

また、もっと簡単に音声認識システムを利用するならば、IBM Watson APIなどの企業が公開している機械学習APIを活用する方法もあります!

音声生成

圧倒的な性能で話題になったWaveNet

[23:30くらいからデモ]

音声を機械学習システムで作成するという研究もあります。

最も有名な、深層学習を使った音声合成システムとしてWaveNetを紹介します。

動画でもデモがありますが、公式サイトの方にもありますので、是非アクセスして確認してみてください。

声質をコピーする合成音声システムLyrebird

Lyrebirdは声質をコピーして用いることができる音声合成システムとして話題になりました。

これは公式サイトから実際に試すことができるので、是非試して遊んでみてください。

声質をコピーしてアプリ内で使うなどの利用ができそうですね。

学習するには

音声認識の勉強ができる書籍を紹介します。

深層学習と絡めてしっかり勉強できる本として以下をおすすめします。

[音声認識 (機械学習プロフェッショナルシリーズ) 単行本(ソフトカバー) – 2017/12/9
篠田 浩一 (著)]

音声認識システムの全体像をしっかり勉強できる本です。

この本をメインに、難しかったところを他の本で補完しながら読む進めるといいでしょう。

まとめ

この記事では音声認識などの音声処理システムについてまとめました

音声処理は非常に面白い分野です。

アプリやゲームへの応用アイディアを思いつきやすく、学べば必ず力になってくれるでしょう。

是非音声処理・音声認識・音声合成の勉強をはじめてみてくださいね!

この記事を書いた人

第一言語はPythonです。
皆さんRustやりましょう。

目次