【AIでできること】音声処理編 音声認識から音声生成まで

AI技術の一分野である機械学習/深層学習を使った技術の進歩は、画像認識だけでなく音声認識にも来ています。

スマートスピーカーを普段から使っている方にはおなじみかもしれません。

音声処理・音声認識・音声合成などの分野の技術をWebで調べたのですが、

画像認識や自然言語処理に比べると入門者向け情報が少ないように思いました。

……なので!

この記事では、音声処理全般に関わる技術をまとめました!!

ビジネスや新しいアプリ開発に活用できそうな音声処理AI技術を知って、周りに差をつけちゃいましょう!

音声認識

機械学習を使って音声認識システムを作る試みは様々なところで行われています。

SiriやGoogle Assistant、Alexaのようなスマートスピーカーも、音声を認識してくれますよね。

ニューラルネットワークを使った音声認識システムの簡単な作り方を解説してくれている動画を紹介します。

How to Make a Simple Tensorflow Speech Recognizer

この動画では、音声データが収められたデータセットを、TensorFlowを使って実装する方法を解説してくれます。

音声は時系列データだと言えます。

そこでニューラルネットワークでは、RNN(リカレントニューラルネットワーク)やそれの派生であるLSTMなどのアルゴリズムを使って音声を扱っていきます。

基本的なシステムの実装自体はそこまで難しくありません。

是非試してみてください。

また、もっと簡単に音声認識システムを利用するならば、IBM Watson APIなどの企業が公開している機械学習APIを活用する方法もあります!

デモ:音声系API(STT/TTS)の概要・英語の発声練習アプリ構築

音声生成

圧倒的な性能で話題になったWaveNet

DeepMind's WaveNet : How it works, and how it is evolving - TensorFlow and Deep Learning
[23:30くらいからデモ]

音声を機械学習システムで作成するという研究もあります。

最も有名な、深層学習を使った音声合成システムとしてWaveNetを紹介します。

動画でもデモがありますが、公式サイトの方にもありますので、是非アクセスして確認してみてください。

声質をコピーする合成音声システムLyrebird

Lyrebird - Create a digital copy of your voice.

Lyrebirdは声質をコピーして用いることができる音声合成システムとして話題になりました。

これは公式サイトから実際に試すことができるので、是非試して遊んでみてください。

声質をコピーしてアプリ内で使うなどの利用ができそうですね。

学習するには

音声認識の勉強ができる書籍を紹介します。

深層学習と絡めてしっかり勉強できる本として以下をおすすめします。

[音声認識 (機械学習プロフェッショナルシリーズ) 単行本(ソフトカバー) – 2017/12/9
篠田 浩一 (著)]

音声認識システムの全体像をしっかり勉強できる本です。

この本をメインに、難しかったところを他の本で補完しながら読む進めるといいでしょう。

まとめ

この記事では音声認識などの音声処理システムについてまとめました

音声処理は非常に面白い分野です。

アプリやゲームへの応用アイディアを思いつきやすく、学べば必ず力になってくれるでしょう。

是非音声処理・音声認識・音声合成の勉強をはじめてみてくださいね!

「プログラミング、右も左もわからない…」という方にオススメ

cta_under_bnr

当プログラミングスクール「侍エンジニア」では、これまで6000人以上のエンジニアを輩出してきました。

その経験を通してプログラミング学習に成功する人は、「目的目標が明確でそれに合わせた学習プランがあること」「常に相談できる人がそばにいること」「自己解決能力が身につくこと」この3つが根付いている傾向を発見しました。

侍エンジニアは上記3つの成功ポイントを満たすようなサービス設計に磨きをかけております。

cta_under_bnr

「自分のスタイルや目的に合わせて学習を進めたいな」とお考えの方は、ぜひチェックしてみてください。

詳細はこちら

書いた人

フクロウ

第一言語はPythonです。
皆さんRustやりましょう。

おすすめコンテンツ

まずはここから!初心者でも1から学べるプログラミング入門カリキュラム

転職成功で受講料0円!あなたもプログラミングを学んでエンジニアデビュー