【AIでできること】音声処理編 音声認識から音声生成まで

AI技術の一分野である機械学習/深層学習を使った技術の進歩は、画像認識だけでなく音声認識にも来ています。

スマートスピーカーを普段から使っている方にはおなじみかもしれません。

音声処理・音声認識・音声合成などの分野の技術をWebで調べたのですが、

画像認識や自然言語処理に比べると入門者向け情報が少ないように思いました。

……なので!

この記事では、音声処理全般に関わる技術をまとめました!!

ビジネスや新しいアプリ開発に活用できそうな音声処理AI技術を知って、周りに差をつけちゃいましょう!

音声認識

機械学習を使って音声認識システムを作る試みは様々なところで行われています。

SiriやGoogle Assistant、Alexaのようなスマートスピーカーも、音声を認識してくれますよね。

ニューラルネットワークを使った音声認識システムの簡単な作り方を解説してくれている動画を紹介します。

How to Make a Simple Tensorflow Speech Recognizer

この動画では、音声データが収められたデータセットを、TensorFlowを使って実装する方法を解説してくれます。

音声は時系列データだと言えます。

そこでニューラルネットワークでは、RNN(リカレントニューラルネットワーク)やそれの派生であるLSTMなどのアルゴリズムを使って音声を扱っていきます。

基本的なシステムの実装自体はそこまで難しくありません。

是非試してみてください。

また、もっと簡単に音声認識システムを利用するならば、IBM Watson APIなどの企業が公開している機械学習APIを活用する方法もあります!

デモ:音声系API(STT/TTS)の概要・英語の発声練習アプリ構築

音声生成

圧倒的な性能で話題になったWaveNet

DeepMind's WaveNet : How it works, and how it is evolving - TensorFlow and Deep Learning
[23:30くらいからデモ]

音声を機械学習システムで作成するという研究もあります。

最も有名な、深層学習を使った音声合成システムとしてWaveNetを紹介します。

動画でもデモがありますが、公式サイトの方にもありますので、是非アクセスして確認してみてください。

声質をコピーする合成音声システムLyrebird

Lyrebird - Create a digital copy of your voice.

Lyrebirdは声質をコピーして用いることができる音声合成システムとして話題になりました。

これは公式サイトから実際に試すことができるので、是非試して遊んでみてください。

声質をコピーしてアプリ内で使うなどの利用ができそうですね。

学習するには

音声認識の勉強ができる書籍を紹介します。

深層学習と絡めてしっかり勉強できる本として以下をおすすめします。

[音声認識 (機械学習プロフェッショナルシリーズ) 単行本(ソフトカバー) – 2017/12/9
篠田 浩一 (著)]

音声認識システムの全体像をしっかり勉強できる本です。

この本をメインに、難しかったところを他の本で補完しながら読む進めるといいでしょう。

まとめ

この記事では音声認識などの音声処理システムについてまとめました

音声処理は非常に面白い分野です。

アプリやゲームへの応用アイディアを思いつきやすく、学べば必ず力になってくれるでしょう。

是非音声処理・音声認識・音声合成の勉強をはじめてみてくださいね!

\業界最安級/
月額2,980円のプログラミングスクール

✔ 業界最安値の月定額2,980円
✔ 「Q&A掲示板」で平均30分以内に回答がもらえる
✔ 月に一度の「オンライン相談」で悩みを解決
✔ 教材の数は30種類以上
✔ 入会金不要+いつでも退会OK

公式サイトはこちら

第一言語はPythonです。
皆さんRustやりましょう。

あなたの目的に合わせた
SAMURAI ENGINEERの運営サービス

SAMURAI ENGINEER Pro

未経験でも挫折しないプログラミングスクール

詳細はこちら

SAMURAI TERAKOYA

日本最大級のサブスク型オンラインITスクール

詳細はこちら

SAMURAI ENGINEER Freelance

「一人で稼げる」スキルを身につける

詳細はこちら
Close