音声認識の現状 IBM Watson Speech to Text と iOS 音声入力

いつの間にか身近になっているハイテク技術のひとつに音声認識・テキスト化があります。
実際にはなかなかの高い技術なのですが、気が付けばモバイル端末やウェブサービスで気軽に普通に使えるようになっていました。
その中から 2つ、最も身近なガジェット、iOS の音声認識と、
今話題の AI/人工知能のアイコン、IBM Watson の音声認識アプリである Speech to Text についてのポストです。

逆のと言いますか、類似の技術である音声合成・Text to Speech なら割と以前からありました。
電話のアナウンス等で良く聞きますし、音楽好きなら音声合成した声を更にメロディに乗せる Vocaloid / 初音ミクなどがお馴染みですね。

音声合成がこれだけ実用化されていれば逆の音声認識も難しくない気もしますが、似て非なるものだったのでしょうね。
純粋な音声認識技術に加えて、日本語だけではありませんが、同音異義語の使い分けという問題があります。
加えて日本語の場合にはそれらを漢字にしなければなりません
まぁそこは、PC / Personal Computer の発展と共に進歩してきた IME の技術を組み合わせて、きしゃのきしゃがきしゃできしゃ と聞き取ったら貴社の記者が汽車で帰社と変換すれば良し、と。
(ちゃんと変換できるか心配だったことえりだったけど、杞憂だった)

iOS 音声入力

iOS 7 辺りから Siri に加えて搭載された音声認識、「日本語は厳しい」という評価だったようですが、iOS 8 からは認識率が格段に向上し、現在の iOS 9 では既に充分実用的に使えるレベルです。

Siri は「音声入力ツール」ではない

ところで、先に Siri の話をしておきたいのですが、音声認識やそれをベースにした FAQソリューションの話をしていると「要は Siri だよね」っていう誤認識が非常に多いです。

Siri はたまたまインプットに音声入力を使っているだけで、音声認識ツールではありません。
あくまでもパーソナルアシスタントです。
インプットに通常のキーボードテキスト入力を使用する Spotlight 検索 に対して、音声入力の実用度が上がってきたのでそこに音声を使う Siri ですね。
実際 iPhone か iPad をお持ちの方は試していただきたいのですが、今でもSiri は長文には対応していません。
あくまでも 1・2文の短文での問いかけや依頼に反応するだけです。これは Siri や Andoroid の “OK,Google”というヤツと**音声認識**では根本的な認識の仕方・させ方が違うからとのことです。
(話逸れますが、その中で非構造化データである自然言語(話し言葉・語りかけ)を認識・解釈して応えているのはさりげなくスゴい!!)

なお、Google と Microsoft の音声入力も長文にはまだ対応しておらず、その意味でも次↓の iOS の音声入力は凄い。

iOS 9 音声入力

という訳で最近音声認識について調べていたら何のことはない手元の iPhone / iPad の音声認識が使わない手はないぐらいの使い勝手と高い認識精度でした。

この↑ビデオ、下の Watson デモと同じテキストを僕が読んでいます。
今回初めて知ったのですが、連続音声認識時間には制限があり、マニュアルには載っていませんが実際は 40秒程のようです。
都度キーボードがリフレッシュされますので実際に使う際には都度マイクアイコンをタップすれば OK です。

IBM Watson Speech to Text

続いて、IBM が誇る人口知能 /AI Watson の音声認識部分の Speech to Text です。
デモ用のウェブアプリを作って試してみました。
(って言っても GitHub にサンプルがあったのでそのコードを僕の Bluemix にデプロイしただけですが)

このビデオも QuickTime でキャプチャー録画したのですが、後で YouTube に上げたらアスペクト比がヘンで全部収まりませんでした、、
でも音声認識・テキスト化の様子は分かると思います。

  1. マイクを使ったライブ音声
  2. 録音済み .wav 音声データファイル

どちらでもイケます。
このデモでは .wav の音声データを使いました。
この場合は音声の再生よりも先にデータ自体を解析して音声認識→テキスト化してしまうのでテキストの方が先行している様子が確認出来ると思います。

watson speech to text

watson speech to text 2

 

認識出来なかった単語は「ウェブ」等 3語。
あと、漢字の間違いが一箇所(× 書き ○ 下記)
充分実用的だと思います。

本当は Bleumix で作ったデモの URL を公開して実際に試していただくのが百聞は一見に如かずで良いと思うのですが、僕の Bluemix の試用期間があと半月程でして、、、
その後流量がスゴくてメッチャ課金されたらイヤだなぁ〜とw

音声認識・音声入力の使い所

いつでもどこでも音声メモ

昔のアメリカの映画とか見てると小さいテレコ(テープレコーダー)や IC レコーダーにアイデア等をしゃべって、後刻秘書さんやアシスタントさんが書き起こすみたいなシーンを良く見ました。
しゃべった瞬間テキスト化されるので、アレが必要なくなりますね。
考えてみるとその後のテクノロジーの進化でタイプライターはなくなり、こういう用途のテレコもなくなり、アシスタントさんも職を失い。。

やっぱりスマートフォンって素晴らしく便利なツールで、こういう音声メモを気軽に活用するようになりますね。
これまでは日本だとあまり馴染みのない習慣でしたが、今後はどうでしょう?
僕なんかで言うと、通勤の歩いている間にブログのエントリーを 1・2本かけちゃったりする訳です。
日記なんかも簡単に書けて良いかも。

議事録

議事録ももちろん作れますが、僕が以前良くやっていたのが、上司とのミーティングの時にシレッと Evernote に録音していました。
後刻何度も聞いてポイントをテキスト化したりメモったりしていました。
今ではその場でテキスト化出来るのでメッチャ進歩しましたね。

映画・ドラマのスクリプト、歌の歌詞の書き起こし

歌の歌詞とかどうなんでしょうね?
伴奏の音楽がなっている中での音声認識ってできるのだろうか?
要、確認です。

電話 通話内容のテキスト化

コールセンター等での通話内容をテキスト化する場合、エンドユーザーとコミュニケーターの発話を分けてテキスト化できると後で便利です。
この場合 2通り方法があって

  1. 機械的に 2ch に分けてしまう方法
  2. 声紋認証をかます方法

1 の方が技術的には遥かにラクです。
でも 2が出来るのであればハードウェアのしばりがなくなりますし、↑に出てきた議事録などで 3名以上の発話を分けて認識することも出来ます。

という訳で、いつの間にか進歩していた音声認識技術。
これがタダで手軽に使えるのだから活用しない手はありません。

一方、既に身近で安価な技術なのに、ドヤ顔で高値で売りに来る業者さん、今は良いけど Bleumix で IBM Watson の API が手軽に使えるこれからの時代に生き残っていけるのだろうか???

 

各種 SNS アカウントでコメントできます