VOICE ー音声認識ー

通話の音声(人の話し声)を、AIが聞き取りしています。スマホで留守録にメッセージが入った時に、AIが音声認識されたデータをテキスト文字に置き換える事ができます。たとえば「ドコモ留守電」や「スマート留守電(ソースネクスト)」など、ボイス・メッセージが自動でテキスト変換され、留守録が文字で読めるという便利な機能が備わっています。メッセージを再生しなくても、いったん用件が確認できます。

留守録のメッセージが、正確にテキスト化できているかどうかは、音声がブレていたり、発音が不鮮明だったり、また、個人情報(個人名や法人名など)の部分だけがおかしな変換になっていたりすることは、よくあります。結局音声メッセージを再生しなければ、用件の正解が読み取れない事もあるのですが、場合により音声を再生するより、テキスト画面で誰からどの様な連絡だったか、気になる伝言の内容を一見して留めておければ、といった状況もあり利便性はとても高いと思います。

あるいは、カスタマーセンターのコールシステムに、音声認識テキスト変換が取り入れられると、数十数百名の電話オペレーターの通話履歴が、一斉にテキスト文字で残されることになると思います。音声チャットやLine等のメッセンジャーアプリ様式で各通話内容が読めると、履歴の確認が非常に簡単で効率的でしょう。

近年、Windows10の Cortana や iPhoneの Siri 、Amazon Alexa、Google Echo 等など、音声認識で自動検索する機器が目立ってきました。知ってはいるけれど、なかなかあまり使ってみる機会がなかった、と思っている方々は多いと思います。Web検索の画面にマイクのアイコンが出ているので、話し掛ける。調べたいキーワードを発話すると、検索窓にテキスト文字が出てきます。音声認識したAIが自動で文字入力をやってくれます。テキスト入力されるやいなや素早く、依頼されたキーワードに関する最適な情報の候補が検索され、続々と画面に現れて、感心することもしばしばです。音声検索の機能が搭載されているスマホやPCモニター、Android TV、カーナビなどに、音声を聞き取るマイクが常にONになっている仕様です。

スマホWindows PCに話し掛けると、音声で返答があり、ちょっと浮かれることがあります。発話した音声は、いったんテキスト文字で端末に取り込まれて、検索された結果の文字情報が返答として読み上げられ、あたかも会話した様に、私達の記憶に残ります。

今後、音声検索の利用者が増えると、発話を聞き取りして音声認識機能が学習する機会も増えるので、テキスト変換の正確さが高くなります。日本語の場合、標準語でも方言でも、発音による聞き取りの能力や能率はほとんど変わらないと言われています。