2021.04.16 音声認識

音声認識エンジンの主要サービス５選とは？活用シーン・導入メリットも一挙公開！

金融機関やコールセンター、医療機関をはじめ、さまざまな業界で音声データの活用が進められています。そのような中で、注目を集めているのが音声認識エンジンの技術です。音声認識エンジンとは、音声データをテキストデータに変換する技術を指します。

蓄積されたデータから得た分析結果は、サービスレベルの向上や商品開発、社内業務の効率化などに活用されています。近年では、AIによって音声検索エンジンの認識精度が向上したため、活用の幅もますます広がっていくでしょう。

今回は、音声認識エンジンの活用シーンやメリット、選び方のポイントや音声検索エンジンの主要なサービスついてご紹介します。音声データの活用にお悩みの方や、音声認識エンジンサービスの利用を検討されているは、ぜひ参考にしてください。

音声認識エンジンの活用シーンとメリット
音声認識エンジンの選び方
代表的な音声認識エンジン
音声認識エンジンまとめ

音声認識エンジンの活用シーンとメリット

音声認識エンジンは、どのようなシーンで活用できるのでしょうか？ここからは音声認識エンジンの活用シーンとメリットを【顧客とのやりとりを蓄積する場合】と【社内でのやりとりを蓄積する場合】の2つに分けてご紹介します。

顧客とのやりとりを蓄積する場合

電話応対のモニタリングができる

顧客からの問い合わせやクレームなどで、電話応対の記録は日々蓄積されていきます。膨大なデータ量となるため、すべてをモニタリングすることは現実的ではありません。とはいえ、一部のモニタリングしかできないと、適切な応対ができているかの確認が難しいですよね。

音声認識エンジンの中には、NGワードなどを指定し、検索によって指定キーワードを含む通話を絞り込めるものもあります。音声データの属人的な分析よりも、抜け漏れなくモニタリングでき、問題点や課題が見つけやすくなります。

オペレーターのスキル向上に活かせる

オペレーターのスキル向上は、顧客満足度アップや成約率アップに繋がります。そのため、効率的かつ効果的に育成しなければなりません。また、オペレーター自身がスキルの向上を実感すれば、仕事に対する意欲も高まり、離職率の抑制も図れるでしょう。

音声認識エンジンのメリットは、通話記録をテキスト化できることです。通話記録の「見える化」によって、オペレーター自身が客観的に話し方の癖を把握し、改善点を見つけやすくなります。

また、ベテランオペレーターの通話記録をテキストで共有すれば、マニュアルとしても活用できますね。質の高いマニュアルが仕上がるとともに、マニュアル作成者の手間も省ける、おすすめの活用法です。

社内でのやりとりを蓄積する場合

報告書、議事録の作成業務を簡略化できる

問い合わせやクレームに関する報告書や、WEBミーティングの議事録も、音声認識エンジンを活用すれば作成業務を簡略化できます。

報告書や議事録は、作成者によって品質や体裁がばらついてしまいがちです。作成者個人の感情や解釈が入り、正確性や信頼性が担保されない可能性もあります。

しかし、音声データの内容が変換されたテキストには、事実しかありません。最終的には、人の手による加筆や修正が必要だとしても、私情が入り込む余地を減らせます。また、何度も音声データを聞き直す手間が省けるため、作成スピードも格段と速くなるでしょう。

音声認識エンジンの選び方

一口に音声認識エンジンサービスといっても、サービスごとにその特徴がさまざまです。ここでは、導入する音声認識エンジンサービスを選ぶ際に、着目すべきポイントをご紹介します。サービスの導入目的を明確化するとともに、着目すべきポイントを意識して検討しましょう。

認識精度に着目する

音声認識エンジンの認識精度は、認識率で表されることが多いです。認識率とは、音声データの内容と変換されたテキストの内容が、どれほど一致しているかということです。

一致している割合が高いほど、認識率は高くなります。ただし、認識率が常に100％という音声認識エンジンはありません。声の大きさや話すスピード、周囲の雑音などのさまざまな要素が、認識率に影響を与えるからです。

ぜひ、各サービスの認識率検証結果などを確認してみてください。自社にとって望ましい認識率をあらかじめ決めておくと、比較材料になるのでおすすめです。

また、AI搭載の音声認識エンジンは、使えば使うほど認識率がアップする仕組みです。そのため、より正確なテキスト化を望む場合は、AI搭載の音声認識エンジンも検討するとよいでしょう。

コストに着目する

どれだけ認識精度が高い音声認識エンジンでも、導入目的に沿った費用対効果を生まなければ意味がありません。音声認識エンジンの利用に必要な、コストにも着目してください。

音声認識エンジンの利用に必要なコストは、主に2種類あります。「イニシャルコスト」と「ランニングコスト」です。

イニシャルコストとしては、見積や導入するシステム構築に費用がかかる場合があります。ランニングコストとしては、用語や言い回しのカスタマイズや、システムの保守管理にかかる費用が挙げられます。さらに、音声データやテキストデータを保存するストレージにかかる費用も見逃せません。

実際に利用する期間を想定し、トータルでかかるコストを把握しましょう。

代表的な音声認識エンジン

①Amazon Transcribe

【サービス提供者】
Amazon

【料金システム】
利用開始から12ヶ月間は、毎月最大60分無料で利用できます。月の未利用分は繰り越せず、無料利用枠を超えた分は、1秒単位で利用料が発生します。

【サービスの特徴】
「誰の発言か」を認識する「話者ダイアライゼーション機能」を搭載しており、テキスト化の際には句読点も自動で追加されます。認識率は、人の手による文字起こしに引けを取らないほど高いと言われています。
また、医療従事者向のAPI「Amazon Transcribe Medical 」が用意されているのも、Amazonの音声認識エンジンならではです。薬の名前や治療法、病状などの専門用語にも対応しており、医療機関での正確な文字起こしに役立っています。

②Google Cloud Speech-to-Text

【サービス提供者】
Google

【料金システム】
毎月最大60分無料で利用できます。無料利用枠を超えた分は、15秒単位で利用料が発生します。

【サービスの特徴】
日本語のサポートはもちろん、125の言語や方言を認識できます。事前に録音した音声だけでなく、リアルタイムの音声もテキスト化が可能です。また、住所や年、通貨などに用いられる数字を文脈から認識するため、人の手による加筆や修正の手間を大幅に削減することもできます。

③MicrosoftSpeech Services

【サービス提供者】
Microsoft

【料金システム】
Freeプランでは毎月5音声時間まで無料で利用できます。無料利用枠を超えるとStandardプランとなり、音声時間あたり112円の利用料がかかります。

【サービスの特徴】
Speech Services では、音声の文字起こし以外に、音声翻訳などのサービスも利用できます。最新の音声テキスト変換ソフトウェアを使用しているため、文字起こしの正確性が高いレベルで保たれています。

また、各種データがサービス側に記録されず、利用者自身でデータを管理するため、セキュリティの面でも安心して利用できるサービスです。

④Watson Speech to Text

【サービス提供者】
IBM

【料金システム】
毎月500分までは無料で利用できます。無料利用枠を超えた分は、従量課金制で利用料が発生します。

【サービスの特徴】
Watson Speech to Textは、音声認識研究の中で世界最高水準の性能と認められた技術を利用しています。現在も研究が進められているため、今後も最新のアルゴリズムが導入されていくでしょう。

また、あらかじめ学習している語彙に加えて、特定の単語や言い回しを追加できる、柔軟性の高さも魅力の一つです。

⑤AmiVoice

【サービス提供者】
株式会社アドバンスト・メディア

【料金システム】
個別に見積もりが必要です。企業ごとや業界ごとのニーズに合わせて音声認識の処理方法などを選択でき、柔軟なシステム構築が可能です。

【サービスの特徴】
AmiVoice Communication Suiteは、コールセンター向けに特化したサービスです。大手企業への導入実績が年々増えており、業界内での信頼度も高まっています。

中でも、通話品質評価機能は、コールセンターにとって魅力的な特徴でしょう。通話品質評価機能では、テンプレートの通話をもとに、実際の通話品質を自動採点してくれます。通話ごとに客観的なフィードバックができるため、オペレーターのスキル向上に役立ち、コールセンターの応対品質向上を図れます。

こちらの記事も参考にしてみてください。
【音声データテキスト化サービス導入のメリット！　効率化と安全性を両立】

音声認識エンジンまとめ

音声イメージ

今回は、音声認識エンジンの活用シーンやメリット、選び方のポイントや音声検索エンジンの主要なサービスついてご紹介しました。活用の幅が広がりつつある音声認識エンジンですが、非常に専門性の高い分野でもあります。

そのため、導入を検討する際には、音声認識エンジンを扱う企業への相談をおすすめします。それぞれの企業や業種・業界に合った活用方法のアドバイスや、不安や疑問の解消が期待できるでしょう。

※音声テキスト化サービスは下記に詳細があります。
https://www.optsp.co.jp/product/flexvstream
https://www.optsp.co.jp/product/flexvnote