Google音声入力でのAIの活用
AIを活用したソフトウェアの一つとして、Google音声入力があります。
Google音声入力はマイクを通じて人間が発言した言葉、発生した音声を文章として記録するソフトウェアです。Google Docsに付随しており無料で使用することが可能です。Google Docsを使用したことが無い場合でも、「OK,Google!」やスマフォでの音声入力として試したことがある人も多いのではないでしょうか。
この音声入力の性能は年々向上しており、近年、音声認識技術のワードエラー率の低下が注目されています。
音声認識技術を評価する基準として、人間が発話した単語の聞き取りできなかったワードに着目する「ワードエラー率(Word Error Rate)」がある。Googleの音声認識技術のワードエラー率は、2016年7月に8.5%、2016年12月に6.1%、そして現在4.9%まで改善されててきたという。Google I/O 2017で明らかにされた情報だ。
引用 ロボスタHP「Googleの音声認識、ワードエラー率が1年経たずに「8.5%」から「4.9%」まで改善! もはや人間レベル?」
ではその性能はどのくらい凄いのでしょうか?
実際に試してみました。
囃(はや)したからです。 → 畑耕すからである。という間違いはあるものの大部分において、正確に音声を読み取っていることが分かります。
このGoogle音声入力の特徴として凄いところは、文脈を判断して文章を作成しているという点です。ひと昔前の音声入力と言えば、人間の音声をそのまま文字として記録していたために、理解不能な文字列が並ぶという現象がありました。これはマイクの性能も関係しますが、音声入力の機能が文脈を意識していないために、無関係な単語をならべてしまい普段の生活では使用されないような文字列ばかりとなってしまうという理由です。
Google音声入力はこの点が改善されており、文脈の判断をAI人工知能を構成するディープラーニングを用いて実現しています。
具体的には文章を構成する単語、文脈、構成について日常的に使用される文章を学習し、入力された音声情報を判断して適切な文章を確定していきます。いったん確定された文章であっても、前後の文脈から違うと判断した場合は文章を書き直します。まるで人間が一旦書き終わった文章を後から見直して訂正するかのように、訂正を繰り返しながらより適切な文章へと修正を続けていきます。
そして、その学習の精度は年々上がってきており、そのままワードエラー率の低下へとつながっていっています。
まだまだ、日本語の場合は句読点や丸などが表現できないとか、動作が一定時間で中断してしまうといういくつかの課題はありますが、日々ディープラーニングの手法で学習を続け成長しているGoogle音声入力。いつの日か人間と変わらない精度を持つことができるのでしょうか。