Google音声入力でのAIの活用

AIを活用したソフトウェアの一つとして、Google音声入力があります。

Google音声入力はマイクを通じて人間が発言した言葉、発生した音声を文章として記録するソフトウェアです。Google Docsに付随しており無料で使用することが可能です。Google Docsを使用したことが無い場合でも、「OK,Google！」やスマフォでの音声入力として試したことがある人も多いのではないでしょうか。

この音声入力の性能は年々向上しており、近年、音声認識技術のワードエラー率の低下が注目されています。

音声認識技術を評価する基準として、人間が発話した単語の聞き取りできなかったワードに着目する「ワードエラー率（Word Error Rate）」がある。Googleの音声認識技術のワードエラー率は、2016年7月に8.5%、2016年12月に6.1%、そして現在4.9%まで改善されててきたという。Google I/O 2017で明らかにされた情報だ。
引用ロボスタHP「Googleの音声認識、ワードエラー率が1年経たずに「8.5%」から「4.9％」まで改善！もはや人間レベル？」

ではその性能はどのくらい凄いのでしょうか？

実際に試してみました。

＜原文　坊ちゃん＞

親譲の無鉄砲で小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰を抜かした事がある。なぜそんな無闇をしたと聞く人があるかも知れぬ。別段深い理由でもない。新築の二階から首を出していたら、同級生の一人が冗談、いくら威張っても、そこから飛び降りる事は出来まい。弱虫やーい。と囃たからである。小使に負ぶさって帰って来た時、おやじが大きな眼をして二階ぐらいから飛び降りて腰を抜かす奴やつがあるかと云ったから、この次は抜かさずに飛んで見せますと答えた。

＜Google音声入力＞

親ゆずりの無鉄砲で子供の時から損ばかりしている。小学校にいる時分学校の二階から飛び降りて一週間ほど腰を抜かした事がある。なぜそんなむやみをしたと聞く人があるかも知れぬ。別段深い理由でもない。新築の二階から首を出していたら、同級生の一人が冗談くらばっても、そこから飛び降りる事は出来まい。弱虫やい。畑耕すからである。小遣いに帰って来た時、おやじが大きな目をして二階ぐらいから飛び降りて腰を抜かす奴やつがあるかと言ったら、この次は抜かさずに飛んで見せますと答えた。

囃(はや)したからです。 → 畑耕すからである。という間違いはあるものの大部分において、正確に音声を読み取っていることが分かります。

ページのトップへ

このGoogle音声入力の特徴として凄いところは、文脈を判断して文章を作成しているという点です。

ひと昔前の音声入力と言えば、人間の音声をそのまま文字として記録していたために、理解不能な文字列が並ぶという現象がありました。これはマイクの性能も関係しますが、音声入力の機能が文脈を意識していないために、無関係な単語をならべてしまい普段の生活では使用されないような文字列ばかりとなってしまうという理由です。

Google音声入力はこの点が改善されており、文脈の判断をAI人工知能を構成するディープラーニングを用いて実現しています。

具体的には文章を構成する単語、文脈、構成について日常的に使用される文章を学習し、入力された音声情報を判断して適切な文章を確定していきます。いったん確定された文章であっても、前後の文脈から違うと判断した場合は文章を書き直します。まるで人間が一旦書き終わった文章を後から見直して訂正するかのように、訂正を繰り返しながらより適切な文章へと修正を続けていきます。

そして、その学習の精度は年々上がってきており、そのままワードエラー率の低下へとつながっていっています。

ページのトップへ

まだまだ、日本語の場合は句読点や丸などが表現できないとか、動作が一定時間で中断してしまうといういくつかの課題はありますが、日々ディープラーニングの手法で学習を続け成長しているGoogle音声入力。いつの日か人間と変わらない精度を持つことができるのでしょうか。