音声の自動認識の精度はどのくらいだと思いますか?
正解は「80%」です。

今までは音声の自動認識は、専門用語や方言などのなまりなどによってどうしても音声認識の精度は80%止まりでした。

学校の授業などで授業の80%しか聴くことができなかったらどうでしょうか?
会社の会議などで80%しか聴くことができなかったらどうでしょうか?

20%の壁は人がヒアリングして物事を理解・把握することは難しいです。

京大、放送大の共同研究チームから90%以上の精度で字幕を作製できるシステムを開発したと明らかにしました。

京都大によると

大量のデータから自動で学習を繰り返す「ディープラーニング(深層学習)」という技術を音声認識システムに採用し、講演や講義で使われる専門用語の学習を繰り返し実施した。
これにより、音声の認識率が数年前は80%程度だったのが90%を超えるまでに向上した。人間が音声データを書き起こすよりも作業効率が良い水準まで技術力が上がったという。

と、あります。

ディープラーニング第三次人工知能ブームの立役者と言われています。
コンピューターが特徴を自分で把握するため、今まで人の手によって行われてきた特徴の定義をコンピューターがすることによって高次の特徴を分類できるようになった技術です。

簡単に言うと、猫の画像コンピューターに読み込ませるとコンピューターが自ら「猫耳」「猫しっぽ」「猫の顔つき」などの特徴を把握するという技術です。

このディープラーニングを使用して音声の特徴をコンピューターが把握して音声の自動認識を90%超えるまでに向上したようです。

今年度から放送大でインターネット上のオンライン講義の字幕作製で実用化されている。ただ、認識率は100%ではないため、正しい字幕を作製するには人間の編集作業が必要。

放送大では早速実用されるようです。
これにより健常者はもちろんですが、難聴を抱える方などの学習も今までと比べてしやすくなります。

京大大学院情報学研究科の河原達也教授によると

「聴覚障害者だけでなく、健常者でも音声を出すと迷惑な場所で動画を見ることができるなどのメリットが出てくる」

と話しています。
他にもいろいろメリットが生まれてきそうな予感がします。

放送大でしか現在は運用されませんが、全国の学校などでも導入されるとより高い学習校が期待されそうです。
今後の学校への導入などに期待したいと思います。

 

via:産経WEST