音声を字幕化する技術が発達、講義の音声を字幕にして聴覚障害者へ

音声の自動認識の精度はどのくらいだと思いますか？
正解は「８０％」です。

今までは音声の自動認識は、専門用語や方言などのなまりなどによってどうしても音声認識の精度は８０％止まりでした。

学校の授業などで授業の８０％しか聴くことができなかったらどうでしょうか？
会社の会議などで８０％しか聴くことができなかったらどうでしょうか？

２０％の壁は人がヒアリングして物事を理解・把握することは難しいです。

京大、放送大の共同研究チームから９０％以上の精度で字幕を作製できるシステムを開発したと明らかにしました。

京都大によると

大量のデータから自動で学習を繰り返す「ディープラーニング（深層学習）」という技術を音声認識システムに採用し、講演や講義で使われる専門用語の学習を繰り返し実施した。
これにより、音声の認識率が数年前は８０％程度だったのが９０％を超えるまでに向上した。人間が音声データを書き起こすよりも作業効率が良い水準まで技術力が上がったという。

と、あります。

ディープラーニングは第三次人工知能ブームの立役者と言われています。
コンピューターが特徴を自分で把握するため、今まで人の手によって行われてきた特徴の定義をコンピューターがすることによって高次の特徴を分類できるようになった技術です。

簡単に言うと、猫の画像コンピューターに読み込ませるとコンピューターが自ら「猫耳」「猫しっぽ」「猫の顔つき」などの特徴を把握するという技術です。

このディープラーニングを使用して音声の特徴をコンピューターが把握して音声の自動認識を９０％超えるまでに向上したようです。