Message PHP
[Homepage] [Script Top] [Administrator]

2017-01-14 の記事 - 2017-01-14
UWPでは音声入力APIが提供されており、比較的簡単なプログラムで音声認識をさせることができます。命令を受け付ける場合などには入力候補を指定することができ、逆に語彙を限定しない方法での使用も可能と、なかなか面白い機能です。
となれば、外国語の音声を聞き取って認識させることにより、字幕を生成できるのではないかと考えるのは当然というものでしょう。これが実用可能なレベルで、それもリアルタイムに可能なのであれば、たとえ認識精度が限定的なものであったとしても、言語学習にとって大きな助けになることは想像に難くありません。
そこで、ひとまず私が導入している3言語(イギリス英語、簡体中国語、日本語)について精度を確認してみることにしました。音声はPC上で再生し、それをステレオミキサーによって入力します。

E1.BBC World Serviceを聞かせる
ちょうどイギリス英語の言語パックを導入していることですし、手始めにBBCを聞かせてみました。音声は早すぎず遅すぎず、おおむね一般的なニュースの読み上げ速度であり、理解には苦労しない程度のものでした。コメディやミュージック、くだけた番組ならともかく、真面目なラジオ番組の内容が聞き取れることは、実用上の最低ラインと言っていいでしょう。
結果ですが、全くダメでした。ほぼ認識を開始することすらできず、たまに認識を試みようとするものの、言葉をいくらか拾ってはそれ以上の認識ができなくなってしまうことの繰り返しでした。

E2.VOA Learning Englishを使用する
通常の英語ではダメとなれば、初学者の強い味方・VOA Learning Englishはどうでしょうか。学習者のために速度を落としてある英語で、私もずいぶんお世話になったものです。
こちらはひとまず、認識はされます。精度は必ずしも高くなく、たびたび文節が飛ばされることもあり、実用レベルに達するにはまだまだ壁が厚そうですが。


分かるような、分からないような。

C1.C-POPを聞かせる
演奏に邪魔されて声を拾えないようでは困りますので、ここはひとまず「矜持」を聞かせてみました。演奏が少ないため、カラオケで歌おうとするとリズムを取るのに若干苦労するような曲です。
結果、ほぼダメでした。中国語には声調があるため、歌を正しく認識させることは困難であろうと予想はしていましたが、それ以前に認識を開始することがほとんどできていませんでした。

C2.CCTVのニュースを聞かせる
ニュースキャスターによるニュースの読み上げです。これがまともに聞き取れないようでは、実用するのは難しいと言っていいでしょう。
結果は英語でBBCを聞かせた時と同様、まともに認識を開始することさえできませんでした。

C3.中国語の朗読を0.5倍速で聞かせる
普通に聞かせてもまともに認識させられない朗読音声(おおむね標準的な速さ)を、0.5倍速で再生して聞かせてみました。
結果、上手くいけば多少の認識はされます。ごく一部の文節では完璧な認識を見せてもくれました。が、デタラメな認識や聞き取れない部分も多く、基本的にはまともに使えません。中国語は英語にもまして、認識が難しい言語のようです。

J1.radikoを聞かせる
アメリカやイギリス、中国の放送がタダで聞けてしまうこの時代、在住都道府県外の放送を聞くのにすら金を取るradikoの姿勢を見て、私は日本のラジオの行く末を悟り、それ以来radikoを含めて日本のラジオを聞くことをやめました。が、この際ですから利用させていただくとしましょう。
結果、認識精度はお世辞にも高いとは言い難いものでしたが、そもそも認識されないことさえ多い他の言語と比較すれば、かなり頑張って認識してくれました。やはり日本語は(発音に関しては)比較的簡単な言語のようです。

J2.NHKニュースを聞かせる
日本語読み上げの「標準」を挙げるとするならば、おそらくNHKニュース。独立性を担保するための公共放送なのに権力にヘーコラしていようが、経営委員に悪質なデマ垂れ流しレイシストが紛れ込んだことがあろうが、ヤクザまがいの受信料取り立て範囲拡大をたくらんでいようが、日本語読み上げの精度に限っては腐っても天下の日本放送協会です。たぶん。
結果、例によって認識内容こそかなりデタラメではあるものの、こちらもそれなりに認識されてくれました。


とりあえず、寒いということが言いたいらしいのは分かります。他の言語ではそもそもまともに音声を拾ってさえくれないことが多いため、この結果ですら上出来です。