音声認識システム

先日、速記・言語科学研究会(→こちら)の第2回勉強会として、京都大学学術情報メディアセンターの河原達也教授の研究室(→こちら)をお訪ねし、自動音声認識automatic speech recognition) システムについてお話をうかがいました。話し言葉を自動的に文字で記録するシステムです。従来速記がになっていた、音声言語の正確・迅速な文字化を、どのように機械化するのか、speech to text technologyの最先端を知る、という関心から伺いました。

河原先生は、衆議院音声認識システム(本会議、委員会など発言を、自動音声認識ソフトによって記録するシステム)の開発を2003年から進めておられます。今年秋に導入予定だというシステムのデモを見せてもらい、基本原理を伺いました。

衆議院参議院ともに、議事録作成のシステムの切り替えを定期的に行っているそうで、参議院では、ワープロで直接入力するという技術を導入し、一方、衆議員では音声認識システム導入を目指す、という選択をしたそうです。

国会の発言が(たとえば裁判所での発言にくらべて)自動音声認識システムによる記録に適している理由として、[1]話題が限定的であること(基本的に公開されている内容が多い、原稿がある発言も多い、固有名詞も比較的限定的である)、[2]発言者(議員)の話し言葉は比較的明瞭であることが、あげられるということでした。[2]に関しては、例外的な場合がクローズアップされることが多いので、意外な気がしますが、抑揚がはっきりしており、また、言い淀みなども少ないそうです。

また、フィラーとよばれる言い淀みの語(えー、あー、まあ、あのー)は、記録から自動的に削除するようになっているそうです。「えっと」もそのなかに入りますか、とお尋ねしたところ、議員さんは「えっと」をほとんど使わない、とのこと。長音のみの「えー」「あー」「まあ」にくらべると、促音や他の子音の入る「えっと」は、聞き手に与える不快感が強く、非流暢な印象を強く与えるため、極力用いないようにしているのだろう、ということでした。(この指摘を聞いて、翌日の授業からさっそく「えっと」を減らすべく努力しましたが、効果はあるでしょうか…)

日本語の自動音声認識システムというのは、はじめは、日本語全般についての音声認識システム開発が進んでいたものの、分野や用途、アプリケーションを特定しないと、精度があがらない、性能が伸びないということがわかってきて、議会や裁判所など個別に開発が進んできたということでした。

また、ヨーロッパでは音声認識話し言葉の文字化)技術よりも、異なる言語間での翻訳についての技術開発がより重視される傾向がある、という指摘もとても興味深かったです。