MIME-Version: 1.0 Content-Type: multipart/related; boundary="----=_NextPart_01C644F1.02EC8560" このドキュメントは単一ファイル Web ページ (Web アーカイブ ファイル) です。お使いのブラウザ、またはエディタは Web アーカイブ ファイルをサポートしていません。Microsoft Internet Explorer など、Web アーカイブをサポートするブラウザをダウンロードしてください。 ------=_NextPart_01C644F1.02EC8560 Content-Location: file:///C:/591B31C9/ninsiki.htm Content-Transfer-Encoding: quoted-printable Content-Type: text/html; charset="us-ascii"
音声認識をテー=
12510;にした補聴機器研Ĺ=
50;部・研究会開催から=
約一年半が経過した=
2290;この間私は音声認෯=
2;を利用したパソコン&=
#25945;室を試行錯誤しな=
364;らいろいろなことを=
;考えた。やっと昨秋=
12395;現在のシステムに{=
83;どり着いた。これは=
どうやら使えそうで=
2354;る。そんなこんなӛ=
4;拙文にまとめてみた&=
#12290;
声認識あれこれ=
浜難聴=
65381;会員
吉村徹=
36335;
目次
1.10年後の=
ある風景
2.IT講習会=
で聴覚障害者は
3.情報保障の=
コスト
4.音声認識は=
ソフトウエア
5.音声認識を=
実際に試してみると
6.認識率と誤=
変換、誤認識
7.認識率は激=
変する
8.情報保障と=
笑い
9.パソコン教=
室の開発
1.10年後の=
ある風景
健聴のAさん=
と1年前に病気で聞=
2371;えなくなったBさӛ=
5;が街角で向かい合っ&=
#12390;話している。Aさ=
435;はしきりに口を動か=
;しているところを見=
12427;とBさんに話しか{=
69;ているようだ。Bさ=
んは眼鏡型の文字表=
1034;器を装着しているӍ=
0;Aさんの話した言葉&=
#12399;瞬時に文字になっ=
390;Bさんの文字表示器=
;に映し出される。A=
12373;んの首には咽喉マ|=
52;クが装着してあって=
Aさんの声が街の雑=
8899;に邪魔されずに音ࣤ=
8;信号として、Aさん&=
#12398;胸ポケットに入っ=
390;いる超小型の送信機=
;から電波に乗って基=
22320;局へ送られる。
基地局で送ら=
れてきた音声は超高=
6895;音声認識システムӗ=
1;正確に文字に変換さ&=
#12428;て再び電波に乗りA=
314;さんの胸ポケットに=
;入っている受信機へ=
23626;く。受信機から眼ź=
57;型の文字表示器へ文=
字データが送られ、=
0456;手の鼻のあたりに=
8;い文字が右から左へ&=
#12486;レビのテロップの=
424;うに流れて行く。文=
;字の輪郭の周辺に白=
12356;輪郭がついている{=
98;で文字がはっきりと=
読める。文字の隙間=
2363;ら相手の目の表情Ӛ=
0;口の動きも分かるの&=
#12391;相手の気分もよく=
998;かる。
私の貧弱な想=
像力を駆使して音声=
5469;識について将来をӝ=
2;メージするとこんな&=
#20855;合になる。実際に=
399;もっとずっとすごい=
;ことになっている可=
33021;性もある。先日Nʍ=
20;KTVで立花隆さん=
が「サイボーグが人=
9006;を変える」と題しӗ=
0;サイボーグ技術の最&=
#36817;の進歩についてレ=
509;ートしていた。
脳内に埋め込=
まれた電極に電圧を=
2363;けてパーキンソンெ=
9;の発作を止める装置&=
#12364;すでに実用段階に=
837;っていること、コン=
;ピュータ処理された=
26144;像信号を脳内に届{=
69;て光の点として認識=
させる技術が視覚障=
3475;者に大きな喜びをߎ=
2;えていることや、3&=
#27507;児の内耳に22個=
398;電極をつけた細い装=
;置を入れて訓練した=
32080;果ほぼ普通の発音{=
64;出来るようになった=
例などが紹介されて=
2356;た。
脳と神経を連=
携させる技術のこと=
2434;サイボーグ技術とӓ=
6;うらしい。そのうち&=
#38899;声信号をコンピュ=
540;タ処理して脳内に届=
;け、脳が音声として=
35469;識できる字義通り{=
98;音声認識技術が開発=
されるかも知れない=
2290;
先ほどの想像=
をさらに延長してみ=
2424;う。やがて二人はෘ=
1;し終えて互いに背を&=
#21521;けて歩き出した。A=
314;さんはしばらく歩い=
;てとあるビルの階段=
12434;上り始めた。行きı=
28;いた先はどうやらパ=
ソコン教室のようで=
2354;る。すでに数十人Ӕ=
4;着席していて講師が&=
#12510;イクに話す声を天=
117;のスピーカー音声で=
;聞いている。そう、=
65314;さんは少し遅刻し{=
90;しまったのだ。何人=
かがBさんが先ほど=
5013;着していたような௬=
4;鏡型の文字表示器を&=
#35013;着して話を目で「 =
862;いて」いる。Bさん=
;もすぐに教室に備え=
20184;けられているそのÝ=
20;具を装着して話を「=
見」始めた。Bさん=
2399;机の上に置いてあӖ=
7;たテキストに素早く&=
#30446;を走らせて概要を=
226;握すると講師の話に=
;集中し、目で「聞き=
12301;ながらテキストのË=
13;白にメモを書き込み=
始めた。文字表示器=
2395;は文字が2行表示ӕ=
3;れていて一瞬前の話&=
#12418;表示されているの=
391;考えを纏めやすい。=
;思いついた質問事項=
12418;次々に記入されて{=
56;った。
2.IT講習会=
で聴覚障害者は
横浜市が障害=
者向けに横浜ラポー=
2523;でIT講習会を開ࠑ=
2;している。IT講習&=
#20250;は国民全員がイン=
479;ーネットや電子メー=
;ル技能を身につける=
12424;うにと啓蒙するた|=
17;の講習会である。健=
常者対象のIT講習=
0250;は多数の会場で開ࠑ=
2;され3年間で終了し&=
#12383;が、障害者向けに=
399;教室が確保しにくい=
;横浜市では未だに開=
20652;を続けている。横ė=
96;市では横浜市身体障=
害者団体連合会(浜身連=
span>)が委嘱=
12434;受けて横浜ラポー}=
23;3階のパソコンルー=
ムで開催しているが=
7096;屋の広さや設備の=
6;係で一度に8人しか&=
#21463;け入れられない。=
467;って障害者のニーズ=
;に応じ切れていない=
12424;うである。「広報|=
24;こはま」にほぼ毎号=
受講生募集の記事が=
6617;る。
私は障害者対=
象パソコン指導ボラ=
2531;ティア団体(注1
IT講習会は=
インターネットや電=
3376;メールを活用するӡ=
7;ソコン技能の概要を&=
#35299;説するに過ぎない=
398;であるがそれでも専=
;門用語を伝えなけれ=
12400;ならないことも多{=
56;。専門用語で説明す=
ることが不可欠のい=
2431;ゆるパソコン教室ӛ=
4;聞こえない人が受講&=
#12377;るのには大きな困&=
627;が伴うであろう。ま=
;た、パソコン学に通=
12376;た筆記通訳者を必Š=
01;なだけ確保するのは=
困難であろう。聴覚=
8556;害者はパソコン教प=
0;から阻害されている&=
#12392;言っても過言では=
394;いと強く感じた。=
これが私が聴=
覚障害者向けのパソ=
2467;ン教室開発を思いే=
5;った動機である。
3.情報保障の=
コスト
3時間くらい=
の集会に必要な情報=
0445;障の作業者は、手ੌ=
0;き筆記通訳やPC文&=
#23383;通訳の場合約6人=
434;必要とするようだ。=
;手話通訳者なら2名=
12398;場合をよく見かけ|=
27;。専門性の高い技能=
者であるから時間給3,000円は失=
31036;であろうが仮にそ{=
58;だとして3時間×6&=
#21517;で54,000円、P=
65315;文字通訳の場合は{=
73;らに準備時間が1時=
間必要と言うことで=
5300;時間×6名で72,000円など=
12392;試算できよう。
教室は受講者=
が少なくても実施す=
2427;必要があろうからࡢ=
3;講生より通訳者が多&=
#25968;という一見アンバ=
521;ンスな状況が生まれ=
;ることもある。仮に=
21463;益者負担で受講生{=
92;講師とで負担すると=
なると毎回かなりの=
7329;銭的負担を強いらӚ=
8;ることになる。
また専門用語=
を多く含む口述を筆=
5352;通訳するとなると=
6;当程度専門知識に精&=
#36890;した通訳者が必要=
391;要員確保はさらに困=
;難であろう。さらに=
25945;育の観点から専門ī=
92;語は要約になじまな=
いので文字表示速度=
2398;大きなPC文字通ෑ=
9;方式が望ましいが、&=
#12381;れにしてもパソコ=
531;関連の専門用語は文=
;字数の多いカタカナ=
35486;や英語が多いのでz=
89;講師との事前打ち合=
わせにより単語の辞=
6360;登録をするなどしӗ=
0;文字表示速度を上げ&=
#12427;ための事前の入念=
394;準備が必要になろう=
;。これは目に見えな=
12356;コストである。
また通訳者を=
必要な人数だけ用意=
2377;る準備のためのコӟ=
3;トも必要である。通&=
#35379;者は生身の人間で=
354;るから担当と決まっ=
;た後で不都合が生じ=
12390;辞退するなどすれ|=
00;代替要員の確保が必=
要となり混乱も生じ=
2427;であろう。しかもӕ=
1;れは日常的に起こる&=
#12391;あろうから通訳者=
163;配のための人的コス=
;トもかなりあると考=
12360;なければならないz=
90;
要するに聴覚=
障害者の集会では通=
5379;コストがかなり大Ӕ=
5;いのである。いわゆ&=
#12427;街のパソコン教室=
391;通訳を準備している=
;ところは先ずあるま=
12356;。もし通訳付ならÖ=
63;講料は跳ね上がるだ=
ろう。
音声認識を用=
いての文字表示シス=
2486;ムの実際は講師のࡣ=
5;述を聞き取った復唱&=
#32773;がマイクに向かっ=
390;しゃべり、その発声=
;を音声認識した文字=
21015;中の誤変換、誤認Ť=
72;を別の作業者がキー=
ボード入力により修=
7491;すると言うのが一ഄ=
4;的と言う。これは講&=
#24107;の他に少なくともA=
298;名の作業者を要し交=
;代要員を考慮すれば=
12381;の数倍の人員を必Š=
01;としよう。
最も通訳コス=
トの低い教室の形態=
2399;、講師の口述を音ࣤ=
8;認識で文字表示する&=
#12371;とであろう。この=
580;合は講師が通訳を兼=
;ねているので通訳者=
12399;ゼロである。つま|=
26;最も低コストの教室=
は音声認識に依れば=
3455;現し得ると言うこӗ=
2;である。ただし音声&=
#35469;識の精度つまり認#=
672;率が高くなくては実=
;際的に成り立たない=
12391;あろう。この観点{=
63;ら認識率の高い音声=
認識ソフトが待望さ=
2428;るのである。
4.音声認識は=
ソフトウエア
20年以上前=
には音声認識とは言=
2431;ず音声文字変換シӟ=
3;テムと呼ばれていた&=
#12392;記憶する。これは=
991;字通り音声信号を文=
;字データに変換する=
12471;ステムと言う意味{=
91;あろう。いつの頃か=
らかこれを簡単に音=
2768;認識と呼ぶようにӗ=
4;った。
音声認識はコ=
ンピュータが音声信=
1495;を解析して文字にࣧ=
3;換するコンピュータ&=
#20966;理プログラム、つ=
414;りソフトウエアであ=
;る。
日本で最も知=
名度の高いのは日本=
5321;BM社のビアボイӟ=
3;(ViaVoice)であろ=
12358;。ビアボイスのガ|=
52;ドブックによれば3=
0年以上の歳月をか=
2369;て開発したとあるӍ=
0;
私が晴海など=
で開催されたパソコ=
2531;関連の展示会に通ӓ=
6;出した20年ほど前&=
#12395;はNECと日本IA=
314;Mが競って音声認識=
;技術を開発研究して=
12356;たと記憶する。そ{=
98;ころは音声でコマン=
ド(コンピ=
12517;ータに指示する命É=
96;)を30=
65296;個認識できるよう{=
95;なったとか言うレベ=
ルの話であった。
現在、パソコ=
ンショップの店頭に=
2354;るパッケージソフӠ=
8;(箱入り=
12477;フト)は日本=
65321;BM社のビアボイ|=
73;とアスキーソリュー=
ションズ社のドラゴ=
2531;スピーチ(Dragon Speech)=
398;二つくらいである。=
;
これらの音声=
認識ソフトは大語彙=
8899;声認識と言う分野ӗ=
8;音声認識技術と言わ&=
#12428;内蔵辞書が数10=
975;語の単語を収録して=
;いて高い認識率を示=
12377;という。特許の関Ì=
18;でこの2社以外は真=
似が出来ないのだと=
2356;う話もある。ビアӢ=
8;イスはIBM社(IBM Corp.(米))の、ド=
12521;ゴンスピーチはス|=
61;ャンソフト社(ScanSoft Inc.(=
859;))の特許=
25216;術に依っているよ{=
58;だ。
しばらく前に=
はNECのスマート=
2508;イス(Smart Voice)も店頭=
12395;並んでいたがこれ{=
99;大語彙ではなく、今=
は姿を見かけなくな=
2387;た。また東芝のパӟ=
7;コンにはララボイス<=
/span>(Lala Voice)と言う=
38899;声認識ソフトが組|=
15;込まれている。これ=
らは電子メールソフ=
2488;を声で操作し簡単ӗ=
4;文章を入力して送信&=
#12377;ることが出来ると#=
328;われる。
これらのパソ=
コン用音声認識ソフ=
2488;は2万円以下で購ࠣ=
7;できる。またパソコ&=
#12531;用の基本ソフトの=
368;新版のWindows XPには音=
22768;認識ソフトが付属{=
75;ている。これは実質=
無料であるが「使え=
2427;」との報に接したӕ=
1;とがない。
音声認識専業=
で黒字化したと2005年に話=
38988;になったのがアド|=
96;ンストメディア社で=
ある。同社はアミボ=
2452;ス(AmiVoice)と言う=
21830;品名の例えば病院z=
89;診療所などで電子カ=
ルテに医学専門用語=
2434;音声で極めて精度Ӛ=
4;く記入することが出&=
#26469;ると言う医療事業=
554;用のシステムなどを=
;販売している。それ=
12425;のシステムの開発{=
95;は実際の音声サンプ=
ルを多数集めて分析=
2377;るなど開発に多大ӗ=
8;費用がかかるようで&=
#36009;売価格が極めて高=
356;ようだ。しかし同社=
;は大語彙音声認識シ=
12473;テムをリリースし{=
90;いない。
そのほかNT=
Tや日立製作所など=
2364;電話応答を自動化ӕ=
7;るための音声認識を&=
#38283;発するなど国内で=
418;多数の企業が音声認=
;識システムの開発を=
25163;がけていて特許がä=
10;数出願されている。=
最近は音声認識を組=
2415;込んだ携帯電話も=
0;売されているようだ&=
#12290;
我々がパソコ=
ンで文章を作るのに=
8899;声認識を利用するӗ=
2;すればせいぜい数万&=
#20870;のものしか手が届=
363;ない。大語彙タイプ=
;のものでは現実的に=
12399;ビアボイスとドラ|=
68;ンスピーチしかパソ=
コンショップの店頭=
2395;はない。ビアボイӟ=
3;を約30年間開発・&=
#36009;売してきた日本IA=
314;Mは昨年ついに販売=
;をスキャンソフト社=
span>(日本法=
20154;)に移管=
12375;てしまった。スキ}=
15;ンソフト社のドラゴ=
ンスピーチはアスキ=
2540;ソリューションズట=
8;が販売している。I&=
#65314;M社のビアボイス=
399;スキャンソフト社が=
;販売している。スキ=
12515;ンソフト社のあるĶ=
38;員は「自分はドラゴ=
ンスピーチの方が使=
2356;いいと思う」とコӣ=
3;ントしてくれた。
ドラゴンスピ=
ーチはわずか数年前=
2395;国内で販売開始さӚ=
8;た音声認識ソフトで<=
/span>2003年に新=
32862;、パソコン誌で紹É=
71;されて一挙に知名度=
が上がったようであ=
2427;。どうもビアボイӟ=
3;よりも性能が良さそ&=
#12358;に感じたので私は=
414;っ先にこれを購入し=
;た。
コトバ表現研=
究所を主催する渡辺=
0693;明さん(注2
5.音声認識を=
実際に試してみると
次ページ左側=
列の原文を読み上げ=
8899;声認識させた結果ӛ=
4;右側列に示したもの&=
#12391;ある。途中修正を=
840;く行わずそのまま普=
;通の速さで読み上げ=
12383;。文中の句読点やý=
24;弧などは発音してい=
ない。右列の反転部=
0998;は誤変換又は誤認෯=
2;となったところであ&=
#12427;。
結果は見ての通=
12426;である。認識率はʍ=
04;0%以上はありそう=
である。一文を読み=
2066;わってから文字表ట=
4;が完了するまでのタ&=
#12452;ムラグは約1秒、&=
263;くても3秒以内と思=
;われる。
6.認識率と誤=
変換、誤認識
前述のビアボ=
イスやドラゴンスピ=
2540;チは話者特定方式ӗ=
1;ある。話す人一人一&=
#20154;の音声パターンを=
331;録する。そのために=
;用意してある文章を=
35501;ませて音声の癖をŠ=
26;えさせるのである。=
この操作をエンロー=
2523;とかトレーニングӗ=
2;言う。要するに音声&=
#35469;識ソフトのチュー=
491;ングである。
音声を文字に=
変換する仕組みは私=
2398;理解力の外であるӍ=
0;「隠れマルコフモデ&=
#12523;」と言うのが現在=
398;主流と言う。
音声を文字に=
正しく変換する割合=
2434;認識率と言う。認෯=
2;率は高い方がいいに&=
#27770;まっている。認識=
575;を出来るだけ高める=
;ために、静かな部屋=
12391;話す、明瞭に話すz=
89;抑揚のないいわゆる=
棒読みのような話し=
6041;をするなどの努力ӛ=
4;要する。また辞書に&=
#12394;い単語は変換し得=
394;いので辞書を整備す=
;る必要があるという=
12290;
認識率をどの=
ように測定するのか=
2399;不勉強で知らないӔ=
4;、日本語なら話した&=
#38899;声をかな表記した=
392;きのかなの文字数に=
;対して正確に変換し=
12383;部分のかな表記文é=
83;数の割合で表す方法=
が採れるだろう。私=
2399;文字表記した文章ӛ=
4;目で見て大体何パー&=
#12475;ントと言っている=
364;きわめていい加減な=
;感覚的な評価である=
12290;尺度が同じかどう{=
63;は分からないが、聴=
覚障害学生に対する=
5611;義保障では最低約ᦂ=
3;0%以上の認識率が&=
#12394;いと講義内容の理#=
299;が得られないとの研=
;究結果(注3
専門用語の誤変=
換は極力排除しなけ=
2428;ばならないと議論ӕ=
3;れているが同感であ&=
#12427;。
認識率はいか=
なる場合も高い方が=
2424;い。パソコン教室ӗ=
1;は専門用語を多用す&=
#12427;必要がありこれに=
550;して誤認識・誤変換=
;の割合が大きくては=
20462;正作業が増え講義|=
34;円滑に進めるのに困=
難が生じる。
正しく認識さ=
れなかったところは=
5492;変換と誤認識であӚ=
7;。誤変換は発音は正&=
#30906;に捉えているが別=
398;文字列に変換された=
;ものである。これは=
21516;音異字がある日本Ţ=
86;では止むを得ないこ=
とのようで、パソコ=
2531;用日本語入力ソフӠ=
8;と同じように辞書学&=
#32722;の結果使用頻度の'=
640;いつまり使う確率の=
;大きい単語に変換さ=
12428;るので、使い込め|=
00;認識率の向上につな=
がるのでこれは許さ=
2428;ていいだろう。修ઽ=
1;も比較的容易である&=
#12290;しかし誤認識は発&=
899;すら正確に捕捉され=
;ていないのだから誤=
22793;換以前の問題であ|=
27;。これを減らすため=
には雑音の少ない環=
2659;、明瞭な発音が要=
4;される。また単語登&=
#37682;や単語の発音練習=
418;有効のようである。=
;
7.認識率は激=
変する
前述の渡辺知=
明さんは音声認識が=
2354;まり普及しないのӗ=
9;認識率がいまいちだ&=
#12363;らと言う。発声に=
424;って文字入力する方=
;が速いのと疲れない=
12398;とで実用的な認識ħ=
75;が得られれば必ずや=
普及するだろうと。
静かな部屋で=
チューニングした音=
2768;認識を別の環境のਢ=
5;室などへ運んで使お&=
#12358;とすると、チュー=
491;ングしていた時には=
;高い認識率を示して=
12356;たのにさっぱり働{=
63;ない。意味不明の文=
字列が羅列されたり=
6178;には変換結果が出Ӛ=
7;までにとてつもなく&=
#26178;間がかかる。場合=
395;よってはそのまま黙=
;り込んでしまう。
最初の頃家で=
チューニングして教=
3460;へ持ち込みそのまә=
4;使おうとして最初の&=
#25968;分で使うのを諦め=
374;るを得なかったこと=
;が数回あった。家で=
12481;ューニングしたと{=
65;は簡単な挨拶文が1=
00%完璧に認識さ=
2428;るていたのにであӚ=
7;。
認識率が得ら=
れなかった原因とし=
2390;有力なのは環境雑༱=
9;である。私の仕事部&=
#23627;と教室とでは環境&=
609;音が大いに違うだろ=
;う。道路からの交通=
38609;音、エアコンなど{=
98;機器の音、天候由来=
の雨、風の音などが=
2354;る。ある日は教室ࠦ=
9;で短時間のチューニ&=
#12531;グを行って使おう=
392;したが家でのように=
;は認識率が得られず=
12371;の時も開始数分でË=
51;用を断念した。
それまでマイ=
クはドラゴンスピー=
2481;に付属していたヘӠ=
3;ドセットマイクを使&=
#12387;ていたがある時ア=
473;キーソリューション=
;ズ社から販売された=
25351;向性マイクを使っ{=
90;みた。3時間の間ほ=
ぼ安定に約70%の=
5469;識率が得られた。ෝ=
2;変換、誤認識は音声&=
#12467;マンドによる修正=
392;キーボード入力でカ=
;バーした。私はタッ=
12481;タイピングが出来{=
94;いのでキーボードで=
の修正には時間がか=
2363;る。しかしこの時ࣺ=
7;めて音声認識の可能&=
#24615;を実感して胸が躍=
387;た(2005年2月)。
何回か教室で=
その指向性マイクを=
0351;ったが必ずしもいӖ=
8;も同じ状況ではなか&=
#12387;た。ある時は途中=
391;断念せざるを得ない=
;こともあった。教室=
12395;よっても違う。つ|=
14;り環境雑音のレベル=
が違うのである。時=
8291;をかけてトレーニӥ=
1;グ(チュー=
12491;ング)すると=
35469;識率が向上する傾×=
21;を承知していたが現=
地で30分もかかる=
2481;ューニングを実施ӕ=
7;る余裕もない。また&=
#25240;角チューニングし=
390;もその雑音環境が常=
;に一定という訳でも=
12394;さそうである。
そんなある日=
に重大な発見をした=
2290;その日は認識率がӖ=
1;こそこあって使えて&=
#12356;たが5、6m先か=
425;質問が飛んだ。大き=
;な声であった。しば=
12425;く音声認識が完全{=
95;死んだ。マイクに繰=
り返し話しかけても=
5991;字列が表示されなӓ=
6;。話すのを止めて1&=
#65296;秒待っても文字が=
694;れない。その瞬間は=
;故障したのかと思っ=
12383;。しかし音声入力}=
24;ベル計は緑色に振れ=
ていたのだ。音声と=
2375;て捕捉しながらもਧ=
1;字変換できないでい&=
#12427;ように感じた。入=
147;レベルに達していな=
;がら音声パターンを=
20998;析できないでいる|=
24;うに思えた。
現場でチュー=
ニングしても環境雑=
8899;は時々刻々変化すӚ=
7;ので時には入力レベ&=
#12523;に達することがあ=
427;のではないか。そん=
;な時は文字変換しよ=
12358;と入力音を解析す|=
27;のだが変換不能であ=
ったり、解析に時間=
2364;かかるのではないӔ=
3;と推測した。
現場の音声を=
別の場所へ通信で送=
2426;、一人がそれを聞ӓ=
6;て復唱して音声認識&=
#12373;せ、もう一人がキ=
540;ボード入力によって=
;誤変換、誤認識を修=
27491;して再び通信で現á=
80;に返して文字表示す=
るシステムが実用化=
2373;れている。これなӚ=
5;ば雑音レベルを一定&=
#12395;抑制できるので音=
768;認識にとって理想的=
;な条件が整えられる=
12384;ろう。
これを低コス=
トで実現する方法は=
2394;いだろうか。遮音ঝ=
5;材料で被覆して雑音&=
#20405;入を防いだ電話ボ=
483;クスのような箱を教=
;室内に設置し話者が=
12381;の中で発声し誤変ÿ=
63;、誤認識を修正する=
のはどうであろうか=
2290;
とにかく雑音=
が大敵なのである。
8.情報保障と=
笑い
講師が冗談を=
言う。聞こえていた=
0154;はすぐに反応するӌ=
9;つまり笑い声を上げ&=
#12427;。筆記通訳者によ=
427;文字表示が完了して=
;から失聴者、難聴者=
12399;講師が面白い話をü=
59;露したのだと知る。=
しかし笑い声を立て=
2394;い。いや立てられӗ=
4;いのだ。彼らはその&=
#22580;の雰囲気で聞こえ=
390;いた人たちが笑った=
;ことに気がついてい=
12427;。文字表示を読ん{=
91;面白い話だと分かっ=
た時には先に笑い声=
2364;上がってから少しਹ=
8;間が経過しているの&=
#12391;そこで笑い声を立=
390;ると間が抜けて見え=
;るから笑いをこらえ=
12427;のである。
幼児の頃から=
難聴を抱えて育った=
1169;は、健聴者が人のࠨ=
7;談にほぼ瞬間的に反&=
#24540;して冗談で応酬す=
427;のを見るたびに不思=
;議に感じていた。自=
20998;は冗談を言われて|=
18;すぐに反応出来ない=
のである。何故なの=
2363;と長年考えて分かӖ=
7;たことは難聴者は聞&=
#12371;えた音声がそう言=
358;言葉であると確信す=
;るのに少し時間がか=
12363;るのである。頭のÈ=
13;で脳が聞こえた音声=
を解釈して何と言っ=
2383;のか理解して確信Ӕ=
4;持てるまでに0.1秒か=
65296;.2秒、=
12354;るいはもっと時間{=
64;かかるのである。<=
span
lang=3DEN-US style=3D'mso-hansi-font-family:"Times New Roman";letter-spacin=
g:.1pt'>
理解とは聞こ=
えたのではなくて考=
2360;たことである。そӗ=
8;作業のために脳は疲&=
#12428;てしまい、その冗#=
527;に素早く対応する余=
;裕を失ってしまうの=
12391;ある。人にからか|=
31;れても健聴者は直ち=
に反撃出来るが難聴=
2773;はこのタイムラグӗ=
8;せいでスピーディに&=
#23550;応できないのであ=
427;。気の利いたせりふ=
;が口をついて飛び出=
12375;てこないのであるz=
89;とこんな具合に考え=
るに至った。あなが=
2385;間違いでもなさそӓ=
8;である。
手話は比較的=
にリアルタイムの通=
5379;であるので手話が࠳=
8;かる人は殆ど遅延な&=
#12375;に面白い話を理解=
377;るのではないかと思=
;う。しかし文字によ=
12427;情報保障に頼る人{=
99;文字表示に遅れが生=
じるために聞こえる=
0154;と一緒にいる場でӗ=
9;面白い話と分かった&=
#26178;に笑い声を立てる=
398;にためらいがあるの=
;である。このことを=
33256;場感の欠如と表現{=
77;る人もいる。
この話が音声=
認識とどんな関係が=
2354;るのかいぶかる向Ӕ=
5;も多いと思う。話す&=
#36895;度は1分間に30A=
296;から400文字と言=
;う。それに対して筆=
35352;通訳は40~50ă=
91;字と言われる。情報=
量が少ない分、要約=
2375;て文字表示されるӍ=
0;しかも話し終わって&=
#12363;ら文字表示が完了=
377;るまでに時間がかか=
;る。要約では冗談の=
38754;白みは殆どそぎ落{=
92;されてしまい、どこ=
が面白いのか分から=
2394;くなっているだろӓ=
8;。特に言い回しが面&=
#30333;いような場合、要 =
004;してそれを再現する=
;のは困難に違いない=
12290;しかもかなりの時ž=
91;経過後に文字表示が=
完了するのである。=
2497;ソコンのキーボーӠ=
9;で文字入力を行い文&=
#23383;表示する通訳シス=
486;ムでは手書きの筆記=
;通訳に比べて1分間=
12395;表示できる文字数{=
99;数倍多いと思われ、=
キーボード入力の巧=
2415;な操作者であればෘ=
1;す速度に追随して文&=
#23383;表示できるようで=
354;る。こちらは比較的=
;に要約度合いが少な=
12367;原話の面白みがあ|=
14;り脱落せずに文字に=
表現されるであろう=
2363;ら面白さは十分にߩ=
3;わるであろう。しか&=
#12375;聞こえない人は笑=
360;ないのである。何故=
;なら文字表示が完了=
12377;るまでに長い時間{=
64;かかるからである。=
ある調査では平均1=
5297;秒であったというӍ=
0;
聞こえない人=
は、冗談にすぐに反=
4540;して笑うことを諦ә=
7;なければならないの&=
#12384;ろうか。どのくら=
356;の遅れなら許される=
;のだろうか。このよ=
12358;な問題を取り扱っ{=
90;いる研究者はいるの=
だろうか。
音声認識はコ=
ンピュータ用のソフ=
2488;ウエアである。コӥ=
1;ピュータの処理能力&=
#12364;きわめて大きいか=
354;るいはソフトウエア=
;の変換速度が大きけ=
12428;ば話し言葉を高速{=
91;変換して文字表示出=
来るのではないかと=
4605;うのは間違いだろӓ=
8;か。
早稲田大学の=
白井克彦総長は「N=
5320;Kのリアルタイムढ=
3;幕製作システムを実&=
#29992;化の域へ導いた話$=
895;変換技術の研究指導=
;など」の業績に対し=
12390;放送文化賞を受け{=
83;(注4
リアルタイム=
の音声認識であれば=
4605;考が妨げられずにૈ=
4;較的スムーズに話の&=
#20869;容を理解すること=
364;出来るのではないだ=
;ろうか。話者の顔が=
35211;えている現場ではă=
91;字表示の遅れは臨場=
感の欠如、ひいては=
9702;解力の低下に繋がӚ=
7;のではないだろうか&=
#12290;私が言いたいのは=
522;アルタイム性(即時性=
span>)も情報=
20445;障の重要な要素で{=
99;ないかということで=
ある。
ちなみにドラ=
ゴンスピーチで話し=
2066;わってから文字表ట=
4;されるまでの時間は&=
#21069;述のように1、2=
186;と筆記通訳システム=
;などより格段に速い=
12290;認識率が100%{=
91;あれば修正に要する=
時間がゼロとなるの=
2391;ほぼ理想的なシスӠ=
6;ムとなるであろう。<=
/span>
9.聴覚=
8556;害者向けパソコンਢ=
5;室の開発
パソコン教室=
で講師が一人で情報=
0445;障するためには、=
0;労の最も少ない音声&=
#35469;識が最適と思われ=
427;。これまでに数10=
;回の教室開催をこな=
12375;てきたが音声認識{=
64;うまく動作したケー=
スは少なく、キーボ=
2540;ド入力やマーカーӢ=
6;ンで板書する方法を&=
#20341;用せざるを得なか=
387;た。認識率が期待す=
;るほど高くないのと=
22793;動それも激変する{=
83;め使用不能に陥るか=
らである。その原因=
2398;大部分はS/N比ӗ=
8;変動にあるらしいと&=
#27671;がつくに至った。=
288;S/N比とは信号/=
;雑音の比率のことで=
12354;る。大きい方が好|=
14;しい。「静かな部屋=
」はS/N比が大き=
2356;のだがこの状態を=
3;時間にわたって確保&=
#12377;ることは不可能に$=
817;い。S/N比を高く=
;維持するにはどうし=
12383;らよいか。マイク{=
98;選定では指向性マイ=
クの他ノイズキャン=
2475;リング型のマイクә=
8;試してみたが思わし&=
#12367;なかった。
前述の渡辺知=
明氏さんがブログで=
2057;介していたカラオӞ=
5;練習用のマイクが比&=
#36611;的よい結果を示し=
383;。これは半円状のプ=
;ラスチック製のカバ=
12540;で口の周りを覆いz=
89;その中に装着されて=
いるダイナミックマ=
2452;クが音声を受けるઔ=
3;造になっているもの&=
#12391;ある。このカバー=
364;話者の発声以外のす=
;べての音を遮断する=
12371;とにより擬似的に{=
00;静かな部屋」を作り=
出すのである。2005年10月24日に初=
12417;て使用して以来10回以上=
12398;教室で常に80%Š=
11;当の認識率が得られ=
た。使い込むことと=
6766;書の整備などで今=
0;さらにいくらか認識&=
#29575;を上げられるので=
399;ないかと期待してい=
;る。
このほかにも=
検討したいマイクが=
2354;るので逐次試してශ=
1;る予定でいる。結果&=
#12434;別の機会に報告し=
383;いと思う。
(注1)Dream Navigator Yokohama(