2021年10月19日

ろう者と ”表情の見える” 会話を。「See-Through Captions」が社会実験するコミュニケーションの可能性

ろう者や難聴者の方との隔たりのないコミュニケーションを、リアルタイムで字幕を表示する透明ディスプレイによって実現する「See-Through Captions」のプロジェクトメンバーの皆さんに、製品開発の裏側とさまざまな現場での活用について伺いました。


世界中の企業が研究開発するさまざまな技術をうまく組み合わせることで、身近な人との日常に潜む課題を解決できたら素晴らしいですよね。

今回は、ろう者や難聴者の方との隔たりのないコミュニケーションを、リアルタイムで字幕を表示する透明ディスプレイによって実現する「See-Through Captions」のプロジェクトメンバーの皆さんに、製品開発の裏側とさまざまな現場での活用について伺いました。

筑波大学の落合准教授が主宰するデジタルネイチャー研究室の研究プロジェクトとして誕生したことでも知られる「See-Through Captions」。ろう者や難聴者の方とのリアル対話だけではなく、外国の方との会話やオンラインでの会話やイベントなど、幅広い場面で活用の可能性を拡げています。

鈴木一平さん(写真左から2番目)

筑波大学大学院 人間総合科学学術院 情報学学位プログラム 博士後期課程在学。
日本学術振興会 特別研究員 DC1。デジタルネイチャー研究室にて,映像撮影のサポートシステムとインターフェイスの研究を行う。新しい映像装置や新しい映像の使い方を通じて人間の世界の見方や体験がどのように変わるのかに興味を持つ。イベントでのビデオグラファー,エンジニアを経て,ビデオグラファーとして技術紹介映像・イベント記録映像・イベント配信などの業務にも携わる。受賞歴に国際会議 Augmented Human 2017 / 2019 にて Best Paper,James Dyson Award 2021 国内最優秀賞,2017 JASSO 優秀学生顕彰大賞(学術分野) など。

設楽 明寿さん(写真左から4番目)

1994年7月に群馬県で生まれ,ろう者(聴覚障害)と診断された.
筑波技術大学の白石優旗准教授の下で,デフスプリンター(聴覚障害のある短距離走選手)を対象とした,触覚刺激を用いたスタートシステムについての研究を行なっていた.現在,筑波大学図書館情報メディア研究科に所属し,落合陽一准教授の指導の下,研究を継続している.また,聴・視・触覚のパラダイムシフト,ユニバーサルデザイン,アクセシビリティ,ダイバーシティ,HCIについて興味を持つ.2017年にトルコのサムスンで開催された,第23回夏季デフリンピック競技大会の陸上競技男子4×100mリレー 日本代表メンバー(第3走者)を務め,金メダルを獲得した.現在では,研究に集中するために引退している.

百田 涼佑さん(写真中央)

筑波大学 情報学群 情報メディア創成学類在学.
高専で機械工学を専攻し技能者の視線および動作解析による技能移転に関する研究を行ったのち2020年より筑波大学に入学.同年よりデジタルネイチャー研究室に参画し,HCI分野におけるヒューマンハックに興味を持ち,触覚フィードバックによる感情制御や,視覚フィードバックによる重さ知覚制御の研究を行う.See-Through Captionsではソフトウェア開発を担当し,ろう・難聴者との対話を通じて必要な機能追加やレイアウト調整するなどのインタラクティブな開発を行っている.

ろう者であるチームメンバーの存在がプロジェクトのきっかけに

本日はよろしくお願いします。
早速ですが、皆さんの画面下に私が話した内容が字幕で表示されていますね! 今日はオンラインでの取材でデモは体験できないと思っていたので、こういうかたちで体験ができて嬉しいです。

<実際のオンライン取材の様子>

よろしくお願いします。今出ているこの字幕と「See-Through Captions」で透明ディスプレイに表示してるものは中身は同じものなので、実際でもこういう速度感、雰囲気で表示されているんですよ。
かなり早いですね。会話スピードと字幕のタイムラグも気にならないぐらい。改めて、この「See-Through Captions」がどのような経緯で誕生したのか教えていただけますか?
はい。もともと、同じ研究室のメンバーである設楽が耳が聞こえない中で、どうやったら聞こえる人と聞こえない人とで上手く日常のコミュニケーションが取れるのか? というのは常に考えていまして。

僕らは同じ研究室になってからもう3年目になるんですけど、当初はオーソドックスな筆談やSlackなどのチャットツールを使っていました。一番多く使っていたのはGoogleの音声認識のアプリで、手元のスマホの画面上でリアルタイムに文字を起こしてくれるので、それを見ながら会話するイメージです。

ただ、このアプリを使っている時って、話している人も聞いている人もお互いの顔ではなく、ずっと手元のスマホを見ちゃうんですよね。なので相手の表情とか、ジェスチャーとかそういったものを見るのが難しいという課題がありました。

確かに、相手ではなくスマホに語りかけている感じになりそうですね。相手のボディーランゲージや表情まで見る余裕はなさそう…。
ろう者であるメンバーとコミュニケーションする中で、”相手の表情と文字を一緒に見る” というのが、実は文字だけから発言内容を理解する上で結構重要なのでは? という気付きがありました。そんなことを考えていた矢先、透明ディスプレイを展開されているジャパンディスプレイ株式会社というメーカーさんを紹介していただき、これはろう者とのコミュニケーションにも使えると。

そこで、Googleが先ほどのアプリとは別で公開している音声認識のシステムをこちらの透明ディスプレイに繋ぎ込み、完成したのがこの「See-Through Captions」なんです。


<イメージムービー>https://www.youtube.com/watch?v=Hy5S_IO7KQg

見た目がスタイリッシュで素敵! それに、これだと相手の顔やジェスチャーを見ながら自然に字幕も目に入りそうです。ディスプレイが両面表示になっていて、発言内容が相手側に書き起こされるだけではなく、自分が発言した内容は自分側に小さく表示されるんですよね

そうですね。音声認識の精度ってすごく上がっていて、今もほとんど誤字がないように文字起こしされてますけど、やっぱり同音異義語とか特に難しかったり、専門用語や言い回しによっては、文字を読んだだけでは意味が分からないような文字起こし結果になったりすることもあって。

文字起こしを使ったろう者の方とのコミュニケーションにおいては、相手に届いている音声からのは文字の情報だけ。だからこそ、聞こえている方も音声認識の結果が間違えていないか?ちゃんと伝わっているか?を意識しながら話すのは重要です。もし間違っていたら、表現を変えて言い直したり、認識されやすい話し方をしたりと、聞こえていない相手が混乱しないようなコミュニケーションができますから。
「あ、間違えてる」と気がつけば、もう一度ゆっくり言い直したりすればいいんですもんね。あまり意識はしたことはなかったのですが、「自分が話している言葉が見える」というのは話し手にとっても重要なんですね…。

「See-Through Captions」現場で使った反響と課題は?


2021年2月に製品を発表してから、今年6月にはお台場の日本科学未来館での実証実験が行われ、8月からはつくば市役所総合案内での試験導入(※)がされていますよね。実際に利用された現場の皆さんの反響はいかがでしたか?

※つくば市役所総合案内での試験導入に関するプレスリリース
https://www.city.tsukuba.lg.jp/_res/projects/default_project/_page_/001/015/697/2021NO71.pdf

※日本科学未来館での実証実験について
https://www.miraikan.jst.go.jp/events/202106051969.html

つくば市では10月末まで窓口で試験導入されているのですが、ありがたいことにお問い合わせを沢山いただいています。

ろう者や難聴者ではなくても、マスクやパーテーション越しの会話は聞き取りづらいものですし、年配の方からは「耳で聞くよりも字幕を見た方が早いのでありがたい」という声もありました。あとこれはろう者に限らずなんですが、そもそも「See-Through Captions」で使っている自動音声認識の精度の高さに驚かれる方も多かったですね。
確かに! 私も普段はこの機能を使うことがないので、最初はとても驚きました。
あとは、もちろんネガティブな意見もあります。「誤認識があると何のことか分からない」とか「話すスピードが速いと文字の速さに追いつけない」とか。

このあたりはまだまだ改善の余地があります。今は字幕の表示が下揃えで、文字の位置がどんどん上に移動していってしまうのですが、例えばそれを上から表示するようにすれば、これまで出た文章が残るので読みやすくなったり。

そもそもこのプロジェクト自体、全く新しいものを完璧な製品として完成させるよりも、もともとある透明ディスプレイと音声認識という技術を組み合わせたものをまずは作ってみて、現場に持っていくとどういう使い方が出来るか? というのを検証することが重要だと思っていて。

実際に現場で使ってみると、利用者の運用でカバーしたり、工夫できることが沢山あったというのは大きな発見です。例えば文字スピードも、まずは話す人がゆっくり話すように意識するとか、ディスプレイ上の白い文字を見えやすくするために黒い服を着るとか。
なるほど、今さら気が付きましたが、皆さんも今日は全員黒い服を着てらっしゃる! 運用でカバーできることは多そうですね。
実際、お台場の日本科学未来館で試験運用した際には、既にあったツアーをそのまま字幕付きで開催するのではなく、科学コミュニケーターの皆さんと、ろうの方・難聴の方が一緒に楽しめるツアーを企画、設計するところから始めました。

未来館では、手持ち型のディスプレイを活用して歩きながら使えるものにしています。透明ディスプレイなので、こういうスタイルであれば展示の前にかざしても邪魔になりづらいんです。

翻訳機能で外国の方とのコミュニケーションにも。広がる可能性

ろう者の方とのコミュニケーションを目的としたことはありますが、コロナ禍にある今、マスクやアクリル板越しの会話でも聞き取りにくいことは多いですし、需要は広がりそうですよね。
そうですね。マスクやアクリル板越しの会話で、多くの人たちが ”日常で聞き取りにくいことがあって困る” ということを実感できたのは重要だと思っています。友達とのコミュニケーションが聞こえなかったら困る、突然聞こえなくなったら大変、というのはなんとなく想像つくと思うんですけど、例えばコンビニや役所で初対面の人との会話…。そういった日常レベルの会話でも聞こえにくいと辛いということに、コロナ禍において多くの人たちが気が付きました。

リアルだけではなくZOOMなどのオンライン会議や、オンラインイベントにおいても、こうして字幕を表示させることで、さらに幅広い方との円滑なコミュニケーションにつながると思っています。
幅広い方とのコミュニケーションといえば、「See-Through Captions」には同時翻訳の機能もあるんですよね。
はい。例えばこれで、僕が英語で話すと、話した内容を日本語に翻訳して表示させることもできますし、中国語で音声認識をして中国語で表示させることも、中国語で認識して英語で表示させることも、その逆も… 色々な組み合わせでできるようになっています。
ろう者・難聴者の方に限らず、世界中の色々な方とコミュニケーションが楽しめるようになりますね。ちなみに本プロジェクトは、メディアアーティストとしても知られる落合陽一さんが主宰される「デジタルネイチャー研究室」のプロジェクトとのことですが、落合さんは実際どのようにこのプロジェクトに関わっていらっしゃるのでしょうか?
最初のアイデアは落合先生と色々話している中で出てきたものですが、実証実験の話を持ちこんだり、実践したりというのは主に研究室のメンバー、学生メンバーが自分たちでやっています。落合先生は、なにかあればサポートやアドバイスしてもらうという感じですね。

世界からも注目される「See-Through Captions」の今後

研究室でのプロジェクトの一環としてスタートした「See-Through Captions」ですが、海外からの反響も大きそうですね。
はい。少し前に「James Dyson Award」と呼ばれる世界規模のデザインエンジニアリングのアワードの国内審査で、最優秀賞をいただきました。それをきっかけに海外のメディアに取り上げていただいたり、NHKでの取材映像が、国際放送の NHK World の方でも取り上げられたりしましたね。

ただ現在はコロナ禍で現物を持っていくのが難しいので… どちらかというと日本国内での引き合いの方が大きいです。
プロジェクトとして、今後挑戦してみたいことはありますか? 以前、テレビで取り上げられたときに「コメントに対して絵文字が表示される」というアイデアを落合教授が話しているのを見かけたのですが…。
そうですね。僕らと同じ研究室の別のチームが、音声から感情を推定して絵文字を付けるという研究をやっていて、例えばそういうものと組み合わせたら新たな可能性があるかもしれません。

僕たちがいまこのようなプロジェクトで取り組んでいるのは、透明ディスプレイという光学的なものに、音声認識というアクセシビリティを強化する技術を組み合わせ、さらにそこに実際のユーザースタディを通じて意味のあるものを実現する、ということなんです。

だからこそ、さまざまな現場での実験で得られる発見や学びを大切に、優先度の高い改善点から順に着手していきたいですね。
なるほど、そういった主旨が背景にあるのですね。 このプロジェクトのきっかけとなった設楽さんとしても、「See-Through Captions」ができてから、周りの人とのコミュニケーションの仕方に変化はありましたか?
はい。筑波技術大学にいたときは手話がメインだったのですが、こっちの研究室に入った時は誰でも手話ができるとは限らなくて。最初はチャットや筆談がメインだったのですが、少しずつ音声認識のソフトフェアを活用するようになってきたのに合わせて研究室の皆さんも話し方など工夫してくれるようになってきました。

「See-Through Captions」ができてから変わったというよりも、音声認識を活用していくことでコミュニケーションをもっと豊かにできないかと模索してきた過程があったからこそ、この「See-Through Captions」ができたと思っています。

ちなみに、私の友人や知人にも、主にろう者や難聴者とのコミュニケーションに活用している人が多かったのですが、これまでは認識速度はそれほど速くなかったんです。 2019年から2020年にかけて、Googleが音声認識の技術向上にかなり力を入れ、外部のサービスを含む誰もが使えるように、スマホやPCなどの汎用性のあるデバイスまでに落とし込んだのですが、それがとても大きかったです。もちろんGoogleだけではなく、MicrosoftやAppleなどもアクセシビリティを強化していて、それによってコミュニケーションの仕方もどんどん進化しています。
最近はARグラスなんかも注目されていますが、こちらは実際どうなんでしょうか?
正直なところ、ARグラスは長時間装着していると本体が熱を持ってしまったり、音声をうまく拾えなかったりとまだ問題はあります。

ただ、やはりいちばん大きな問題は「聞こえない人だけがARグラスをかけている」という状態なんです。最初にお話ししたように、ARグラスをかけている人しか音声認識の結果を確認できないので。誰もがARグラスを使っているという世界になれば変わるかもしれませんが、やはり会話している双方で間違いなく書き起こしされているかをチェックできることが、コミュニケーションにおいては重要だと感じています。
なるほど、やはり最初に着目されたポイントが大事だったのですね。ちなみに皆さんは今後「See-Through Captions」のプロジェクトをどのように展開されていく想定なのでしょうか?
そこは実は少し難しいところで、、、。ありがたいことに引き合いは多いのですが、僕たちだけでできる範囲には限界があります。共同開発しているジャパンディスプレイ株式会社さんや周りのパートナーとうまく連携しながら世界に拡げられるようなことができればいいですね。

「See-Through Captions」は、もともとチームメンバーである設楽とより良いコミュニケーションがしたいという想いでスタートしたものですし、僕自身、まずはいち利用者としてこのプロジェクトを大事にしていきたいという想いが強いですね。
その想いを色々な方がつないで、このプロジェクトをより実用的な形で広めていけると良いですよね。本日は素敵なお話を聞かせていただき有難うございました!

編集後記

以上、今回は筑波大学デジタルネイチャー研究室「See-Through Captions」メンバーの皆さんにお話を伺いました。市役所など地域の人々にとって必要不可欠な場面はもちろん、博物館などの学びや教育の場面での活用など、さまざまな場でのコミュニケーションの可能性を拡げています。

ろう者や難聴者ではない自分自身にとっても、自分の言いたいことを自分の表情や感情とともに “伝えられる” 、そして ”伝わっていることが分かる”ということの嬉しさをオンラインで実際に体験できました。「See-Through Captions」が、今後もオンライン/オフライン問わず、さまざまな場所でコミュニケーションの新しい形を体現してくれることを楽しみにしています!

関連リンク

「See-Through Captions」プロジェクトページ
https://digitalnature.slis.tsukuba.ac.jp/2021/02/see-through-captions/

xDiversityプロジェクト
https://xdiversity.org

この記事がよかったら「いいね!」
この記事を書いた人
田中 伶 アステリア株式会社 コミュニケーション本部・メディアプランナー。 教育系のスタートアップでPRや法人向けの新規事業立ち上げを経験。話題のビジネス書や経営学書を初心者向けにやさしく紹介するオンラインサロンを約5年運営するなど、難しいことをやわらかく、平たく解説するのが得意。台湾情報ウェブメディア編集長も務める。