今日は日記です。

「英語圏の人って、唇の動きも見て言葉を理解しているんですね」というどうでもいい日記です。

 

「唇の動き」でも学ばせる技術

今日のネタ記事。

商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース(藤本健の “DTMステーション”)

 

内容は、読み上げソフト「VOICEVOX」が、オープンソースになったということで。

実際に聞いてみたんですが、アニメ系ボイスで、普通に素晴らしいクオリティだったり。

これからどんどん、こういうのが出てきそうですね~。

 

このソフトでも用いられているんですが、AIで学習する時に、実際の声だけでなく、「唇の動き」も見て音を学ばせているんですよ。

で、最近私が知ったのは、アメリカ人とか英語圏ネイティブの人って、音だけでなく、会話を聞くときに「唇の動き」を見ているんですね。

 

アメリカ人は、「唇の動き」を見ている

私は米軍基地のすぐ隣に住んでいるので、周囲にはアメリカ人が山ほどいるし、窓からも基地内が見えるんですよ。

で、アメリカ人同士の会話を見ていると、彼らは会話をしているときって、日常会話でもびっちり正面を向き合っているんですよね。

そして、とてもよく「相手の顔」を見ていて。

 

一方で、日本の自衛隊の人たちもいるので、彼らの日常会話風景を見ていると、彼らはさして正面を向き合わないし、顔も見ないと。

だから、アメリカ人たちの会話風景と、日本人たちの会話風景では、だいぶ見た目が違うんですよ。

アメリカ人の会話は「会話してる!」というイメージですが、日本人の会話は「くつろいで話している」みたいに見えたりして。

 

なんでこういう違いが出るのかというと、アメリカ人は「相手の顔を見ている」からじゃないかと思います。

より正確に言うと、「相手の唇の動き」を見ていると。

 

英語は「子音が多く使われる言語」

で、どこかのアメリカ人主婦動画で見たんですが、これは子供の頃からそういう風になるらしいです。

英語圏に生まれた子供は、1歳とかそういう幼い頃から、言葉を聞くときに「話し手の唇」をじっと見て聞くようになるようで。

 

これは私の推測ですが、英語って「子音が多く使われる言語」なんですよね。

やたらと子音があって、子音の列挙で単語を聞き分ける、みたいな感じです。

 

で、子音は母音に比べると聞き取りにくいんですが、その一方で、唇に大きな動きを作りやすいと。

だから、子供は「理解しよう」として、唇の動きにも着目するようになるんじゃないかと思います。

そしてその習慣が残るので、大人になっても「相手の唇を見ながら話す」という風習ができたんじゃないかな、と。

 

一方で、日本語の場合、五十音で母音が重要になるじゃないですか。

これは、各音に母音が必ずあるので、聞き取りやすいんですよね。

だから、別に唇を見なくても分かると。

例えば「おはようございます」という単語でも、朝に出会ったシーンで「おあようおあいあう」と言う程度でも、普通に理解できてしまうと(笑

 

なぜ海外では、リップシンク機能が重要なのか

それとか、私がゲーム制作をしていた時、海外製のゲームエンジンを使っていたんですよ。

で、それでは、やたらと高度なリップシンク機能(音声と口の動きを同期させる機能)が搭載されていたんですよね。

一方で、日本のノベルゲームとかの場合、口パクでも「適当に口を動かせば、しゃべっている風に見える」というのが普通でした。

だから私とかは、「なんで海外では、こんなに高度なリップシンク機能を用意するねん。口なんて、適当にパターンで動かせばええやん」とか思っていたんですが。

 

でも、その謎も、最近ようやく理解できるようになりました。

彼らは、日本人のように音だけでなく、日常から相手の唇を見て言葉を聞き取っているんですね。

だから、リップシンク機能が重要になると。

 

他にも、例えばアメリカのアニメを見ると、とても口がダイナミックに動いてますよね。

私は詳細な確認まではしていませんが、たぶん、それなりに口の動きと言葉が合っていると思うんですよ。

一方で日本のアニメでは、それと比べるとあまり口が動かないし、音と口の形を合わせていない「適当な口パク」です。

これも、英語圏の人は「相手の唇を見て、単語を把握する」からだろうと思います。

 

文化の違いが、いろんな誤解を作った

で、こういう文化の差が、結構いろんな誤解を作っているように思います。

例えば日本では、ビジネスマナーとかで「相手の目を見て話を聞きなさい」っていう教えがあると思います。

私の中では、それは「欧米人は、互いに相手の口を見て話す」から来ているんじゃないかなと。

なのに、日本人がその風習を勝手にはき違えて、「相手の目を見なさい」としているんじゃないかな、という予想です。

 

私とか、「相手の目を見て話す」とか、だいぶ苦手なんですよ。

でも、「相手の口を見て、単語を把握している」と分かると、まったく意味が変わって、私でも楽にできます。

その文化の違いを理解していないから、意味不明な教えを作ったんじゃないかな、と予想したりもします。

そして、わざわざそういう教えを作るぐらいなので、日本人はさして相手の唇を見なくても、単語を聞き取れるんじゃないかな、と思います。

 

なぜ野球で口を隠すのか

他にも、大リーグ野球とかで、投手と捕手が相談する場合、グラブで口を隠すものです。

それは、彼らが「唇の動きで単語を把握する」というのが習慣だからですね。

それを、日本人が見て、まねしただけだろうと思います。

日本語でも読唇術はないわけではないですが、あまりメジャーではありませからね。

 

さらには、日本では「腹話術」みたいに、人形にしゃべらせているように見せる芸がありますが、アメリカではそういうのは少ないものです。

これも、日本語が「母音だけでも、結構通じる」だからかなと思います。

なので、日本語では「唇の動き」はさして重要ではなくて、やろうと思えば腹話術だってできるぐらい、読唇術を防げる言語だということです。

 

まとめ

そういう風に考えると、いろいろ謎が解けて面白いように思います。

英語圏の人は、生まれた時から相手の唇を見て、唇の動きから単語を把握すると。

一方で日本人は、音だけで聞き取れると。

そういうのが、アニメの口パクとか、リップシンクに対する執着とか、「相手の顔を見て話す」みたいな文化の違いを作っているのかなと。

 

こういう個性とか違いって、目からウロコで面白いですよね。

いろいろ新たな発見があると、よりいろんなことを理解できそうに感じます。

 

ということで今日は、「英語圏の人って、唇の動きも見て言葉を理解しているんですね」という日記でした。

今日はここまで~。

この記事をシェア:
Share