今日は日記です。
「英語圏の人って、唇の動きも見て言葉を理解しているんですね」というどうでもいい日記です。
「唇の動き」でも学ばせる技術
今日のネタ記事。
商用でも利用可能なAI音声合成ソフトウェア『VOICEVOX』がオープンソースとして無料でリリース(藤本健の “DTMステーション”)
内容は、読み上げソフト「VOICEVOX」が、オープンソースになったということで。
実際に聞いてみたんですが、アニメ系ボイスで、普通に素晴らしいクオリティだったり。
これからどんどん、こういうのが出てきそうですね~。
このソフトでも用いられているんですが、AIで学習する時に、実際の声だけでなく、「唇の動き」も見て音を学ばせているんですよ。
で、最近私が知ったのは、アメリカ人とか英語圏ネイティブの人って、音だけでなく、会話を聞くときに「唇の動き」を見ているんですね。
アメリカ人は、「唇の動き」を見ている
私は米軍基地のすぐ隣に住んでいるので、周囲にはアメリカ人が山ほどいるし、窓からも基地内が見えるんですよ。
で、アメリカ人同士の会話を見ていると、彼らは会話をしているときって、日常会話でもびっちり正面を向き合っているんですよね。
そして、とてもよく「相手の顔」を見ていて。
一方で、日本の自衛隊の人たちもいるので、彼らの日常会話風景を見ていると、彼らはさして正面を向き合わないし、顔も見ないと。
だから、アメリカ人たちの会話風景と、日本人たちの会話風景では、だいぶ見た目が違うんですよ。
アメリカ人の会話は「会話してる!」というイメージですが、日本人の会話は「くつろいで話している」みたいに見えたりして。
なんでこういう違いが出るのかというと、アメリカ人は「相手の顔を見ている」からじゃないかと思います。
より正確に言うと、「相手の唇の動き」を見ていると。
英語は「子音が多く使われる言語」
で、どこかのアメリカ人主婦動画で見たんですが、これは子供の頃からそういう風になるらしいです。
英語圏に生まれた子供は、1歳とかそういう幼い頃から、言葉を聞くときに「話し手の唇」をじっと見て聞くようになるようで。
これは私の推測ですが、英語って「子音が多く使われる言語」なんですよね。
やたらと子音があって、子音の列挙で単語を聞き分ける、みたいな感じです。
で、子音は母音に比べると聞き取りにくいんですが、その一方で、唇に大きな動きを作りやすいと。
だから、子供は「理解しよう」として、唇の動きにも着目するようになるんじゃないかと思います。
そしてその習慣が残るので、大人になっても「相手の唇を見ながら話す」という風習ができたんじゃないかな、と。
一方で、日本語の場合、五十音で母音が重要になるじゃないですか。
これは、各音に母音が必ずあるので、聞き取りやすいんですよね。
だから、別に唇を見なくても分かると。
例えば「おはようございます」という単語でも、朝に出会ったシーンで「おあようおあいあう」と言う程度でも、普通に理解できてしまうと(笑
なぜ海外では、リップシンク機能が重要なのか
それとか、私がゲーム制作をしていた時、海外製のゲームエンジンを使っていたんですよ。
で、それでは、やたらと高度なリップシンク機能(音声と口の動きを同期させる機能)が搭載されていたんですよね。
一方で、日本のノベルゲームとかの場合、口パクでも「適当に口を動かせば、しゃべっている風に見える」というのが普通でした。
だから私とかは、「なんで海外では、こんなに高度なリップシンク機能を用意するねん。口なんて、適当にパターンで動かせばええやん」とか思っていたんですが。
でも、その謎も、最近ようやく理解できるようになりました。
彼らは、日本人のように音だけでなく、日常から相手の唇を見て言葉を聞き取っているんですね。
だから、リップシンク機能が重要になると。
他にも、例えばアメリカのアニメを見ると、とても口がダイナミックに動いてますよね。
私は詳細な確認まではしていませんが、たぶん、それなりに口の動きと言葉が合っていると思うんですよ。
一方で日本のアニメでは、それと比べるとあまり口が動かないし、音と口の形を合わせていない「適当な口パク」です。
これも、英語圏の人は「相手の唇を見て、単語を把握する」からだろうと思います。
文化の違いが、いろんな誤解を作った
で、こういう文化の差が、結構いろんな誤解を作っているように思います。
例えば日本では、ビジネスマナーとかで「相手の目を見て話を聞きなさい」っていう教えがあると思います。
私の中では、それは「欧米人は、互いに相手の口を見て話す」から来ているんじゃないかなと。
なのに、日本人がその風習を勝手にはき違えて、「相手の目を見なさい」としているんじゃないかな、という予想です。
私とか、「相手の目を見て話す」とか、だいぶ苦手なんですよ。
でも、「相手の口を見て、単語を把握している」と分かると、まったく意味が変わって、私でも楽にできます。
その文化の違いを理解していないから、意味不明な教えを作ったんじゃないかな、と予想したりもします。
そして、わざわざそういう教えを作るぐらいなので、日本人はさして相手の唇を見なくても、単語を聞き取れるんじゃないかな、と思います。
なぜ野球で口を隠すのか
他にも、大リーグ野球とかで、投手と捕手が相談する場合、グラブで口を隠すものです。
それは、彼らが「唇の動きで単語を把握する」というのが習慣だからですね。
それを、日本人が見て、まねしただけだろうと思います。
日本語でも読唇術はないわけではないですが、あまりメジャーではありませからね。
さらには、日本では「腹話術」みたいに、人形にしゃべらせているように見せる芸がありますが、アメリカではそういうのは少ないものです。
これも、日本語が「母音だけでも、結構通じる」だからかなと思います。
なので、日本語では「唇の動き」はさして重要ではなくて、やろうと思えば腹話術だってできるぐらい、読唇術を防げる言語だということです。
まとめ
そういう風に考えると、いろいろ謎が解けて面白いように思います。
英語圏の人は、生まれた時から相手の唇を見て、唇の動きから単語を把握すると。
一方で日本人は、音だけで聞き取れると。
そういうのが、アニメの口パクとか、リップシンクに対する執着とか、「相手の顔を見て話す」みたいな文化の違いを作っているのかなと。
こういう個性とか違いって、目からウロコで面白いですよね。
いろいろ新たな発見があると、よりいろんなことを理解できそうに感じます。
ということで今日は、「英語圏の人って、唇の動きも見て言葉を理解しているんですね」という日記でした。
今日はここまで~。