今日はお休み日記です。

音声読み上げについて、つらつらと語ってみましょうか。

 

CoeFont Studioがすごかった

ちょっとしたツイートがあったので、ご紹介。

 

自然なしゃべりが素晴らしいっ

CoeFont StudioというWebで使える読み上げ機能(いわゆるAI)なんですが、このクオリティが素晴らしかったという。

実際に私も少し触ってみたんですが、どちらかというとアニメ系の声で、とても自然にしゃべってくれるんですよね。

無料だし、音声生成も待つことなく、しかも簡単にダウンロードできて。

 

Amazonの読み上げよりも、はるかに自然でいい感じです。

まぁ、Amazonの読み上げは英語がメインで、日本語はおまけみたいなものですが(笑

 

ほんと、これからどんどんAIが中心になっていきそうですよね。

 

AIでは、元データの準備が一番大変

ちなみにこういうAIでは、元となるデータを準備するのが一番大変なように感じます。

すなわち、データをいい形で大量に得られているほど、いい結果を出しやすくなると。

 

実は私も、5~6年ぐらい前だったか、「写真を絵のようにする写真加工AI作り」で某国立大学研究室にデータやコツを提供して、その成果を見せてもらったことがあるんですよ。

そこの研究室の人が、私の写真加工技術を趣味で使っていて、協力の依頼を受けて。

協力のお礼に、ちょっとした有名店スイーツの詰め合わせをもらったんですが(笑

 

それは修士論文で使ったものなんですが、そこで痛感したのが「AIは元となるデータを、うまく大量に得られないと意味がないな」ということですね。

画像でも、何百枚ある程度ではまったく足りなくて、何万枚、下手すると何百万枚ぐらい必要になるんじゃないかな、とか思ったりもするんですが。

裏を返すと、そこさえうまくできれば、後はAIに学習させるだけなので、そこは難しくないと。

 

「プロット作りも、AIでできたらな」なんて思うんですが、そういう良質な元データをどう確保するのかという問題があって。

なので、そのあたりを考えると、難易度が高いように思います。

まぁプロット作りはだいぶ創造性を求められる部分だし、AIは「単調作業を自動化する」部分なので、プロットの自動化は難しそうですが。

音声でも、「ナレーション」とか「読み上げ」ぐらいの単調作業部分なら作りやすいでしょうが、人間的な演技はやっぱり難しいですからね。

いや、私はAIを作ったことはないので、よく分かりませんが(笑

 

まとめ

そんな感じで、少しずついいAIが出てきましたね~。

普通に動画の読み上げは、これを使えば十分じゃないのかな、とか思ったりも。

こういうのを見ると、いろんなことができそうで夢がふくらむので、今後が楽しみだったりします。

 

ということで今日は、音声読み上げについてのお休み日記でした。

今日はここまで~。

この記事をシェア:
Share