今日はお休み日記です。
音声読み上げについて、つらつらと語ってみましょうか。
CoeFont Studioがすごかった
ちょっとしたツイートがあったので、ご紹介。
【大型アップデート】
以下の機能を追加しました。
-「Allial」の声のUPDATE
– ユーザー辞書機能
– 段落の追加・削除機能
– 動画を作りやすくするオプション
「Allial」「Millial」はその時代の最高品質で、今後も無料で提供していきます。
#CoeFont #CoeFontSTUDIO pic.twitter.com/jozwaV8JNv— CoeFontSTUDIO (@coefont) May 13, 2021
自然なしゃべりが素晴らしいっ
CoeFont StudioというWebで使える読み上げ機能(いわゆるAI)なんですが、このクオリティが素晴らしかったという。
実際に私も少し触ってみたんですが、どちらかというとアニメ系の声で、とても自然にしゃべってくれるんですよね。
無料だし、音声生成も待つことなく、しかも簡単にダウンロードできて。
Amazonの読み上げよりも、はるかに自然でいい感じです。
まぁ、Amazonの読み上げは英語がメインで、日本語はおまけみたいなものですが(笑
ほんと、これからどんどんAIが中心になっていきそうですよね。
AIでは、元データの準備が一番大変
ちなみにこういうAIでは、元となるデータを準備するのが一番大変なように感じます。
すなわち、データをいい形で大量に得られているほど、いい結果を出しやすくなると。
実は私も、5~6年ぐらい前だったか、「写真を絵のようにする写真加工AI作り」で某国立大学研究室にデータやコツを提供して、その成果を見せてもらったことがあるんですよ。
そこの研究室の人が、私の写真加工技術を趣味で使っていて、協力の依頼を受けて。
協力のお礼に、ちょっとした有名店スイーツの詰め合わせをもらったんですが(笑
それは修士論文で使ったものなんですが、そこで痛感したのが「AIは元となるデータを、うまく大量に得られないと意味がないな」ということですね。
画像でも、何百枚ある程度ではまったく足りなくて、何万枚、下手すると何百万枚ぐらい必要になるんじゃないかな、とか思ったりもするんですが。
裏を返すと、そこさえうまくできれば、後はAIに学習させるだけなので、そこは難しくないと。
「プロット作りも、AIでできたらな」なんて思うんですが、そういう良質な元データをどう確保するのかという問題があって。
なので、そのあたりを考えると、難易度が高いように思います。
まぁプロット作りはだいぶ創造性を求められる部分だし、AIは「単調作業を自動化する」部分なので、プロットの自動化は難しそうですが。
音声でも、「ナレーション」とか「読み上げ」ぐらいの単調作業部分なら作りやすいでしょうが、人間的な演技はやっぱり難しいですからね。
いや、私はAIを作ったことはないので、よく分かりませんが(笑
まとめ
そんな感じで、少しずついいAIが出てきましたね~。
普通に動画の読み上げは、これを使えば十分じゃないのかな、とか思ったりも。
こういうのを見ると、いろんなことができそうで夢がふくらむので、今後が楽しみだったりします。
ということで今日は、音声読み上げについてのお休み日記でした。
今日はここまで~。