名古屋工業大学発ベンチャーのテクノスピーチが高精度音声合成技術の開発を発表

マルチメディアに関連したソフトウェアの研究開発を展開する株式会社テクノスピーチ（所在地：名古屋市千種区、代表取締役：大浦圭一郎、以下テクノスピーチ）と国立大学法人名古屋工業大学国際音声言語技術研究所（所在地：名古屋市昭和区、代表：徳田恵一、以下名古屋工業大学）は、人間の声質・癖・歌い方を高精度に再現できる歌声合成技術を開発しました。

加速するバーチャルシンガー市場

人間の声をデータとして取り込み、そのデータに準じてに歌うシステムのことをといいます。バーチャルシンガーは2003年、楽器メーカーのヤマハが音声合成ソフト「VOCALOID」を発表したことから歴史が始まりました。今では有名な「初音ミク」は、この音声合成ソフトの1つ。バーチャルYouTuberの台頭に伴い、現在では3Dモデルのバーチャルシンガーがダンスをしながら歌うライブが開かれて、その人気は日本だけにはとどまらず、アメリカ、ヨーロッパなどの海外でも注目を集めています。

人間の声質・癖・歌い方を高精度に再現し、バーチャルシンガーの歌声は人と区別できない時代へ

これまでテクノスピーチと名古屋工業大学は共同で、日本語や英語、中国語にも対応可能な音声合成・歌声合成技術の研究・開発に取り組んでおり、業務用カラオケ機器「JOYSOUND」や音声創作ソフトウェア「CeVIO Creative Studio」等に音声合成・歌声合成技術を導入した実績もあります。

同研究では、特定の歌唱者の歌声データベースに対してディープラーニング等のAI技術を活用し、歌唱者の声質・癖・歌い方の学習を実施。楽曲を作る際に、任意の歌詞付き楽譜を入力するだけで、高品質な歌声を合成することが可能となりました。

実際の新技術と現行技術で作られた歌声が、こちらから再生可能です。

編集部まとめ

発表されている音声データを聴いてみると、新技術で作られた歌声は吐息や抑揚の差を感じることができます。時代の流れとともに進化するバーチャルシンガー。彼ら彼女らの歌声をテレビで聴くのもそう遠くない未来かもしれません。