DiffSingerとは (ディフィシンガーとは) [単語記事]

DiffSingerとは、浅い拡散メカニズム(拡散モデル)を利用した歌声合成である。

概要

DiffSingerは2021年に論文が発表され、2022年 1月17日にPytorch版の公式実装がGithubで公開された。その後Open VPI版のフォークが作成された。現在最新版はVer2.4.0である。

更に他のユーザーによりOpen VPI版を元にGoogle Colabで利用できる学習にノートブックや
個人のPCで利用可能な学習ツールDiffTrainerが公開されている。

個人で作成可能なAI歌唱合成として人気があり様々なユーザーから音源が配布されている。

対応エディターは現在 OpenUtauのみのため利用にはOpenUtauが必須である。

関連リンクに各種リポジトリ、ツールのリンクを掲載しています。

DiffSingerの音源(音響モデル)を簡単に利用するにはOpenUtauを利用する必要がある。

主な特徴としてマルチスピーカーと言われる物があり、
一つの音源に複数の声質や複数の言語を学習できる。

学習データを相互に組み合わせることで日本語話者の声で英語やフランス語、
中国語話者や英語話者で日本語といったクロスリンガルを実装可能である。

また、声質を別々に学習させることでUTAUで言う統合音源のような事もできる。

OpenUtauで声質を操作する場合は表情編集部分のCLR:Voice Colorタブのラジオボタンで
ノートごとに設定できる。

他にも表情設定から選択している音源の表情を追加できる。
追加したVoice Colorはカーブ（曲線）編集の形を取っており
カーブを書き換えることで声質の適応度合いや声質を混ぜる事ができる。

他にもの音源によって以下の表情をカーブ編集で操作できる。