歌唱合成考

歌唱合成という奴はなかなか奥が深くて面白いですねー。
今までも試してみる程度にはやっていたのですが、RenoidPlayerで試行錯誤してみて再認識しました。

その土壌を作ったのは言うまでもなくVocaloidなわけですが、最近登場したCeVIOの生々しい感じもなかなか衝撃的でした。CeVIOの特徴は隠れマルコフモデル(HMM)方式という事ですが、その人間臭い感じを作っているのはHMMによる人間の発声の特徴の学習と周波数領域のパラメータからのリシンセサイズによる滑らかな音の繋がりなんだろうと思います。同じサンプル曲をRenoidPlayerとCeVIOで再生したのがこれ。

RenoidPlayerのサンプル

CeVIOのサンプル

CeVIOの最後の音を伸ばしている所なんて凄く面白いです。伸ばしている音の途中で倍音構成が変わっていて周波数領域のパラメータの変化が癖として学習されてるみたいですね。

CeVIOはベタ打ちのシンプルなデータを突っ込んでも人間臭い発声をするのが面白いですが、一方で細かくいじれるパラメータが少ないという不満もあるようです。有償版を出す時にはパラメータを増やすという話のようですがどんな感じになるんでしょうね。

ただ、細かい編集ができるようになるのはCeVIOの良い所を殺す事に繋がるんじゃないかという疑問もちょっとあります。つまりCeVIOはHMMによって人間臭い音量の変化やピッチの変化を作り出しているわけで、これをユーザーがコントロールするという話とは単純には整合が取れないんじゃないかという気がします。一方Vocaloidユーザーはそれぞれ自分なりの音量やピッチの変化のつけ方を研究していてそれで勝負しているという面もあるわけなので、これを両立させる落し所ってどうなるんでしょうね。

つまり、
Vocaloid → 普通のシンセ
CeVIO → 物理モデリング音源
みたいなイメージでパラメータの構成が全然違っている感じ。

部分的にユーザーが上書きできるとかそんな感じになるんですかね? わかんないけど。

CeVIO
RenoidPlayer

Posted by g200kg : 2013/06/28 10:23:00

最近の記事

関連記事

2013/06/28 (2013年06月のアーカイブ)