えいたその歌声に関する知見がWORLDの分析で得られる特徴量の上でどのように表現されているか確認してみました。
はじめに
前回、音声分析合成システムWORLDを用いて、知見の検証および新たな知見の発見を進めていく、と述べた。
それにあたって、まず、知見がWORLDの分析で得られる特徴量の上でどのように表現されているか確認してみる。
抽出した特徴量との比較
前回触れたように、えいたその歌声に関する知見(1)~(3)はWORLDの分析で得られる以下の特徴量に対応づけられると考えられる。
(1) 3~5倍音が、基音や2倍音に比べて強い⇒スペクトル包絡
(2) 整数次倍音が高域まで強く、非整数次倍音が弱い ⇒非周期性指標
(3) 弱いながらもシンガーズ・フォルマントが存在する⇒スペクトル包絡
それでは、スペクトル包絡と非周期性指標を見てみよう。
分析対象
素材はいつものでんぱ組.inc流アイドル☆リ☆コンストラクトCD-ROM」のクロマチック発声の最低音C4と最高音C5を使用する。過渡部を避け安定した特徴量を得るため、発声の中央の0.5秒分の区間を使用した。
被験者もいつものようにeitaso、mirin、miu、nemu、risaの5名である。
分析方法
使用したWORLDのバージョンはworld-0.2.3_matlab.zipである。スペクトル包絡は、CheapTrickで得られたspectrogram、非周期性指標はD4Cで得られたaperiodicityをそれぞれ時間軸方向に平均化した。
分析結果
分析した結果を以下に示す。。各被験者の担当色に合わせたライン職にしているが(risaが黒なのはお約束)、eitasoの黄色は、マーカーを付与して太くして見やすくしている。
以下、各知見について、上のグラフで示した分析結果と一致しているか確認する
(1) 3~5倍音が、基音や2倍音に比べて強い(スペクトル包絡に関連)
包絡なので倍音構成は直接わからないが、図を見ると3~5倍音が含まれる1~2kHzの帯域が1kHz未満の帯域より他の被験者に比べ強いことから、3~5倍音が強くなることは確実である。
したがって、スペクトル包絡の1~2kHzの帯域を操作することで、本知見に関する検証は可能と考えられる。
(2) 整数次倍音が高域まで強く、非整数次倍音が弱い (非周期性指標に関連)
実はまだ非周期性指標について十分に理解していないが、おそらく、各周波数帯域において、非周期性の度合いを0から1の間で示したものであり、1が非周期性最大、すなわちすべてノイズ成分ということを意味するものと思われる*1。
グラフを見ると、eitasoは他の被験者にくらべ、低い位置に線があることから、ノイズ成分が弱く、知見と一致していることがわかる。
したがって、非周期性指標を操作することで、本知見に関する検証は可能と考えられる。
(3) 弱いながらもシンガーズ・フォルマントが存在する(スペクトル包絡に関連)
C4のスペクトル包絡を見ると、eitasoは3~5kHzの間に明らかに強いピークが存在することから、知見と一致していることがわかる。
したがって、スペクトル包絡の3~5kHzの帯域を操作することで、本知見に関する検証は可能と考えられる。