今回は、えいたその歌声の特徴の一つである「 3~5倍音が、基音や2倍音に比べて強い」を操作することで、その特徴が「えいたそ感」に貢献する度合いを調べてみました。
以下の記事で述べたように、音声分析合成システムWORLDを利用して、実音声の音色を操作することで、これまで得た知見が本当に「えいたそ感」に寄与しているのかを検証をしていく。
今回の検証対象は、知見(1)「 3~5倍音が、基音や2倍音に比べて強い」である。
実験1
コンセプト
WORLDで抽出したeitasoとrisaスペクトル包絡を以下のように変更して、再合成し、その音声を評価する。
条件(a) risaの0~2,200Hzのスペクトル包絡を、eitasoの0~2200Hzのそれに置換
条件(b) eitasoの0~2,200Hzのスペクトル包絡を、risaの0~2200Hzのそれに置換
各倍音の強度を直接操作するのが実験としては理想であるが、感触をつかむため簡略化した方法で行った。ただし、今回の方法でも知見(1)の条件は満たせると考えている。
上限を2200Hzに設定したのは、甲南大学の北村教授による、話者の識別には2200Hz付近以上の周波数帯域が貢献しているという研究結果*1があるため、その結果との比較を考慮したためである。
条件(a)の場合に、risaの歌声に「えいたそ感」が加えられ、かつ条件(b)の場合、eitasoの歌声から「えいたそ感」が失われれば、知見(1)は「えいたそ感」への寄与が大きいと考えられる。
実験条件
音声資料には恒例の「でんぱ組.inc流アイドル☆リ☆コンストラクトCD-ROM」のクロマチック発声したものの音程C4を使用した。
評価用の音声は以下の3区間を連結したものとする。
このとき区間Bが、区間A(risa)、区間C(eitaso)のいずれにどれだけ類似しているかで、当該知見の有効性を判定可能と考えた。
さらに、再生順序による影響を排除するため、下表に示す4種類の条件で評価することとした。
条件 | 区間A | 区間B | 区間C | |
(a)-1 | スペクトルパラメータ | risa | 2200~:risa 0~2200:eitaso |
eitaso |
音源パラメータ | risa | |||
(a)-2 | スペクトルパラメータ | eitaso | 同上 | risa |
音源パラメータ | ||||
(b)-1 | スペクトルパラメータ | eitaso | 2200~:eitaso 0~2200:risa |
risa |
音源パラメータ | eitaso | |||
(b)-2 | スペクトルパラメータ | risa | 同上 | eitaso |
音源パラメータ |
なお、使用した音声分析合成システムWORLDのバージョンはworld-0.2.3_matlab.zipである。
評価方法
区間Bの評価方法は被験者1名による、以下の5段階評価による主観評価を用いた。
- ほぼ「えいたそ」
- かなり「えいたそ感」がある
- どちらかといえば「えいたそ感」がある
- わずかに「えいたそ感」がある
- ほとんど「えいたそ感」なし
要は筆者の全くの主観である(笑)。
結果
スペクトル包絡を置換した結果をお聴かせできればよいのであるが、著作権者の許可を得ていないため、置換した結果のスペクトル結果をお見せするに留める。
下図に条件(a)、条件(b)の区間Bのスペクトル包絡を示す。なお、このスペクトル包絡は、区間B全体の平均である。
続いて主観評価結果を示す。まずrisaの歌声のスペクトル包絡0~2200Hzをeitasoに置き換えた条件(a)について以下の結果となった。いずれも「えいたそ感」が大きく加わっていることがわかる。
- 条件(a)-1:「2. かなり「えいたそ感」がある」
- 条件(a)-2:「1. ほぼ「えいたそ」」
条件(a)-1より条件(a)-2の方が「えいたそ感」を強く評価しており、先行する音声の影響を受けているのが興味深い。eitasoのオリジナルが先行する条件(a)-2の場合、オリジナルをリファレンスとして聴くことができるからかもしれない。
区間Bの印象は、まるでアナログシンセでレゾナンスを強めたようなクセの強い個性的な音である。やっていることはほぼ等価なので、当然であろう。
一方、eitasoの歌声のスペクトル包絡0~2200Hzをrisaに置き換えた条件(a)について以下の結果となった。いずれも「えいたそ感」が大きく失われている。
- 条件(b)-1:「4. わずかに「えいたそ感」がある」
- 条件(b)-2:「3. そこそこ「えいたそ感」がある」
条件(a)と同様に、オリジナルのeitasoが先行する方がより「えいたそ感」が失われていると判断していることことがわかる。
以上の結果は、スペクトル包絡0~2200Hzの帯域の「えいたそ感」への寄与度がかなり大きいことを示唆している。
*1:北村達也,「音声における個人性の知覚と生成について」,甲南大学紀要.知能情報学編, Vol.1, No.2