Mac対応合成音声について(Mac版UTAU・VOCALOID、TtSなど)

(※これは廃墟となっていた過去のBlog「青色灯」のサルベージ記事です。サルベージ日:18/6/22 オリジナルのポスト日は投稿日時参照)

 

かなりの急遽、時間ができたので、ブログを更新します。
ブログはある程度の文を書ける時間が(大概の場合、急遽)できた時に、その時に考えてたことを自分の中でもまとめみたいなものとして、書いていきたいと思います。


今回はMacにも対応したらしいVOCALOIDについて書こうと思います(という書き出しでいったけど書いてる内に合成音声全体の話になったのでタイトルだけ変えました)。
と言っても、例えば08年12月号のユリイカ誌特集のような…例えばキャラクタ論だとかデータベースとシミュラークルだとかn次創作だとかアーキテクチャに支えられる云々などの現代思想っぽいやつではなく、音声合成に興味があるMac使いの人間として雑感を書きます。

また、自分は「VOCALOIDシーン」のことを全くといっていいほど知りません。
恐らく核になる場はニコニコ動画とかになるのでしょうが、いわゆるボカロシーンのオリジナル曲はsupercellの「メルト」「ブラック★ロックシューター」の2曲しかちゃんと聴いたことがないです。
それに何より自分は純正のVOCALOIDソフトを操作したことがないです。また、誰かが操作しているのを見たこともないです。
その上、どのソフトがどういったキャラ付けがなされているのかもほとんど知りません(初音がネギを持っているなどは知っていますが。個人的にはあのキャラクタ文化はそれほどシンパシーを抱いていません)。

個人的にはVOCALOIDの各ソフトを「バーチャルリアリティの人格(キャラクター)」としてはあまり考えていません。
どちらかと言えば「音声合成技術の結果でた合成音声」「ボーカルシンセサイザーという楽器ソフト」と捉えています。その元の発声者から分離されたn次創作的なキャラ性やDTM好きの内気なアマチュアアーティスト達を押し上げた技術などとしてで一旦なく、この2つとしてVOCALOIDをみると結構興味があります。

何かあえて極端なことを先に書いてしまうと「ボカロP」という言葉がどこまでの範囲を指すのか詳しくは知りませんが、もし純正VOCALOIDソフトを使わずに合成音声を用いた曲を制作した人まで含むとしたら、デジタルユニットのMoles Regimeにおいて、UTAUや音声素材を使った曲が数曲あるので、自分もボカロPということになるのではないかと思います。
と言っても、ソフトに対してP(プロデューサー)という呼称を用いるのに違和感があるのに加えて、先のようにボカロシーンについては全く知らない上に、それらの合成音声を前面に押し出して歌唱させることもしてなくて、適当にでっち上げたインストのバックで鳴る環境音みたいに使ってるだけだけど…


「歌う(話す)楽器・音」として、合成音声には興味があって自分でも使っています。

個人的に初めて合成音声が使われている曲を聴いたのは、中高時代にRadiohead『OK Computer』を聴いた時で、「Paranoid Android」で憂鬱なメロディでThomの絞り出すような声のバックで"I may be paranoid, but not an android"と無機質なコンピュータが喋ってるのとか、まあやっぱり何と言っても「Fitter Happier」ですね。成長神話に基づいた「病的なまでに健康で理想的な」英国男性の生活様式を不気味なまでに淡々とコンピュータボイスで読み上げさせた挙げ句、最後の最後で「ブタ/檻の中のブタ/抗生物質漬けのブタ」と言い放って終わる超不条理な曲。初めて聴いた時、うおーと思いました(適当すぎる感想)。
これらはMacのスピーチ機能だったような
…と思って調べてみたらやっぱり当時のMacのテキスト読み上げ機能(TtS)。
さっき自分のMacで「Fitter Happier」の歌詞を打ち込んで読み上げさせてみたら(OSが更新される毎にTtS機能もより成長するとのことで、今自分のはMavericksですが)当時より相当発音が自然で綺麗でした。ビックリ。

後からP-MODEL『S/T』や平沢さんの諸々のソロ作とかを聴いて、それより前の曲でTtSを使っているのがあるのを知ったり。
あれは平沢さんの好きなAmigaのSayコマンドですね。
っても、これらってまあ歌ってるってより合成音声が「話してる」のを曲に取り入れてるって感じですが。


まあそれより前から合成音声「っぽい」体験ならヴォコーダーがありましたしね。
そういう意味で合成音声「っぽい感じ」の原体験なら中学の時に聴いてたPOLYSICSじゃないかなぁ、と。無意識に聴いてたというのも含めると、PUFFYかBugglesかYMO
もちろんKraftwerkとかHuman Leagueとか後で聴き出す訳ですが。で、高校途中からPerfumeが猛威を震うようになって。
あとは少し余談なら声をエフェクトかけて変えるという意味では、(これはもう既にVOCALOIDブーム以降だけど)神聖かまってちゃんの一連のボイチェン曲もかなぁ(ヴォコーダもボイチェンも合成音声ではないけど、原音にエフェクトをかけてほとんど別の声に聴こえるレベルまで遠ざけてるので、聴く耳では合成音声に近しいものがあるかな、と)。

それらの経験があって、初音が有名になってVOCALOIDという技術そのものが出て来た時は、そのキャラクタ文化や消費のされ方はともかく、結構違和感はなかったです。
何となくの感覚ですが、VOCALOIDKraftwerkや一部のテクノポップのアーティストのモチーフだったレトロフューチャー的なSF感が実際に具現化したように思えます。


VOCALOIDのブームみたいなのが一旦、収束してきたあたりで、楽器として使ってみたいなぁとは思ったことが数回程度あったんですが、何かその構想(というより妄想)の段階から既に、VOCALOIDを曲の前面に出して(綺麗に調律して)歌わせようとは、あまり思えなかったんですよね。
具体的には、ただの合成音声が淡々と何か意味のある言葉を発することの不気味さを出したり(これ相当難しいと思うのですが)、特定の「歌詞」を歌うのでなく単体では言葉の意味をなさないスキャットをさせる(これは平沢さんが実際にLOLAを使って「白虎野の娘」とか「確立の丘」でやってることですね。これも難しいと思う)とか打ち込んだ声をまるまるリヴァースを逆回転させて環境音として使うだとか意味のない絶叫だけを担当させるだとか、そういう嫌らしい感じです。


と言っても、まあそれ以前にそもそもVOCALOIDって(自分が幼少時から使っている)Macに長らく対応してなかったんですよね。笑 これは痛かった。自分の使っているDAWはLogicです。

数ヶ月前までMac環境でVOCALOIDを使うならば、ブートキャンプなどでWinOSを立ち上げて、そこで一旦WinにしたMac上でボカロをエディットして、そのデータを(Mac専用のDAWを使うならば)MacOSに持ち帰って…ということをしなければならなかったらしいです。
詳しくは知りません。と言うのも、これって話を聞くだけでも、手間がかなりかかりそうだし、費用も相当かかるのではないかって思えたのです。
そうなると、明確にVOCALOIDを前面に出した楽曲制作をしたいと強く思っている人でないと、敷居が高い。VOCALOIDソフトそのものの費用もかかりますしね。Winそのものを新しく買うとかでもいいと思いますけど結局、相当お金かかりますし。
自分のような面白い音声合成ソフトあるいはボーカルシンセをちょっと触ってみたい的な、まあ言ってしまえばミーハーは簡単には手を出せなかった。自分は音楽制作はバンドをメインでやってるので、音楽制作のお金はそちらに回っちゃいますし。


でも、こういう人って少なくなかったと思います。
ちょっと触ってみたい。でもマカーとしては敷居が高い。
もちろんそれなりにお金がある大人だったりDTMに熱心に打ち込んでいる学生などにとってはそんなに大したことないと思いますが(Mac環境から動かすだけならどれだけ高くても総額5,6万以下と思う)、VOCALOIDを軽い気持ちでとかギミック的に使ってみたいというマカーは結構いたと。でも基本はVOCALOIDってWin市場なんですよね。

そこで「歌唱合成に興味があるマカーの(Win占有の)ボカロコンプレックス」みたいなの(があるとしたら)を引き受けて登場したのが、Mac音家シリーズだったと思います。制作陣も明確に「WindowsVOCALOID」に対抗するとしてましたし。

ただこれら、音声素材だけでエディット機能はないんですよね。なので、合成自体は専用のエディタとかがあるわけでなくLogicなどで自分でやらなければならなかった。VOCALOIDに対抗すると言うよりは、MacOS環境のみで有名な声優の方の声素材を使って擬似的にVOCALOIDっぽい感じを味わうというのに近いでしょうか。


で、それのリリースの数ヶ月にUTAUがMacOSへ試用として移植されました。UTAU-Synth。
重音テトなどの音素材で有名な音声合成技術ですね(これでMac音素材を動かせるようになったので、実質Mac音シリーズはこれの機構に吸い込まれる形に近かったような)。
個人的にUTAUは、その制作の経緯や設計思想からVOCALOIDより企業が介入している割合が少なくて、よりインディ的であると思ってて、楽器を使う上での思想スタイルとしては、よりクールだと思っています。

VOCALOIDブームは何はともあれ企業先導のムーブメントなのに対して、UTAUは基本的には(これもVOCALOIDに対抗する勢力としてより技術的にも発展したと思いますが)有志のネタ的コミュニケーションや好奇心から生まれたもので、そこに企業的ブランド力はないけれど、最初はただの声素材であるものにそれぞれユーザーがブランドを形成していってる感じで。また基本的にはフリーウェアで、声素材もそれを提供するユーザーの数だけどんどん増えていく、しかもそのほとんどがフリーで…とDIYの感覚が強い。VOCALOIDの各ソフトよりはまだUTAUの各素材の方が少しは知ってるんですが、例えば重音テトの誕生もある種のブラックユーモアがあって、そのユーモアをより現実化していってる感じが良いです。
それにWinではもっと初期からリリースされてたので、VOCALOIDを使わずにUTAUを使うことってある種のニッチ感があったと思います(その貧乏くささもパンクス的な感じで、それを使ってできた音楽も商業ラインにのってるの以外では基本1から10までほとんどファンベースというのはインディ感がありますし)。


と、その楽器としてのシステム面はおいておいてスタイル的な部分で褒めまくってましたが、自分が何度かMacOS移植版を触った感覚では、個人的には操作性に欠けるという印象でした。少なくとも直感的に音を操作するという感覚はなかったです。まあほとんど説明書も読まずに参考サイトも見ずにやったのも問題ですが。
ただ音声ライブラリが多いので、多分マイナーものは本当にマイナーなので、メインVoに据えたりせずにコーラスに用いるなど先に書いた使い方なら、よりキャラ文化から離れた(それをプレイヤビリティとかに求めないならば)楽器的な側面は強いかも。Molesの一部では重音テトと駒音クウという素材を使っています。


楽器としてみてもスタイル云々いってる感じがしますが、これは楽器にも一つ一つキャラというよりもそれに付随する思想スタイルみたいなのがあると思ってて。
「僕はジャガーよりジャズマスターが良い!」とか「私はレスポールよりSG!」っていう個々の美的感覚のレベルではもちろん(楽器は見た目が大事というのは本当だと思います。もちろんどんな見た目が「良い」かは個的にわかれますが)、この操作性が云々とか実際の音とかのスペックなどより前に「自分の好きなアーティストの~が使ってたからこのベースにした!」ってのもありますしね。あとは楽器萌えみたいなのってあると思います。TR-808みた瞬間ウズウズするとか。
例えば、自分は高校からメインギターはずっとムスタングを使ってるんですけど、自分のプレイテクニックはおいておいてもやはりスペックの高いギターとは言えない。物凄く操作性に欠けるサウンドだし、目立つといえば目立つけどほっといたらアンサンブルで悪目立ちするし、たいして軽くもない。しょっちゅうチューニングが狂うのは勘弁なのでブリッジのバネは外してるので、実質、構造自体は逆位相のついたデュオソニックに近い。
でも、ムスタングはめちゃくちゃ好きで、手放せません。手のかかる子ほど可愛い(ムスタングって本当「おてんばな生娘」ってスラングにピッタリかと)という感じもありますが、それがシーンでどんな立ち位置であるとかアーティストでは誰が使ってるとかも含めてです。もちろん他にも色々な要素があります。ムスタングに関する書籍何冊も買い漁ってた時期もありますし。ムスタングを持つという一つのスタイル()ですね。


という風に合成音声でも、どの素材を使うかによってスタイルって出ると思ってて。それは各素材に配されたキャラクタとは別のベクトルでのスタイル…といってもどうしてもキャラクタと相関しますが。
VOCALOIDの初音を使うなら初音を使う人なりのスペック以外での思想が、UTAUの重音を使うのなら重音を使う人なりのスタイルがあると思います。と言っても、良い意味でラフに聴いてる側は、いちいちこれはVOCALOIDでこれはUTAUで、とか明確に区切ってないのかも知れません。でも、個人的にはそのエンジン部分の構造も含めて楽器としてのスタイルだなぁと思っています。
そういう意味でLaLaVoiceのある声質に固執するとか、CeVIOに固執してみるとかもですね。


それにUTAUの面白いところは、エディタ部分が統一されてるのでどんな素材を使っても良い=自分や周りの人の声をいちいちWAV録音して分解して、曲の中の歌声として再構築するとかもできるところですね。まあ実際やるかは別として最初から、(しばしば違法に)サンプリングされた素材を再構築して「歌」にすることを見越して設計されてますし。
最近、UTAUの素材として声を提供していた妻を亡くされた夫の方が生前の妻の素材から歌を作って公開した、というニュースをきいたことがあります(曲そのものを聴いた訳ではないですが…)。データベースに一度モジュールとして配置してしまうということですね。


とまあ褒めすぎた感がありますが、楽器としてみた時には「弾きやすさ」に相当する部分もかなり大切なので、現時点で曲の中でギミックとして使うだけとみてもUTAU-Synthは使い辛いという個人的な印象があるのも事実ですが。

あとはMac特化だとSugarCapeというボーカルシンセも試したことがありました。しかし個人的な感覚ではさらに操作性がなかったり、単純にユーザが少なく情報がほとんどないから手探りでしかできないという。。といってもUTAUがMacに移植される前のソフトなので、すごい方と思いますが。


などなど色々とMac側もWin占有のボカロコンプレックス(?)から策を講じた訳ですが、どれも画期的な成功を収めた感じはなかったような。UTAUはWin移植ですしね。それに(Winでも使ってる人みたことないから憶測ですが)Mac移植版より元のWinの方が相当使いやすいんじゃないのかと邪推してます。


まあそういう状況の中、やっとVOCALOIDが10周年ということでMacに対応したらしいのです。
正直、昨日もう既に発売してると知りました。最近、ソフトウェアじゃなくてハードウェアのシンセの方に関心がいってたのもあるかも。

ただ、これ現時点では2種類、「VOCALOID Editor for Cubase NEO」を買うか「Piapro Studio」が同梱されているソフト(現時点で『初音ミクV3』のみ)を買うかなんですね。

VOCALOID for CubaseというのでMacにも対応するらしいとは知ってましたが、正直完全にスルーしてました。
と言うのも、Cubaseユーザーではないからです。一応、Cubase6 Leはインストールされてるんですけど、ほとんど触ってなくてもっぱらLogicのみです。しかし、音声ライブラリはVOCALOID for Cubaseの方がいっぱいあるんですよね…まあYAMAHAさんなのでCubaseと抱き合わせで買わせようという感じなんでしょうけど。。

でも、これ個人的に思うのはマカーの自分みたいな楽器としてのミーハー層だったりコンプレックスを持っている人が期待としてたことって「MacOSのまま」はもちろん前提条件で「できればMac特有のDAW(例えばLogic、Digital Performer…後者は去年、Winにも移植されたけど)にプラグインとして利用可能」であることだと思えるんですよね。。
CubaseMacで動かしている人もかなり多いと思いますけど、個人的に自分の周りでCubaseを使っている人はWinユーザーしかいないし、何と言うか…エディタがCubaseしか使えないとなればCubaseってWinでも使えるし、やっとVOCALOIDMacにも!みたいな感覚ってそれほど大きくない気がします。個人的にはキャラクタ設定がなされておらず、楽器としての側面がより強いVY1とかがこっち側に入っちゃってるので残念。
まあと言ってもLogicユーザの面倒臭がりですが。でもクリプトン社の新エディタPiapro StudioでプラグインとしてVSTにもAUにも対応というのは先に挙げたマカーの期待してたことをかっちりやってるなぁという印象があります。

後は個人的にはもうキャラクタとして色んな文脈が混在しまくっている初音ではなく、他のソフトもPiapro Studioで使えるようになれれば、何らかの製品は欲しくなるかもしれない(お金ない上に実際合成音声は曲のギミック程度にしか使う気はないので実際には買えないが)。クリプトン社のものは恐らくPiaproエディタはつくとして、平沢さんもライブで使ってたMEIKOは一回試してみたい…
あとは先のMac音シリーズが遂にVOCALOIDMacに対応したことで、やっと音素材だけが存在するのでなく、正式にVOCALOID入りするとのことで、よりマカーフレンドリーなUIのエディタとかついてくれたりなどこちらも応援したいですね、マカーとしては。


でも何だかんだいってVOCALOIDは高い。このブログを書く為に検索するまで知らなかったんですが(それほどVOCALOIDって遠い存在でした)、1.5万以上しますしね。

ということでまたUTAUエンジンに戻ります。まあと言ってもMolesにおいても合成音声ってこれからほとんど使わないと思いますけど…