未だ然るべき形に接続せず

きゅーぽけのラルスがとりあえず作ったブログ

ゆかりねっとで遊んだレポート(ツイキャスやDiscordでボイロを使ってみた話)

 お久しぶりですラルスです。自分で自分のブログの存在を忘れてました。先日ゆかりねっとで遊んだ時のメモを忘れずに取っておこうということで、久方ぶりにこのブログにログインしました。というわけで、ツイCASやディスコでゆかりねっとを使う方法についてのレポートを自分用に書いていきたいと思います。

 

1.目的

 目的…?強いて言えば、ゆかりねっとの存在は知っていたから実際にどんなものか試して遊んでみたかったというのが目的。VTuber自体には興味はないが、技術には興味があって、一部は自分の手が届きそうなところがあったので手を伸ばしてみたというのが実際のところ。

2.装置

 まず箇条書きで使ったものをば。

①生協PC1台

②ゆかりねっと

③NETDUETTO β2…についてくる仮想サウンドデバイス

④ヘッドセット

⑤ボイスロイド+ 結月ゆかりEX

 

 ①と④と⑤については特に説明する必要なさそう。

 ゆかりねっととは、おかゆぅさんが作成した音声認識ソフトでVOICEROID等と連携させることができるものである。ボイスチェンジャーとは似て非なるもの。ボイスチェンジャーは音声自体を加工して別の音声にするが、ゆかりねっとでは音声をテキストにしてそれをボイスロイド等の音声読み上げ装置を用いることで、地声と別の音声を出力している。

 NETDUETTO β2についてくる仮想サウンドデバイスについて。NETDUETTOβ2自体はヤマハが無料で配布してる離れた場所でも音の遅れが少なくリアルタイムで音楽セッションができるソフト、らしい。このソフトをダウンロードすると汎用性が高い仮想サウンドデバイスもおまけどインストールできるので、そのおまけを今回は使う。今回は、ボイスロイドに喋らせた音声をマイク出力として出力することに使用した。以下このデバイスをラインと略する。

接続図は下の図1みたいな感じ。

f:id:RuralSusas:20180705201353p:plain

図1.接続図

3.原理

 人間の出した声をマイクから取り込み、ゆかりねっとの音声認識でテキストにし、それをボイスロイドで読み上げてラインでマイクとして出力することで、ディスコードやCASで生身の声ではなくボイスロイドの声でしゃべることができる。(自由に喋れるとは言っていない)

4.方法

 これ書く必要あるのか?ググってでよくないか?と思ってしまったので、簡単に大雑把にメモ程度に書く。

1.必要なソフトをダウンロード

2.接続して終わり

接続先について

 PC自体の再生デバイス・録音デバイスは既定の物を使う。録音デバイスのラインのプロパティでこのデバイスを聴くにチェックすると、自分でゆかりさんの声が聴ける。あとプロパティで音量いじらないと爆音になる、らしい。ボイスロイドの出力をラインとし、ディスコやCASの入力をラインにすることでこの二つがつながる。これを利用することでパソコンが一台ですむ。

5.結果

 ツイCASでの配信とDiscordでの通話を試みた結果、とりあえず両方ともうまくいった(自分の地声は出力されずゆかりさんの声だけが相手に聞こえた)が、うまくいかなかったパターンもあった。考察で症例と取った対策を記す。

 

6.考察・感想

というわけで失敗したパターンとその時取った対策について

 1.なんかもう色々うまくいかないパターン。

 ディスコをアプリ版ではなくブラウザ版でやると連携が上手くいかず変なことになる。理由はわからない、対策はアプリ版を使う。

 2.相手の声をゆかりねっとが認識してしまう。

 相手の声が大きいときにスピーカーから出た音が漏れてマイクが捕まえたのが原因か?入力感度を調整して対策したが、これが正しい対処なのかはわからない。

 3.ラインに音声が出力されない。

 理由は分からない。他のマイクの入出力は上手くいっていたので、ラインだけが調子が悪かった。トラブルシューティング使ったら治った。

 4.意図していないことをゆかりさんが喋る。

 これは仕組み上ある程度しかたない。音声認識が上手くいかないパターンと読み上げが上手くいかないパターンがある。

 a.音声認識が上手くいかないとき

 これはデバイスをどうこうできないので、自分で聴き取ってもらえるように喋ることを心がけることとある程度割り切ることが必要。

 b.読み上げが上手くいかないとき

 テキストの読み上げのミスは漢字の読み間違えが多いので、ボイスロイドの辞書登録を頑張る。

 と書いてもわかりづらいので実例を二つ挙げる。

パターン1.

僕「えーっと」→音声認識「8」→ゆかりさん「はち」

パターン2.

僕「選出」→音声認識「泉質」→ゆかりさん「いずみただし」

どちらも気を使って話すことと辞書登録で対策するのが無難そう。ある程度語感が似た言葉なら、視聴者が文脈で多分補正してくれるでしょう、おそらく、きっと。

 

 

 以下感想()

面白かった(小並感)。音声認識の精度は高いと感じたが、これを使って喋るにはコツがいるなと思った。これを使って配信してるVTuberは凄いと思う、Vtuber見てないけど。

 私はかつて「おっさん」を癒す美少女コンテンツについてある言説を聞いたことがある。「おっさん」の欲するものを最も理解できるのはおっさんだ。「おっさん」が望むものを「おっさん」のプロデューサーとかが出力し、それをアイドルだのアニメだのなんだのといった形で出力する。要するに「おっさん」は「おっさん」だけで完結することなく、アイドルだの声優だの何かしら出力装置としての女性のガワを必要としている。これを分解すると、「見た目」と「声」の二つの要素で構成されている。見た目はもはやイラストでよく、ここに「生身の女性」が介在する必要はない。となると、最後に残るのは「声」でここに「生身の女性」が必要なくなったとき、「おっさん」達は「おっさん」達だけで完結することができる、と。今回使ったゆかりねっとはこの命題にいかなる影響を与えるのであろう。VOICEROIDも元々「生身の女性」の声をサンプリングしたものだ。だがそれは最初だけでイニシャルコストのようなものであり、ランニングコストとして「生身の女性」を必要としない。語弊の無いように言い換えると、ランニングコストとして必要な人間の肉体の性別がなんであろうともはや関係がない。

 これが良いことなのか悪いことなのか、それは私にはわからない。VTuberを初めとする娯楽の変遷が将来どうなるかもわからないし、もしかしたら結局何も変わらないのかもしれない。私にできることは、ただ面白い時代に生まれたことを感謝し、色々な技術に手を出し知見を広め、時代の荒波でもがくことを楽しむことだけなのだろう。まぁ、自分が荒波だと思っていても溺れている人間にはそう思えるだけで、傍から見たらなんのことはない穏やかな海面が広がっているだけなのかもしれないが。

 

最後の方は勢いで気取りながら書いちゃって、何書いてるかわからなくなってるし、どうせ後で見たら恥ずかしくなるんだろうけど、折角だし残しておきます。もしこんな自分用のメモにここまでお付き合いいただいたかたがいらっしゃったら、ありがとうございました。

 

参考文献

おかゆぅ(2018) ゆかりねっと.exe

2018年7月3日アクセス

YAMAHA(2014)  NETDUETTOラボ

2018年7月3日アクセス

ironia(2018)Discordの通話でVOICEROIDや棒読みちゃんに喋ってもらったり、チャットを読み上げてもらったりする方法:ironiaのブロマガ - ブロマガ

2018年7月5日アクセス

みっふぃ(2018)

DiscordとVOICEROIDの連携方法とトラブルシューティング:みっふぃのブロマガ - ブロマガ

2018年7月5日アクセス

 

あくまで参考文献で転載ではないので無断でも問題はないはずですが、もし不都合があればご連絡ください。