音声データセットMozilla Common Voiceに関する覚え書き

2023-04-262026-03-30

URLをコピーしました！

初めての方、初めまして。そうでない方、こんれる🐻
バ美肉凡夫VTuberの夜御牧（やみまき）れるです❣

Mozilla Common VoiceはCC0（≒パブリックドメイン=著作権放棄）で提供されている音声データセットです。運営しているのはWebブラウザFirefox（最盛期はIEに次ぐシェアのあった……）の開発などを手がけているMozilla Foundationです。

「話者の身元を特定しないこと」という条件はありますが、利用規約上各話者はCC0で公開されることに自ら同意しており、かつこのプロジェクトに参加したりしなかったりすることで何らかの不利益（たとえば、Firefoxが使えなくなるとか）が発生するわけでもない字義通りのボランティア※によるものです。

※ボランティアの原義は「志願兵」だよ！
　「ただ働きする人」じゃないよ！

なので別に有償ボランティアは矛盾ではないのである……Common Voiceには何も直接的なリワードもありませんが。

Mozilla Common Voiceの内容

全世界で何万時間という膨大なデータですので、全世界ではなくまず言語ごとに分かれています。

Mozilla Data Collective

Common Voice | Mozilla Data Collective Common Voice is a free, open source platform for community-led data creation. Anyone can preserve, revitalise and elevate their language by sharing, creating an…

バージョン13.0では、日本語話者は73時間・3.42GBですが、英語話者の検証済み音声はなんと2,429時間・76.39GB（！）もあります。
日本語版だと同一話者で1000ファイル以上あるものはあまりないので、今回は英語話者のデータを用いました。が、でかい……。

さすがに数十GBもあると、その倍のストレージ容量を空けて一括ダウンロードして展開して……は躊躇しますが、Hugging Faceからであれば音声MP3本体は4万ファイル毎に分割したtarballをダウンロードできます。
ただし、Hugging FaceからのDLにはアカウント登録が必要です。

困ったこと

録音品質がまちまち

ご厚意で参加されているボランティアであって別に発話のプロフェッショナルではないので、録音品質がまちまちです。そもそもが音声認識用に集められているデータです。リップノイズや反響音みたいな機械的に取り切らないノイズはもちろんのこと、データによっては環境音もけっこう入ってたりします。

こればかりは仕方ないので、ある程度録音の質が良いデータを絞りつつ、多少ノイズが入っててもいいような使い方をするほかないですね。。

メタデータTSVが巨大で処理に時間がかかる

transcript内のTSV（タブ区切りデータ）は、CSVの区切り文字をタブに変えただけなのでExcelなどの表計算ソフトで読めますが、言語によってはデータ量が多すぎ、読めるだけになってほぼビューワとしてしか使えません。

ExcelやLibreOfficeは105万行弱までのデータしか扱えませんが、英語話者のtrain.tsvは100万行ちょっとあります。ギリギリです。
Googleスプレッドシートは1,000万セルしか扱えません。

いちおう、LibreOfficeで100万行まるまる読み込ませてもピボットテーブルは使えました。さすが……❣

しかし100万行のデータとなると読み込みと保存だけで数十秒待たされます。Googleスプレッドシートに変換しようとしたら大きすぎると怒られました（手作業で分割して写せばいけたかもしれませんが）。
100万行に下手な数式を打とうものなら時間単位で固まります。1行10ミリ秒の処理だとしても3時間ぐらいかかる計算になりますからね。。

最初から絶対使わないなと思ったデータは削りつつ、重い突合処理はPython書いてやってました。