VOCALOID曲の○○率は異常?-2012年版-

ちょっと前に西野カナの「会いたい」率は異常、というネタが各所で取り上げられて話題になってた。
歌詞を書く人が同じ人で、同じようなテーマの曲が多かったりすると、どうしても使うフレーズが似通ってくるという、まあありがちな現象を少し面白おかしく取り上げたネタではあるのだが。
ここでフト思ったのが、数多くの人が投稿するVOCALOID楽曲の歌詞だと、頻繁に登場する単語ってどんなもんがあるんだろう、ということ。

http://matome.naver.jp/odai/2128893489144617201

ボカロ曲は歌詞のテーマも、恋愛モノや応援歌や季節モノ、果てはSFストーリーを曲に載せて語るものまで多種多様。そんな状況にも関わらず、なんとなく人気になる曲の詞には似通った性質があるなあという雑感を抱いていた。ので、その歌詞を構成する単語のトレンドを調べてみたら見えてくるものがあるんじゃないかと。

ちょうど最近、形態素解析Mecabというソフトを色々と弄っていて、これの単語分割機能がそこそこ精度が高く取得できるので、せっかくだから歌詞の取得方法も含めて全自動化して単語の集計処理をしてみようかと言うことで、この年末年始にシコシコと準備をしていた。

結論から言うと、実際には完全自動化とはいかず90%ぐらいの自動化に留まった。とりあえず、歌詞取得にあたっては有志のVACALOID曲データベース(?)であるところの、「初音ミクWiki」にはかなりお世話になった。と同時に、厳密にはデータベースではないので、データ抽出の過程で色々と問題があってどうしても手動での修正や目視での確認が必要になったりもした。

トップページ - 初音ミク Wiki - アットウィキ

また単語分割自体も、歌詞というクセのある文章にかけた場合に色々と厄介な問題も出てきたりはしたのだが、この辺りは話すと長くなるので詳しくはまた別の機会に。

対象となる曲

世の中に公開されてるすべての曲をやるような気力も流石にないので、以下の条件を満たす曲に絞って単語を集計してみた。

  • 2012年1月1日から12月31日までにニコニコ動画で公開された曲
  • VOCALOID殿堂入り」(10万再生以上で付くタグ)または「VOCALOID伝説入り」(100万再生以上でry)のタグがついている
  • 再生数が10万を超えていること(フライングでつけられてる場合があるので)
  • 初音ミクWiki」に歌詞が登録されていること
  • 既存曲のアレンジやコピー曲ではないこと(ただし歌詞に大幅な変更があるものは対象とする)

これを2013年1月7日23時59分時点で自動収集を開始したところ、上記の条件を満たした曲は277曲あった。
抽出した単語数は9691種類。集約し切れなかった同音単語や除去しきれないノイズ的な単語も多いので有効なのは9000弱ぐらいか。

結果発表の前に

まず紹介の仕方として、困ったことに多いものから順番に並べていっても、あまりに普通すぎる単語が並ぶばかりで面白みにかけてしまう。
ちなみに、最も多く使用されてた単語は動詞の「する」(使用総数984回、使用曲数231曲)。
その後に続くのも、後述の人を指す単語を除いても、「無い/ない」(418回)、「なる」(349回)、「この」(268回)、「いる」(259回)、「もう」(241回)、「その」(223回)…という、文章を成立させるために単語同士をつなぐ意味合いで使われるような単語ばかりになってしまう。
そりゃそうだろうね、といった感想しか生まれないのでランキング形式にはせず、使用総数がそれなりに多くて単体で意味をもつ単語をピックアップする形式で紹介していく。

代名詞、およびキャラ名編

歌詞のなかで人を指す単語はとにかく登場する。実質、ランキングにしてもほとんどがこれで埋め尽くされるというレベル。ここでは特に多かった5つを紹介。

「君」(「きみ/キミ/君」の合計)

使用総数は642回、使用曲数は151曲。
もっとも多く使用した曲は「ODDS&ENDS」「添い遂げたアンドロイドへ」(各15回)
D

「ODDS&ENDS」はyoutube版の動画から。「添い遂げたアンドロイドへ」は歌詞の中で『ミキミキミキミ 君の唇に 』のように、意味的には『キミ』に当たる単語を連呼する箇所があるのだが、形態素解析ソフトは連続するカタカナを一単語として判断するためカウントされておらず、自動化が目的なので個別に判断することも やってられない 難しいのでスルーした。ためしに、これらをきちんとカウントしてみたら使用回数は31回になった。

「僕」(「ぼく/ボク/僕」の合計)

使用総数は574回、使用曲数は127曲。
もっとも多く使用した曲は「先生と少女騒動-第一審公判-」「ただし性的な意味で」(各15回)
DD

別単語として、『僕ら/僕達』は使用総数73回、使用曲数34曲。
ちなみに、『君』の使用回数トップ曲「添い遂げたアンドロイドへ」での『僕』の使用回数も11回でベスト5に入ってる。

「誰」(「だれ/ダレ/誰」の合計)

使用総数は234回、使用曲数は113曲。
もっとも多く使用した曲は「ありふれたせかいせいふく」(9回)
D

代名詞は同じ曲の中で何度も使用されるケースが多いが、『誰』は1曲平均2回程度と低くなっている。
そもそも『誰』を代名詞として扱っていいのか、という疑問はあるが一応人を指す単語ということで。

「私」(「わたし/ワタシ/私」の合計)

使用総数は223回、使用曲数は77曲。
もっとも多く使用した曲は「もっと、してよ。」(11回)
D

『あたし/アタシ』の場合は使用総数52回、使用曲数18曲。

「あなた」(「あなた/アナタ/貴方」の合計)

使用総数は163回、使用曲数は59曲。
もっとも多く使用した曲は「来世デ逢イマショウ」(12回)
D

『貴女』は使用総数3回。『貴男』は1回だった。


全体的に自分を指す言葉は『私』より『僕』、相手を指す言葉は『あなた』より『君』という傾向が強い。
男声ボカロで高再生数を稼ぐ曲も増えているとは言え、2倍以上の開きがある。ボクっ娘大勝利である。
ちなみに他の代名詞としては、『みんな/みな/皆』が90回、『自分/ジブン』が63回、英語では『I』と『you』がともに46回。

ボカロキャラクター名としては、ぶっちぎりで多かったのが『レン』(111回、3曲)
だいたいコイツのせい。
D

他は『ミク』でも3回程度、ただし『みっくみく』のような単語は抽出できていない。『リン』は14回使われてた。↑の1曲だけで。

使用総数

人を指す単語および意味の希薄な単語以外を対象に、とりあえず名詞、動詞、形容詞のあたりで使用総数の多かったものを10個ほど。

「世界」(「世界/セカイ」の合計)

使用総数は210回、使用曲数は100曲。
もっとも多く使用した曲は「ジッタードール」「転生少女と転生少年」「童心少女と大人世界」(各7回)

DDD

『世界中』は別単語扱いで8回(3曲)使用されている。

「何」(「なに/ナニ/何」の合計)

使用総数は190回、使用曲数は102曲。
もっとも多く使用した曲は「とても痛い痛がりたい」(12回)

D

別単語の中では『何もかも』は8回(6曲)使用。
『何』を「ナン」と呼ぶ場合は除外(50回。中途半端な単語の割に多いのは、形態素解析ソフトの方で「何回」のような単語を「何」+「回」としてカウントしてしまっているかららしい)

「今」(「いま/イマ/今」の合計)

使用総数は174回、使用曲数は95曲。
もっとも多く使用した曲は「逃避ケア」(8回)

D

『今』という字を含む単語も多く、『今日』が82回(50曲)、『今夜』が25回(14曲)、『今宵』が20回(12曲)となっていた。

「手」

使用総数は171回、使用曲数は93曲。
もっとも多く使用した曲は「添い遂げたアンドロイドへ」(8回)
なんつーか、この曲の単語連呼率すごい。
別単語で『手遅れ』が10回(9曲)使用。

「見る」

使用総数は166回、使用曲数は100曲。
もっとも多く使用した曲は「家に帰ると妻が魔法少女のコスプレしています。」(5回)

D

『見える』は72回(53曲)、『見つける』で27回(22曲)、『見せる』で21回(19曲)と活用形の単語がそれぞれで数多く使用されている。

「知る」

使用総数は141回、使用曲数は80曲。
もっとも多く使用した曲は「六兆年と一夜物語」(16回)
1曲あたりの出現数がやたら多いので歌詞を見てみると、サビで毎回連呼している。ちなみに『本当に』も連呼しており、使用総数25回のうち8回をこの曲で占めていた。

D

別単語で『知れる』は4回使用。

「言う」

使用総数は138回、使用曲数は74曲。
もっとも多く使用した曲は「語る悪魔と機関銃」(9回)

D

別単語で『言える』は27回(20曲)、『言い訳』は12回、9曲で↑の曲がうち4回を占める。

「声」

使用総数は130回、使用曲数は74曲。
もっとも多く使用した曲は「ODDS&ENDS」(7回)
別単語で『歌声』は5回、『叫び声』と『泣き声』でそれぞれ4回使用されている。

「目」

使用総数は129回、使用曲数は87曲。
もっとも多く使用した曲は「想像フォレスト」(6回)

D

別単語で『目覚める』で9回、『目指す』で7回使用されている。また、『眼』では15回(11曲)で使用されている。
ちなみに『涙』は63回(47曲)使用。

「夢」(「ユメ/夢」の合計)

使用総数は128回、使用曲数は77曲。
もっとも多く使用した曲は「再教育」(6回)。

D

別単語で『夢見る』で20回(17曲)、『夢中』で9回使用されている。

ピックアップ

以下は、テーマごとに似たような意味合いの単語をいくらかまとめる感じでピックアップしてみた。

「好き」(「すき/スキ/好き」の合計)等、ラブソング系

使用総数は140回、使用曲数は45曲。
もっとも多く使用した曲は「一途な片思い、実らせたい小さな幸せ。」(41回)。凄まじい偏り方で実際に歌詞を見てみるとなんだか納得の世界観である。終盤にじゅうたん爆撃地帯がある模様。

D

別単語で『大好き』は20回(15曲)使用。

いわゆるラブソングというジャンルの曲では数多く使われるイメージがある。ので、この単語は使用曲数が思ったより少ないという印象だった。
他にもラブソングでよく使われそうな単語で言うと、『愛』が91回(40曲)、『愛す』が58回(37曲)、『愛しい』が28回(15曲)、『恋』が69回(38曲)、『love』が20回(4曲)。
ラブソング自体があまり勢力的に強くないということなのか、まあ対象277曲のうち15%ぐらい占めてると考えると十分強いといえば強いのだが。

D

ちなみに、『愛』をもっとも多く使用した曲が「ラブソングを殺さないで」(11回)、ちょっと面白い。

「痛い」等、ネガティブ系

使用総数は108回、使用曲数は23曲。
もっとも多く使用した曲は「とても痛い痛がりたい」(33回)もはやタイトルそのまんま。
ちなみに、2位の「週刊少年バイバイ」(22回)と合わせて、この2曲で『痛い』使用率の過半数を占めている。凄まじい連呼率である。

D

また、形態素解析ソフトの仕様らしく『いたい』と平仮名で書くと動詞の『いる』の方に解釈されてしまう確率が高い模様。

ネガティブなイメージの中でも特に攻撃性を含んだ単語は、『死ぬ』が54回(30曲)、『ばか/バカ/馬鹿』が36回(23曲)、『殺す』が23回(18曲)、『傷つける/傷つく/傷』がまとめて31回(24曲)。なんだか最近人気のVOCALOID曲ではこの辺りが頻繁に使われているイメージがあっただけに、こちらも思いのほか少ない気がしてる。

ネガティブイメージとしてはむしろ内向きな感情を表す単語の方が使用曲数も多いようで、『泣く』108回(69曲)、『消える』97回(54曲)、『終わる』95回(52曲)、『忘れる』79回(52曲)、『嘘/ウソ/うそ』70回(39曲)。アッパー系よりダウナー系の曲のほうが支持が高い傾向にあるのかもしれない。

「笑う」等、ポジティブ系

使用総数は114回、使用曲数は77曲。
もっとも多く使用した曲は「外見と内面」(6回)。

D

別単語では『笑顔/えがお』で55回(41曲)、『笑み』で18回(12曲)、『微笑む』で14回(11曲)など、『笑』を含む単語は多種使用されている。

他にもポジティブイメージの単語として『生きる』81回(50曲)、『しあわせ/シアワセ/幸せ』で65回(33曲)、『楽しい』で44回(30曲)、『優しい』で51回(36曲)。ただ、歌詞全体で見るとネガティブの裏返しで使われているのも多いような…。
「外見と内面」の歌詞全体を見ると内向きネガティブな印象が強いし、『しあわせ/シアワセ/幸せ』がもっとも多く使用されてる「こちら、幸福安心委員会です。」(16回)なんて、アッパー系ネガティブの見本のような歌詞だし。

D

名詞、動詞、形容詞以外の品詞について注目した場合
  • 感動詞は『嗚呼/ああ』155回(43曲)
    ただし、もっとも多く使用している曲の「麻雀中毒」が76回となっている。それを差し引いても2番目以降の『ほら』74回(40曲)や『さあ』66回(36曲)には勝っているが。
  • 接続詞は『また』130回(69曲)、『でも』63回(42曲)、『ただ』62回(40曲)
    逆接系が『それでも』54回(37曲)、『だけど』25回(15曲)と割と上位に複数来ている。
  • 副詞は『もう』241回(113曲)、『そう』125回(73曲)。
    以降は、『どう』『ずっと』『もっと』(各87回)『きっと』(85回)『まだ』(77回)とあまり回数差が開くことなく続く。

D

そのほか
  • 『うた/唄/歌』44回(28曲)、『歌う/うたう』46回(28曲)。
    いわゆる「歌姫」的な曲はボカロ黎明期には多かった印象だが、最近はそれなりな数に収まってきたのか。
    ちなみに『聞く』59回(36曲)、『音』56回(35曲)使用。
  • 『こころ/ココロ/心』123回(81曲)。
    ここはもう定番というべきか。ただ、『心』という字を使った単語は派生が少なく『心臓』6回、『心理』『心配』各5回となっている。
  • 『夜』76回(46曲)。
    夜をモチーフにした曲も意外と多い。また、夜は派生する単語が様々で、『今夜』25回(14曲)、『夜空』12回(9曲)、『夜明け』『月夜』各9回などとバリエーションも豊富。
  • 他に時間的な単語としては、『あした/明日』76回(50曲)、『未来』66回(43曲)、『時間』55回(42曲)など。
  • 『はる/春』8回(6曲)、『夏/なつ』19回(11曲)、『秋』3回(3曲)、『ふゆ/冬』3回(3曲)。
    四季の中では夏の人気が圧倒的、『夏休み』も3回(2曲)使用。
  • ほかにも『わかる/分かる』117回(71曲)、『空』94回(57曲)、『届く』74回(49曲)、『変わる』58回(42曲)、『顔/かお』52回(39曲)などなど。
    そういえば、冒頭のネタで使った『会いたい』関連の単語(『会う』+『〜たい』に分割される)は『会う』47回(26曲)、『会える』24回(18曲)、『出会う』23回(14曲)となっていた。

まとめ

疲れた…。こんなに長く書くつもりもなかったのに、思いのほか長文になってしまった。7日に集計してからダラダラ1週間も書いてしまった。

全体的には、単語から見るイメージの偏りは想像したほどには無い印象。攻撃的な単語がもっと多いと思ってたけど、むしろ欝系、内向系の単語の方が多かった。攻撃系やラブソング系の単語は1曲の中で複数回連呼されるケースが多いので、テーマのはっきりした曲は同じ単語を使って印象を強める傾向があるのかも知れない。
逆に雰囲気や世界観を重視する曲の歌詞の場合は、あまり連呼せずに単語を一つ一つ切り替えてきてる気もする。この辺りは1曲あたりの単語種類数を集計したり、偏差を算出する等したほうが分かりやすくなるかもしれない。

それにしても『世界』は使われてるなあー。実は今回の集計の前に、期間を設けず100万再生以上の曲のみを対象に集計してみたのだが、やはり『世界』は代名詞や意味の薄い動詞、接続詞などを除けばトップの総数と曲数を誇っていた。それでなくても、対象曲の40%ぐらいで単語として登場するというのはやはり多い。

頻出の単語をざっと見ていて思うのは、『目』『手』『声』みたいに身体のパーツが頻繁に登場して、それが『見る』『言う』『知る』みたいな感覚の入出力を行って、やがて『好き』『笑う』『泣く』『痛い』みたいな感情の発露につながって、最終的には『世界』とか『夢』とか『空』みたいな広い大きい概念に通じていく〜みたいなストーリーで歌詞が構成されているのだろうか。
あ、なんか綺麗にまとまったぽい。