logo

AKB都唱了什么歌?

骚年,听说过偶像吗?

欢迎收看一本正经胡说八道电视台。

「偶像」这个词你可能不陌生,既可以用来指「崇拜的对象」,比如马丁路德金那样光芒万丈的大大,也可以用来指演技有点抱歉但脸长得很好看的年轻明星,所谓「偶像派」。

如果对「偶像」这个词了解的多一点,你可能会知道日本是一个盛产「偶像」的国家,你可能还对日系少女偶像有这样模糊的印象:18未满的二次元或三次元女孩子穿着超短裙在舞台上蹦蹦跳跳,像一个突破次元壁的宅男养成系游戏。

嘛,某种角度上好像没错?

嗅到宅男们无处安放的钞票的味道,日本著名的制(大)作(宅)人(男)秋元康开始着手组建自己的偶像队伍,即AKB48,AKB是秋叶原(AKIHABARA)的缩写,48是社长名字的谐音。

48Group在唱什么歌呀

AKB大家族一直在不断扩张中,从2005年东京秋叶原竖起第一块AKB48的招牌开始,一直到2017年最新成立的、要在游轮上开剧场的濑户内海48(厉害了秋元康)。AKB大家族应该算是人数最多的偶像团体了吧?

虽然还有别的姐妹团,包括来势汹汹的欅坂46等,但这些年轻的姐妹团成立时间比较短,歌词较少,所以本文的讨论对象,主要是这5个团队:

  • AKB48:2005年在东京成立
  • SKE48:2008年在名古屋成立
  • NMB48:2010年在大阪成立
  • HKT48:2011年在福冈成立
  • 乃木坂46:颜值超高,2010年组建的AKB的官方“对手”

AKB大家族的歌很多,我是从日本歌词检索网站www.uta-net.com上爬取所需要的歌词数据的。

uta.net是一个不能复制的免费日文歌词检索网站,过去在网上还能看见这样的求助帖:

这是因为uta.net将所有歌词以SVG****标签的形式呈现在网页上,所以如果直接右键(虽然这个网站也禁止右键),只能得到一张图片。但如果用爬虫,这个问题其实很容易解决。我从uta.net上爬取了AKB48 600首歌的歌词,SKE48 171首,NMB48 147首,HKT48 53首,乃木坂46 125首。

Drawing 为了对AKB大家族唱的歌有一个较为细致的了解,我将每首歌的歌词进行日文分词,去除掉数字和标点符号后,对词性进行筛选,只留下名词、动词和形容词,并对每个词出现的次数进行统计。这样做是为了寻找「AKB这样的偶像在唱什么歌?」这一问题的答案,我的发现是:


当然是在唱「喜欢你」啦

在这五个姐妹团里,出现次数最多的、有意义的名词是:(即中文的“你”),在大家族中总计出现了1887次,如果加上あなた(也是“你”的意思)的903次,那么「你」就出现了2790次。

此外,表示爱情的词出现的次数也非常多,包括愛(爱情)815次,恋(恋爱)743次,好き(喜欢)683次,全部加起来有2241次,和“你”出现的2790次连起来,不就是在说“喜欢你”嘛。

<注:僕是“我”的意思>

「夢(梦想)」在五个团的歌中,一共出现了740次,秋元康曾经说过:“所谓AKB48,就是陈列梦想的橱窗”

<注:图片出自AKB48纪录片:《AKB48:一毫米外的未来》>

AKB大家族所有的歌词都是秋元康一个人写的(反正他自己这么说),所以歌词里大量使用的「夢(梦想)」一词也反映了秋元康对偶像的定义:「梦想」。

上面统计的绝对数量受到组合成立时间和歌曲数量的影响,比如,成立最早的AKB48和2011年成立的HTK48使用的「君」一词的数量相差近9倍,这是因为AKB48的歌曲数量远远超过HTK48所致。为了队每个组合使用的词语进行初步的横向比较,我在这里使用相对数量,即用某个词出现的总数除以歌曲总数,得到某个词在一个团的每首歌中平均出现的次数。

从中可以看到,虽然HKT48用的「君」一词的绝对数量远远比不上AKB48,但是平均算来,HKT每首歌都会出现2.13次的「君」,比AKB48的1.67次还要频繁。

对姐妹团之间计算横向方差可以看到,其实五个姐妹团使用这些词语的相对次数很接近,再一次印证了:甜蜜的恋爱歌曲和关于梦想的歌曲是AKB偶像大家族歌曲的最重要组成部分。


晴空 微风 少女

在五个团的歌中,经常出现的意象包括:

  • (心)564次
  • (风)443次
  • (手)419次
  • (眼泪)416次
  • (天空)415次

如果平常有听日文歌,可能现在立刻就能想起一两句带着上述意象的歌词吧。比如我看到「空」就立刻想到了AKB48的《青空よ 寂しくないか》(蓝天呀,会感到寂寞吗?)里的歌词:青空よ寂しくないか  季節は過ぎてく(想问问蓝天呀,难道你不会寂寞吗?季节一直在流逝),顺带一提,这首歌里也出现了 「風」一词。所以有日本小哥专门写歌吐槽日系流行歌都太过相似了!

<注:作者ともや,截图自微博秒拍视频>

事实上,这些意象在AKB姐妹团中出现的相对次数的确差不多

的确是不需要做大规模数据分析也能发现的事实呢(笑)


姐妹团真的有自己的特色吗?

如果之前对偶像不感兴趣,听到一大串48、46的,应该头晕了吧。如果对偶像有着「卖萌卖肉」的印象,可能会想:成立这么多团干什么?还不是换汤不换药。

我对这个问题也很好奇:AKB各姐妹团的歌,除了地域特色,还有什么其他自己的特点吗?

为了寻找答案,我首先把个姐妹团的歌词分类汇总。例如把爬取的600首AKB48的歌合在一起,得到一篇254166字的文章。对其他姐妹团的歌也做上述处理,最后得到五篇文章。

接下来问题就转换为:这五篇文章各自的关键词是什么?

为了找到答案,笔者进行了TF-IDF分析,听上去好像很复杂,其实只是简单的逻辑。

TF就是词频(Term Frequency),比如「梦想」一词在AKB姐妹团所有的歌里一共出现了740次,除以总歌曲数,就得到了「梦想」一词的词频。TF统计可以作为衡量某个词语重要程度的一种方法,比如「梦想」是AKB价值观中很重要的一部分,所以会在歌词里大量出现。

但当AKB大家族所有姐妹团都频繁使用「梦想」这个词的时候,拥有「梦想」,就不是某个姐妹团的特色,而是整个大家族的共性了。如果有个词,在别的姐妹团的歌里很少出现,但在某个特定的团的歌里经常出现,那这个词就是这个团的特色,也就是关键词

计算关键词,就需要在词频的基础上乘以逆文档频率IDF(Inverse Document Frequency),IDF与一个词在整个文档中的出现次数成反比。TF x IDF,相当于在计算词的重要程度时,为每个词赋以不同的权重。

总结一下,TF-IDF算法的思想是,一个词对一篇文档的重要程度,和这个词在该文档中出现的次数成正比,和这个词在整个文档中出现的次数成反比。

通过对五个姐妹团进行TF-IDF分析,计算出每个词的TF-IDF值后,我排序筛选出各团TF-IDF值前一百的词作为各团的关键词,发现:


有特色也不能忘记初心!

AKB的各姐妹团中,的确有一些关键词是一致的,其中最主要的、有意义的词是あなた(你)和好き(喜欢)。

「喜欢你」的心情,任何时候都想要在舞台上传达到呢。

单个词汇只有连缀成句子才能完整的表达思想,来看看把あなた(你)和好き(喜欢)还原到歌词里是什么样的:

  • あなた(你)

AKB48的《行ってらっしゃい》(路上小心)

あなたの夢が叶いますように

——希望你的梦想能够实现


SKE48的《チキンLINE》(CHICKEN LINE)

あなたを待っていたのに 混雑してるホームで

——站在拥挤的月台上,我一直在等你


  • 好き(喜欢)

AKB48的《Everyday、カチューシャ》(每天的喀秋莎)

言葉にできないよ 君が好きだ

——语言无法形容 我喜欢你


HKT48的《片思いの唐揚げ》(把单相思做成炸鸡块吧)

男の子好きになるとは  小さい顷からイメージ涌かなくて

——喜欢上了一个男孩子,从小到大从没有过这样的感觉


微妙的差别还是存在的

还有一些关键词是各个姐妹团所特有的,这里说的“特有”是基于对TF-IDF值的比较。


AKB48有猴子出没

AKB48特有的关键词包括:chu(亲亲)和ウッホ (唔吼),这两个词在其他姐妹团的歌中都没有出现

Chu是因为AKB48有一个衍生小分队てんとうむChu(瓢虫chu),这个小分队的歌里出现了很多chu,除此外全队的《涙の湘南》中也出现了多次chu。

ウッホ (唔吼)是因为AKB48的Team K 曾经有一位成员秋元才加很像大猩猩,所以专门写了一首歌ウッホウッホホ(唔吼唔吼吼)。

可以看到,这两个词并不是AKB48歌里普遍存在的,而是在某几首歌中反复、大量出现,同样的情况也出现在其他姐妹团的关键词里。


蓝天下的SKE48

SKE48特有的关键词中,像“dirty”、“secret”之类的,也是因为在某几首歌中大量出现、且其他团的歌里几乎没有出现,所以获得了比较高的TF-IDF值。

只有在SKE48的歌中,青空(蓝天)的TF-IDF值排进了前100名,且青空(蓝天)在SKE48的歌里的分布很均匀,在《青空片想い》、《賛成カワイイ!》、《チョコの奴隷》、《手紙のこと》、《ときめきの足跡》等10多首歌中都有出现。

SKE48每首歌平均出现0.16次「青空」,是NMB48的四倍、AKB48的两倍,从中可以发现,SKE48使用「青空」的频率的确高于其他姐妹团。蓝天下的SKE48好像也不错呢。

注:图片是SKE48 2nd Single: 青空片想い的单曲封面


不想输的NMB48

NMB48特有的关键词中,「負け」(输,歌词中一般是“不想输”)吸引了我的注意力,以大阪为中心的NMB48给我的印象是一个很会唱歌的CENTER山本彩和一个可爱的钓师(很吸引饭的意思)迷路姬,从来没有产生过“不服输”的印象,而有趣的是,「負け」一词也并不是集中出现在NMB48的某一首歌里的,而是在多首歌中都有提及。


HKT48很活泼

感觉肥秋写歌好累啊,HKT48是姐妹团里关键词中语气词最多的 一个团,包括什么イェーイ(yeah~)、 wanna之类的,大概是符合年轻小妹妹阳光活泼的感觉?


高冷?的乃木坂46

乃木坂46特有的关键词包括: 孤独(孤独)、運命(命运)、強く(坚强)

其中孤独一词在乃木坂46的歌中出现的平均次数远远超过其他姐妹团,居然是HKT48的5.7倍!从上图可以看到HKT48和乃木坂46对孤独(孤独)、運命(命运)、強く(坚强)三词的使用相差很大,活泼的小妹妹可能不适合“孤独”,但是漂亮的小姐姐加上“孤独”就会多一种韵味吧~


所谓偶像,就是梦想的橱窗

其实在AKB大家族不断组阁(成员在姐妹团之间相互移动)的今天,不同的姐妹团之间的的差距其实越来越小了。而且偶像歌曲的主题和大部分的流行歌的主题也差不多,比起听歌,宅男可能更喜欢看脸,所以AKB被称作日音毒瘤。但我是因为喜欢AKB的歌词才渐渐对这个偶像组合有所了解的,虽然基本停留在路人粉的层面,不过也在她们的歌词中体会到了各种各样的少女心情,觉得非常美好呢。

以上,是一个卖安利的人的肺腑之言。谢谢你看到这里~