Search
Close this search box.

「你有 freestyle 嗎」超紅,但中國嘻哈在唱啥?他用六百萬字歌詞分析告訴你

【我們為什麼挑選這篇文章】

因為這篇讓你知道數據分析可以這麼好玩。你一定聽過凡哥的「你有 freestyle 嗎」,但你可能不知道 rapper 到底都在唱什麼。用 Python 分析了六百萬中國的嘻哈歌詞,還抓取了英美、台灣和香港的資料做比較,得出的結論真的非常有趣!讀完以後想去看看「中國有嘻哈」到底有多嘻哈了。

(責任編輯:謝秉芸)

 

文/貓弟 Azz

當「你有 freestyle 嗎」火遍全網之後,一個個你從來沒聽過的 rapper 像加拿大土撥鼠播報春天一樣冒出洞口 – 你突然感覺到,媽的,HipHop 還真要成主流了?我努力努力改天還靠這個吃飯嗎?

然後,你作為一個對 HipHop,尤其是中國的 HipHop 毫無了解的吃瓜群眾,你自然會好奇以下三個問題:

HipHop 到底在唱些什麼?
各個國家和地區的 Rapper 們想要說的聊的唱的都有哪些特色?
如果想當一個 Rapper,我應該怎樣寫詞才能緊跟潮流又不會離題太遠?

所以我用 Python 抓取了美國,英國,台灣,香港,中國大陸四個地區,總共六千萬的歌詞,其中包括大陸 600 萬的歌詞,做了一些數據分析的工作,目的就是給你想要的答案。

幹活靠爬蟲

我的數據源選了蝦米音樂,因為蝦米有詳細的嘻哈音樂分類,其它的如網易雲音樂,QQ,Spotify 的,iTunes 的,StreetVoice,要麼欠缺對歌手音樂風格的分類,要麼分類粗糙,沒法當做數據源。

選定蝦米音樂之後,寫了好一會代碼,抓取歌詞的爬蟲開始蹭蹭工作了⇣

爬蟲一般會面對兩個問題 –

1.代理問題
頻繁抓抓網站的頁面,IP 很容易被封。於是寫了個抓免費代理的爬蟲,抓了八百多個代理 IP,夠用了。

2.效率問題
10 萬首歌,即使是 1 秒一個請求,那得 27 個小時,我可等不了 27 個小時。於是我決定開 10 個線程,三小時程序就能跑完。

……然後在三小時之後,我收穫一個約 100M,49419 首歌的數據庫。看著這滿滿的記錄,感受到蜜蜂辛勤搬運後看著蜂蜜的喜悅,我相信,關於 HipHop 歌詞的秘密全部都包含在裡邊了。

接下來,就是一些數據清洗,處理,分析的工作。

蝦米的歌詞都是用戶編輯上傳的,格式不適用數據分析,所以我得把無用的符號,編曲,作詞之類的訊息除去(格式統一有多麼重要啊朋友們),然後中英文各自分詞。

文需要去停詞(對數據分析無用的詞,一般沒有實際含義,如 is,on,at,which),大小寫變換,以及詞形變換,英文中詞彙有單複數,各種時態,為了易於分析,需要還原為詞幹。另外不管是中文還是英文都需要詞性標註,一般來說分析也就分析名詞和形容詞,這些現成的開源庫使用(此處省去 1000 萬字)。

總之,我都搞定了,以下就是分析結果。

關鍵詞

我們先看看大陸地區的 rapper 歌詞裡有都寫啥關鍵詞⇣

「世界」和「時間」佔據首位,「老子」、「兄弟」、「baby」、「money」、「bitch」、「real」等詞倒是讓說唱歌手的形象呼之欲出。rapper 的詞裡頻繁提到「音樂」,「歌詞」,「旋律」,「歌曲」,可見他們對自己的音樂非常在乎,嘻哈音樂由於有 freestyle 的文化,對親自寫詞有要求,否則就不「real」,從節目中他們 對偶像 rapper 的 diss 也能看出來。

接著,我們來看看與其他幾個地區的關鍵詞對比↓

看起來 rapper 的生活差不多,無論大陸還是台灣,都喜歡喊「baby」,身邊都有一群「兄弟」和「朋友」,有「夢想」,平時都在唱「hip hop」,有「煩惱」了就罵罵街。

亮點是美國的關鍵字 top1 是「nigga」,這個和帶有種族歧視意味的「nigger」還不是一個詞。關於這個 Tupac 有過一個有意思的定義。

nigger : a black man with a slavery chain around his neck.
nigga : a black man with a gold chain on his neck.

豪車

接下來來,為了了解 rapper 的生活狀況,我開始分析一些常見詞彙在歌詞中出現的頻率。饒舌歌手們的生活想必少不了豪車,出門騎摩拜可能有被開除 rap 籍的風險。

感謝維基提供汽車品牌頁面,並且很貼心的分了英語名稱,中國大陸譯名,於是我又寫了個爬蟲把品牌名稱抓下來,然後統計數據庫中每個品牌出現的頻率。

這是各汽車品牌在國內 16284 首嘻哈歌曲中出現的情況,在一首歌的歌詞中出現算一次,總共約有 400 多首歌中出現至少一次汽車的品牌名字。可以看出,饒舌歌手喜歡寶馬和奔馳(賓士)的很多,特點只有一個,就是貴!其實夏利,桑塔納等車也有不少歌提到,但一般表達的是消極情緒。

喝酒

然後我又統計了一下 rapper 們都喝什麼⇣

紅色是中國饒舌歌手的數據,黃色是總數據

看來饒舌歌手不那麼喜歡喝威士忌,排在威士忌前面的還分別有龍舌蘭,白蘭地,蘭姆酒,限於圖表大小我沒將這幾個列入圖表。香檳作為富有的象徵,遙遙領先,不過中國的饒舌歌手似乎處於消費尚未升級的水平,啤酒排在首位。外國人比較喜歡琴酒,國內的饒舌歌手幾乎沒提到,雖然琴酒一般用來調雞尾酒,但是雞尾酒提到的次數也是少得可憐。

絕對伏特加在「中國有嘻哈」做廣告確實是找對地方了,rapper 們對伏特加有高於常人的偏好。

所以 rapper 們都怎麼喝琴酒?我看了看歌詞。

「Sippin’ gin and juice Layin’ underneath the palm trees」,gin & juice 是最常見的组合,由於著名 rapper Snoop Dogg 發過同名單曲,rapper 們特別喜歡。

「Think we a joke? I’ll put three in your throat

Drunk off gin and C&C; coke then we flee in a boat」,琴酒兌可樂,聽起來不錯。

「Rolling weed in raw papers, taking shots, gin got me faded

If I get back to your spot, won’t know how I made it」,一邊捲大麻葉一邊喝金酒!

「Havin’ fun with some bitches smokin’ weed in the ride

On the corner with my dogs drinkin’ gin to survive」,這個 rapper 跟一隻狗喝 gin,看来故事很多。

「Swimmin’ under water like I’m aquaman

I used to drink gin now it’s vodka man」,這個 rapper 喝腻了,從琴酒轉到伏特加陣營……

DRUG

然後,我們來看一下管製藥物的情況⇣

果然大家還是喜歡大麻,不只是饒舌歌手啦

社會主義核心價值觀 

饒舌歌手喜歡互相 diss,所以他們 diss 時會罵些啥?讓我們來看看他們都罵了什麼髒話。

這個統計有個小插曲,第一次統計發現一個中文髒話都沒有,還以為淨網運動成功了,結果發現分詞的詞庫裡壓根就沒髒話的詞彙,重新手動加入詞庫後就好了。

左邊是所有數據的出現次數,右邊是中國說唱的出現次數

大陸 16284 首歌有 2496 首出現髒話,髒話率約為 15%,而非大陸的數據中,33134 首歌有 13217 首出現髒話,髒話率約為 40%。

總是來看,我國歌手比較符合社會主義核心價值觀。我試著把「damn」和「shit」這兩個不那麼「髒」並且口語常見的詞在國外的統計中去掉,最後髒話率還有 33%,比例遠遠高於大陸。一個推測是,英文髒話詞彙在歌詞中更容易押韻,或者唱起來流更好把握。另一個可能是審查原因,早有「in3」這樣的樂隊英文歌詞原因被禁,中國的 rapper 創作起來可不能太奔放。

韻腳

最後我們來探討一下 rap 裡的押韻

在「中國有嘻哈」中我們看到有單押,雙押,三押,各種層出不窮的押韻,旋律,押韻,節奏是說唱歌曲三個很重要的評判標準,一個好的押韻,能讓歌曲的 flow 更加流暢。

那麼我們怎麼才能唱出酷酷的押韻呢?我從歌詞庫中取出所有歌詞,分詞,然後根據韻母,聲調分類,然後得到了一個押韻詞彙文件。

韻腳的分佈挺有趣的,我統計了一下出現前十的兩字詞語韻腳⇣

可以看出,i i 這個韻腳是最容易押韻的。下圖的這個韻腳的部分詞彙「勢利」,「世紀」,「日誌」,「秘密」……

看著這些詞彙,我就情不自禁 rap 起來了,drop the beat

結語

歌詞分析暫時到此為止,其實還有更多的工作可以做,例如統計歌手的詞彙量,國外的 Matt Daniels 統計了饒舌歌手的詞彙量,跟莎士比亞的詞彙量做對照。

以上應該能告訴你中國到底有什麼樣的嘻哈了。數據是一面鏡子,折射出來的不只是現實,其實還有魔幻。

(本文經 GAMECORES 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈我做了六百萬字的歌詞分析,告訴你中國 Rapper 都在唱些啥〉。)

延伸閱讀

哪款名車最保值?饒舌歌手的開源資料庫告訴你:大推賓士別買保時捷
數據分析也能預測美劇劇情?博士生神預測《冰與火之歌》龍媽要領飯盒了
誰才是《權力遊戲》真正主角?數據分析大揭秘:龍母出場率第三,真主角竟是他!