本论文是投稿作品的作者|斑斑斑比
大数据摘要欢迎各种优秀的稿件
请联系tougao@bigdatadigest.cn
编辑按钮:
最近,我们陆续发表了一篇有趣的文章“文本分析在不同场合的应用”
本文也是从音乐方面推动的另一篇文章,作者分析了林夕和黄伟文香港音乐界着名作词家43万字的歌词,得出了有趣的结论。
在我十几年的听歌生涯中,可以说熟悉的曲子有80%以上的作词。 从香港金牌语系林夕和黄伟文的手中,粉丝界也出现了很多从两人情脚使用、意识形态、选择问题,特别是恋爱观等角度分析的文章。 网上还流传着“归于林夕导入门、黄伟文”的说法。 作为他们的迷妹,并且最近正好看了一篇关于文本挖掘的文章,从文本挖掘的角度对他们的歌词进行了相当浅显的分析。
首先,我通过Python爬行动物用虾的音乐抓住了他们的歌词文本,比较了虾、网易云和QQ这三个音乐门户,虽然虾里收录的是比较齐全的,但是收录的数据不能保证两个人出道了全部的作品
除去捕捉结果,删除空文本后,约43万字,其中夕爷与无聊字符数相比约为7:1,从文本曲数来看,夕爷与无聊曲子相比约为8:1,无聊曲子的平均数看起来更多吗? 夕爷年均产量为63首,年均产量为11首。 夕爷绝对可以说是具有天道报勤才能的努力型选手。 这也是晚爷在大陆知名度高的主要原因,尽管生产力牵动了市场霸权率,没有晚爷那样的高产率,但在含金量方面应该是更优秀的多模具运动员,结果分母更小。
其次,用Python库(主要是ba,snownlp )分词、词性处理、情绪分析他们两人的所有歌词文本。 我去掉了各自文本中的“你,我,他”等单词和oh yeah等语气词,然后用其馀的单词分别生成了两个肖像文字云。 上图是夕爷,下图是歪脖子
“不”是两个词云中最突出的词
“不”是两个词云中最突出的词,前几天有篇文章分析了歌词关键词在香港四十年的变化,说九十年代以后,歌坛关键词从以前的“相思,鸭子,我的心”变成了“不”,词云的结果恰好对应这个结论,九十年代以后,夕爷和歪曲
晚爷的重点关键词:没有,一个,为什么,怎么样,什么,我们……
一起离开也没有什么东西能永远不灭—————“红豆”
如果明天没有要求,就像手牵手旅行的“十年”
没有理由,恋爱可能没有“暗涌”
没有你的许可我会带走爱——钟无光泽
一百年后你和我都没有,“百年孤独”
扭曲的重点关键词:没有,一个,怎么样,什么,好,什么……
有没有,确实没有,一直躲避的借口,不是大仇大恨——最好的坏朋友
其实,安稳幸福的东西绝不是坏事——喜蒂街”
别再磨磨蹭蹭了,亲切的早晨放开我的“亲切的告别”
我没有温柔,只有它勇敢,勇敢
笑我是没办法的野子,即使没有幸福也不在意———“野子”
从品词方面来看,两人是平时常用的海报
下图显示了晚爷和歪曲词类的使用频率
从品词来看,两人常用的前9招几乎相同,动词>名词>副词>形容词>代词>数词>连词>人名>时间词。 地名、其他名词动词、方位词等都发生了变化。
为了看两个人具体用语的不同,我将动词、名词等常用词进一步细分,上图夕爷,下图忧郁
人的动词排名靠前:不,得到,需要,知道。 没有之后,有“必要”,有“想得到”,有“知道”,没有夕爷之后,就像是“恋”在读“拥抱”(“拥抱也不能让你拥有”—————————————————————————————————————————————————————————————————————”
一看名词,果然上图夕爷,下图是歪曲的
0人中被提及最多的是“世界”,是“恋人”、“泪”、“时间”,有爱情的两个人是世界,没有爱情的世界只剩下一个人。
世界包围了我,宣誓成为“飞翔女人的正传”
一个人失眠,全世界失眠——全世界失眠
这个世界上最恶劣的罪名,太动人了,我喜欢这个罪名“无人之境”
我不害怕被世界抛弃。 喜欢的有时候是可怕的“垃圾”
2000000000
我相信这一天伙伴会把我集中在“姐妹”身上
如果爱永远不会消失,为什么今天想找伴侣——“人的往来”
有人问我,我说话,但没人来——“夸耀”
如果可爱的话,为什么没人爱我——“可人”
其次是形容词,上图夕爷,下图歪曲
“幸福”、“幸福”、“寂寞”最高,夕阳的寂寞多。 而且,不仅出现了快乐寂寞这样的抒情形容词,还出现了“顽强”、“有趣”、“无聊”这样的不是主流的词语,从夕爷年间63首的勤奋来看,对“无聊”的顾客应该也很少。 “炫耀”当然是“穿着最闪亮的衬衫”,“有趣”并不是“无聊”。
从时间语言方面来看,两人喜欢什么样的时间状态
前两幅图是夕爷,后两幅图是歪曲的
夕爷是“过去”>“现在”>“未来”
是“现在”>“过去”>“未来”
人似乎不太喜欢展望未来,不同之处在于夕阳能够缅怀过去
记得当天酒店的门牌号码,还记得一边笑着一边留住离开的样子的“约定”
十年前,我不认识你。 你不是我的
就像和我第一次相遇一样我不累
歪曲的是现在还活着
转眼277岁了,时间也不多,一方不敢偷懒———“陀思妥耶佛”
没想到当初我们也不喜欢吃苦瓜,今天却吃到了那种明智之举留在记忆中的“苦瓜”
今天长高了,挂在墙上的是我6岁的画《黄色大门》
关于最喜欢的季节
春夏秋冬中,夕爷和歪曲闷热爱春秋,古代诗人悲伤和秋秋。 不同的是,夕爷的春天和秋天只有10个百分点的差别,歪曲是春天压倒性的爱情,在4个季节中占了一半的比重。
植物的使用
夕爷喜欢“玫瑰”、“玫瑰”、“樱花”、“线香”、“葡萄”、“满天星”、“百合”、“薄荷”等观赏性植物,营造出意境。
除了“玫瑰”、“百合”以外,还喜欢用“葡萄”、“苦瓜”、“洋葱”、“苹果”等食用类来表现人生的内涵。
0地名词,看哪里是两人各自的根据地
夕爷是“天堂”、“深海”、“城市”、“香港”、“恋”、“东京”
是“天堂”、“街道”、“城市”、“花都”、“东京”、“冰岛”
人最大的共同点是“天国”,而且都市和东京,夕爷喜欢水相关的“深海”、“恋”之类的东西,歪着头就喜欢“街上”和“花都”的陆地。
看看他们在游泳的世界板块
从世界板块来说,两人都最喜欢亚洲,但夕爷的亚洲比例远远超过其他大陆,喜欢香港、北京、日本(突然想起夕爷的神作《欢迎北京君》)。 夕爷关于日本也有“富士山下”“再见二丁目”“如果东京不开心的话”“黑选明”等很多人气歌曲
歪曲的可能是从亚洲飞出欧洲,从香港的东京到冰岛的巴黎的蒙特尔,喜欢时尚,喜欢时尚展的关系。
看到南美这个地名,突然想起了作词、张国荣作曲和旁白、黄耀明唱的“这么近”的古典故事,接下来是张国荣性感的独白
我乘火车去了布鲁塞尔的阿姆斯特丹,望着窗外,过了几十个城镇,几千英里的土地,几千万人。 我认为在我们人生中相遇的唯一机会,已经错过了
歪曲的世界板块也写得像这首歌
我从亚洲漂到南美洲
两人情绪曲线分析
我把感情分数高于0.6的歌词文本定义为整体性的词语是正的,相反是负的,先看看夕爷吧
,夕爷大部分已经过了正面合格线,正好可以看到正在踩合格线。
00027000000252525252525252525252525252525252525252322222222222222222222
平日在听歌的时候,夕爷的歌词里充满了悲伤的情绪,忧郁的是面对伤疤的刀子掉了下来的感觉,为什么夕爷的歌词的正义达到了70%,用文本感情来分析,无聊的是正义和负义的不同吗?
我仔细考虑了一下。 夕爷引用佛语,世事无常但宽大,我爱的人不爱,但“我们可以朋友问候”“记得你手掌上的痣在哪里”“离开你60年,希望你认识你的孩子”。 因此,正面歌词的文本远远超过负面,不要忘记。 夕爷有“快乐崇拜”、“wuha”、“在北京欢迎你”等积极的歌曲。 而且,更加重视歪脖子,坦白心灵的创伤,虽然有血迹,但是要迎刃而解。 我爱的人不爱我,“跨越岁月穿着山水,还恨谁”“你没有好结果。 人生中最喜欢并珍惜你的人,也会毁了你的人生。但是,“我为了我而活”“明天必须要振作起来”“比你活得更有精神”,正负面的意思可以说是一半。
是的,我先把工作做完。 下次我们再深入一点。
------------------------- -
其实,如果我们忽略文本挖掘来研究音乐的话,谁都可以从不同的角度理解歌词,也许不会使用中文分词算法。
以林、黄两位代表作为例子
林夕的《少女的祈祷》
“希望天父做十分钟的好人,使他的吻像罪人”。
黄伟文的《可惜我是水瓶座》
“不要说那种话,不管你在哪里,我都清楚你为什么要分手”
分手,失恋,表面悲伤,林夕说:“拜托了。 不要离开我。” 黄伟文说,不要拖拖拉拉地自己分手。 谦虚和理智。 这些是人们感受到的完全不同的音乐脉搏,我们通过他们的作品,甚至能推测出两个作词者是什么样的。
用文本挖掘音乐,情感分析/中文分词的前提是“仅凭外表就能得到”,分解一句话与语料库进行对照。 包含在音乐作品中的丰富信息,也许用现在的简单算法是无法网罗的。
再看黄伟文给容祖的“黄门”
“在窗边的线外,鹿送着树枝上的花,梳着头发,天使们在喝茶”“有个心仪的少年在身边,即使梦想改变了也不那么远”“我主张的黄门里收藏着自制的冠冕”
「小鹿」「送花」「天使」「心仪少年」「梦」「荞麦面」
从字面上看,程序应该不能分析“咬嘴唇”是婚礼上经常使用的歌,但每次在现场演唱“黄色大门”时,脸就会绽开,想着什么诗,也有可能在想刘浩龙。 不管怎样,这不是童话歌曲,不是轻松愉快的歌曲。
我们应该使用更复杂的算法吗? 这个现在不难说,我们只能边走边看。 (【主编说】本期|凉亮)
关于转载,请在开头的着名位置注明作者和出处(来源:大数据摘要)。 然后,在文章的最后放置大数据摘要引人注目的二维代码。 没有原始标志的文章可以根据转载要求进行编辑,直接转载。 转载后请发送转载链接有原始标志的文章,请发送“文章名-等待批准的公开号码名和ID”申请白名单的批准。 未经许可转载及改编者,依法追究法律责任。 联系人: zz@bigdatadigest.cn。
过去的精彩文章
近40年来香港歌坛上唱的是什么,数据分析家“南中国听歌最多”带你去的是0