Python爬虫学习记录(2)——LDA处理歌词

来源:互联网 发布:海尔波士顿矩阵图分析 编辑:程序博客网 时间:2024/05/21 07:58

百度空间关闭了, 本系列文章从 hi.baidu.com/cwyalpha 转移过来

想看看某类歌词里哪些词用的比较多。

1. 歌词及类别从这里来 http://music.baidu.com/tag 带歌词的歌大约有27k

2. 分词用的是jieba in Python

3. 去除停用词,去除单个汉字。切记,一定要去除“爱”字。“爱”比“的”还可怕,不去除的话每个topic都充斥着“爱”

4. 把每首歌当作一个doc,对每个doc生成P(topic|doc)的向量后,把他们的值用色块标注了下,由白→黄→红值逐渐增大。每个topic代表词按概率由大到小从上到下排列。如下图(点开大图)。相应的excel下载( http://pan.baidu.com/share/link?shareid=363914&uk=1006940630)


总的来说。。(14k首歌词的分析结果)

大部分中文歌是“爱我,寂寞,快乐,爱情,温柔,离开,难过,失去,我会,回忆,不想,太多,朋友,相信,自由”。

大部分英文歌是“love,don,time,life,heart,feel,day,world,night,eyes,find,give,cry,won,hold”

日韩歌用词:“yeah,wow,明日,自分,put,二人,bop,kiss,世界,tick,yi,hands,気持,生日快乐,今夜”

励志歌用词:“梦想,世界,地方,天空,生命,身旁,方向,温暖,飞翔,翅膀,心中,力量,天堂,阳光,坚强”

红歌用词:“妈妈,美丽,姑娘,月亮,长大,回家,草原,爸爸,花儿,太阳,歌唱,亲爱,我心,牵挂,可爱,中国,英雄,祖国,东方,不住,出手,胜利,黄河,你好,向前,屋顶”

流金岁月(这是什么类别?)用词:“一生,不想,得到,没法,woo,心中,不知,令我,我心,失去,王子,恋爱,开心,情人,继续”

儿歌用词:和红歌一样。。儿歌果然是骗小孩的么

古风中国风用词:“一生,相思,岁月,人间,天涯,红尘,千年,我心,今生,思念,轮回,忘不了,寂寞,风雨,不知”


未爬完,待补充。。。

==================================

27k首歌词的分析结果

大部分中文歌包含:“爱我,快乐,爱情,寂寞,不想,温柔,的人,离开,太多,难过,朋友,给我,自由,想要,分手”,“回忆,时间,思念,身边,寂寞,想念,再见,记得,世界,离开,等待,天空,留下,回到,忘记”,“爱情,相信,明白,我爱你,忘记,放弃,愿意,美丽,世界,呼吸,回忆,我会,幸福,离开,存在”

大部分外文歌包含:“time,love,don,life,day,feel,heart,world,find,eyes,night,won,long,mind,live”,“love,baby,don,wanna,yeah,girl,give,heart,feel,gonna,time,gotta,good,crazy,hold”

儿歌用词:“一只,朋友,兄弟,的小,世界,喔喔,有人,跟我,唱歌,灵灵,快乐,生活,音乐,看看,舒服”,“妈妈,长大,回家,牵挂,亲爱,爸爸,姑娘,孩子,的家,美丽,快快,慢慢,宝贝,说话,童年”

闽南语,民乐,藏歌,中国风,民歌,古风,男低音,武侠用词:“一生,人生,姑娘,相思,思念,天涯,草原,故乡,今生,我心,青春,美丽,人间,红尘,茫茫”

红歌,男高音,民歌,原生态用词:“中国,祖国,英雄,北京,母亲太阳,草原,歌唱,黄河,来来来,祝福”

粤语,TVB,流金岁月用词:“一生,得到,没法,我心,恋爱,令我,不想,情人,你我,心中,明白,始终,快乐,继续,开心”

日语,日韩,动漫用词:“wow,明日,世界,二人,自分,咿呀,気持,一人,恭喜,大切,自由,出会,新年,本当,不安”

----------------------------------------------------------

凄美歌和大部分中文歌相似,但没有这些词:"爱情,相信,明白,我爱你,忘记,放弃,愿意,美丽,世界,呼吸,回忆,我会,幸福,离开,存在"

网络歌曲里英文极少


0 0