网易云音乐搜索引擎 python+whoosh---(1)背景和环境介绍

来源:互联网 发布:淘宝逆战解封 编辑:程序博客网 时间:2024/06/05 16:01

最近做《互联网信息搜索与挖掘》的课程作业,作业要求是做一个网易云音乐搜索引擎。

基本要求是:

1,【自由搜索】输入歌曲名称可以返回一系列排序后的歌曲,搜索歌手会根据热门度或其他条件返回一系列歌曲,或者,搜索关键字获取歌曲名或歌词中含有关键字的歌曲列表;

2,【搜索历史权重排名】当用户点击播放时,记录用户点击事件,并调整排名。(例如,下次用户搜索这条信息时把他点击的这首歌往前放)


下面我会跳过爬虫部分,讲述搜索引擎和界面的实现过程。


由于班长负责爬虫爬网易云音乐数据,我负责搜索引擎和界面,所以我的博客只讲我这一部分,就是爬到网易云音乐数据之后的这部分、搜索引擎和界面怎么做。


主要思路是这样的,班长python爬虫存下来网易云音乐的数据,music.db,我根据这个数据再用python+whoosh做搜索引擎,python+ajax写网页页面作为交互式界面。

我们的数据信息是这样的:


一共有四张表格,字段信息分别见表格中所示的,黄色部分是我想要的。

由于我们课程要求数据库内只要有1w首歌曲以上就可以了,我删除了很多没有爬到歌词的数据,最后数据库从十几万条变成2w条。

主要环境说明:

python  2.72

whoosh 2.74

下面是我们完成后的样子




爬数据这部分是班长做的,爬虫代码在他的github上,点这里。他给我的是数据库,后面的搜索和界面由我来,下面介绍一下我这一部分

原创粉丝点击