实用的开源百度云分享爬虫项目yunshare - 安装篇
来源:互联网 发布:win7组策略设置优化 编辑:程序博客网 时间:2024/05/16 19:04
今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare。
百度云分享爬虫项目
github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发
安装
安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务
安装mysql和mongodb,mysql用来保存爬虫数据,mongodb用来保存最终的百度云分享数据,这些数据是json格式的,用mongodb保存更方便。
git clone https://github.com/callmelanmao/yunsharecnpm i
推荐使用cnpm命令安装npm依赖,最简单的安装方式
$ npm install -g cnpm --registry=https://registry.npm.taobao.org
更多安装cnpm的命令可以去npm.taobao.org上面找。
初始化
爬虫数据(主要是url列表)都是保存在mysql数据库的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js
,默认的mysql用户名和密码都是root,数据看是yun,你需要手动创建yun数据库
create database yun default charset utf8
密码根据自己需要进行修改,完成mysql配置之后就可以运行下面的命令
gulp babelnode dist/script/init.js
注意必须先运行gulp babel
把es6代码编译成es5,然后运行初始化脚本导入初始数据,数据文件在data/hot.json
,里面,是从页面 http://yun.baidu.com/pcloud/friend/gethotuserlist?type=1&from=feed&start=0&limit=24&bdstoken=ac95ef31d3979f6ee707ef75cee9f5c5&clienttype=0&web=1 保存下来的。
启动项目
yunshare使用pm2进行nodejs进程管理,运行pm2 start process.json
启动所有的后台任务,检查任务是否正常运行可以用命令pm2 list
,正常运行的应该有4个任务。
启动elasticsearch索引
elasticsearch索引程序也已经写好了,mapping文件在data/mapping.json
,请确保你已经安装elasticsearch 5.0的版本之后才运行索引程序,命令pm2 start dist/elastic.js
。
默认的elasticsearch地址是http://localhost:9200,如果你需要修改这个地址,可以在src/ElasticWorker.js
里面修改,修改任何js源码之后记得运行gulp babel
,在重启pm2任务,不然修改是不会生效的。
在完成elasticsearch配置之后,你也可以在process.json里面添加一项elastic任务,这样就不需要单独启动索引程序了。
DEMO
哔哩搜索
下一篇接着介绍整个项目的整体设计思路和开发过程中遇到的问题。
- 实用的开源百度云分享爬虫项目yunshare - 安装篇
- 百度云爬虫-爬取百度云/百度网盘所有的分享文件
- 实用的开源项目
- 取消百度识图爬虫源码的分享
- (实用)简单的百度各平台分享代码
- 分享几个实用的Android开源项目(这是我摘抄的。。。o(╯□╰)o)
- 【Scrapy-01】安装、创建项目、创建爬虫、简单爬取百度title的例子以及工作流程简介
- 一些实用的开源项目
- 很实用的android开源项目
- 高效实用的.NET开源项目
- 高效实用的.NET开源项目
- 中国有嘻哈:网易云、虾米音乐歌词爬虫项目分享
- 简单实用的分享
- 百度云爬虫_python
- 百度公司的知名开源项目
- 关于百度的开源Apollo项目
- 百度开源项目
- 如何安装百度分享按钮
- hibernate
- Idea的快捷功能使用统计
- PHP的UTF-8与GB2312的混合字符串识别转换
- 正则表达式-回溯引用,前后一致匹配(五)
- 微信小程序-view组件
- 实用的开源百度云分享爬虫项目yunshare - 安装篇
- JAVA设计模式示例-1 简单工厂
- js实现input:file的click
- 链表的替代品—内存池
- ArrayList,List,Hashtable和Dictionary的区别
- AndroidStudio导入旧版本工程若干问题
- animation 动画
- Qt中对图片中的颜色进行修改
- vim学习