如何使用thinkphp5开发一个采集工具
来源:互联网 发布:辽宁省软件行业协会 编辑:程序博客网 时间:2024/05/29 05:54
最近做了一个小站http://www.doc5.cn ,需要用到一个采集工具,看了看网上有不少介绍蜘蛛程序试用了一下都不太满意,就想自己开发一个。
工欲善其事必先利其器,既然要开发采集程序就要先把材料准备好,composer真是个好东西,让你可以充分利用已有资源不需要事事自己动手。
tp5提供了一个队列模块think-queue,虽然有些瑕疵不过好在和tp融合的比较好,直接拿过来使用:
composer require topthink/think-queue这个如何使用的可以在github上搜索到,有一个详细的介绍这里不详细介绍了,
队列准备好了我们需要一个http工具用来抓取内容,以前一直用snoopy,可是使用过程中发现不少问题,后来找到一个轻量级的http工具功能还很强大,直接拿来使用
composer require yurunsoft/yurun-http
具体用法同上在github中搜索
队列有了,http工具有了,剩下的就是html的解析工具了,网上提到的有phpquery和querypath两种php仿jquery的dom操作工具,一开始我用了phpquery因为网上推荐较多而且名字起得也不错,但是用了一段时间发现这个项目已经没人维护了,而且代码有不少bug,后来就改用querypath果然问题少多了。
composer require querypath/QueryPath
’再次感叹composer真的好啊。
当然querypath不是万能的很多时候我们需要的数据是在js代码里需要分析js才能获取到这时候还是要用到 正则表达式。
有了上面工具我们就万事俱备了,具体如何写一个采集系统呢,我们下次接着介绍.
阅读全文
0 0
- 如何使用thinkphp5开发一个采集工具
- 淘宝开发的一个采集工具 tsar
- thinkphp5.0开发实战基础--如何使用框架
- 如何巧妙的使用 免费的 火车头采集工具
- Thinkphp5使用
- 【如何快速的开发一个完整的iOS直播app】(采集篇)
- 【如何快速的开发一个完整的iOS直播app】(采集篇)
- 【如何快速的开发一个完整的iOS直播app】(采集篇)
- 【如何快速的开发一个完整的iOS直播app】(采集篇)
- 【VS开发】【DSP开发】如何使用WinDriver为PCIe采集卡装驱动
- ThinkPHP5开发(三)使用Behavior检测用户登录状态
- ThinkPHP5开发(三)使用Behavior检测用户登录状态
- ThinkPHP5新建一个模块
- 【开发环境】使用vagrant工具搭建一个开发环境
- 如何使用淘宝商品信息采集爬虫-采集电商商品
- 如何开发凤凰网资讯即时新闻采集爬虫
- ThinkPHP5.0 开发规范
- Thinkphp5 开发笔记
- mybatis报Invalid bound statement (not found)错误
- 关联容器-multimap
- WinDBG技巧:在加载/卸载一个DLL 的时候下断点
- 常用正则表达式
- 欢迎使用CSDN-markdown编辑器
- 如何使用thinkphp5开发一个采集工具
- application/x-www-form-urlencoded与application/json
- 将Android项目开源到JCenter两种方式
- restful api http动词含义
- scrapy 爬取漫画
- python web框架Django学习(三)视图预url
- 关于负载均衡和服务发现,Google的经验在这里
- 对比数据库表结构
- 如何通俗地理解 Gradle?