php爬虫页面信息获取利器

来源：互联网发布：李艺彤总选知乎编辑：程序博客网时间：2024/06/06 21:43

使用PHP curl库爬取信息，做页面信息分析可能大家第一时间想到可能会是会正则，作为新手不能很熟练的写出相关的正则。而php解析html类库simple_html_dom就很容易上手了。

它使用了类似jQuery的元素选择器，通过元素的id，class，tag等等来查找定位；同时还提供添加、删除、修改文档树的功能。

github地址：https://github.com/samacs/simple_html_dom

里面几个小demo：

$str = <<<HTML<ul id="ul1">    <li>item:<span>1</span></li>    <li>item:<span>2</span></li></ul><ul id="ul2">    <li>item:<span>3</span></li>    <li>item:<span>4</span></li></ul>HTML;$html = str_get_html($str);foreach($html->find('ul') as $ul) {    foreach($ul->find('li') as $li)        echo $li->innertext . '<br>';}输出：item:1item:2item:3item:4

阅读全文

0 0

php爬虫页面信息获取利器
php利用simple_html_dom类，获取页面内容，充当爬虫角色
网易页面的网络爬虫，获取网易页面的所有文本信息
详解PHP fsockopen的使用方法(获取页面的头信息)
PHP获取访客IP、地区位置信息、浏览器、来源页面
js和php获取页面的url信息
网页爬虫获取课程信息
Python 网络爬虫与信息获取（二）—— 页面内容提取
网络爬虫，获取页面图片
python爬虫-第一步，获取页面
爬虫之页面链接获取
页面获取硬件信息
爬虫爬取页面信息及图片链接
PHP 获取图片信息
PHP 获取系统信息
php获取图片信息
php获取地址栏信息
php获取图片信息
mysql常用命令
SpringMVC中get请求中文乱码问题
Cannot find any information on property [datetime] in a bean of type
与namespace有关的两个编译错误
组件化应用构建
php爬虫页面信息获取利器
使用Jedis操作Redis(笔记)
单例模式
如何将ipynb转换为html，md，pdf等格式
PMP学习笔记（十一）
maven
iOS之数据存储
从小到大插入排序
1.27 【杂记】hibernate的各种查询方法