简述php关于网页元素抓取方面的技术
来源:互联网 发布:单片机密码锁编程 编辑:程序博客网 时间:2024/06/18 10:44
1.php自带的xpath解析技术
xpath的话具体可以百度一下他的用法,我只举几个简单的例子,废话不多说,代码如下
<?php
error_reporting(0);
$url='http://www.baidu.com';//此处写抓取的网页的网址,我随便写的
$html=file_get_contents($url);
$dom=new DOMDocument;
$dom->loadHTML($html);
$xml=simplexml_import_dom($dom);
$nav=$xml->xpath('//p[@id="nv"]');//这儿简单解释一下,就是调用simplexml的xpath方法,传入符合xpath语法的字符串就行了,我这儿的意思是,获取所有id属性值为nv的p标签元素
print_r($nav);
2.phpquery,
phpquery是基于jQuery选择器的dom解析器,如果经常用jQuery的话会很喜欢这个工具的,下面说说他的用法
<?
include 'phpQuery.php';
phpQuery::newDocumentFile('http://job.blueidea.com');
$companies = pq('#hotcoms .coms')->find('div');
foreach($companies as $company)
{
echo pq($company)->find('h3 a')->text()."<br>";
}
简单解释一下 :
- pq()就像jQuery里的$()
- 基本上jQuery的选择器都可以用在phpQuery上,只要把’.'变成’->’
- phpQuery提供了好几种载入文件的方法,有的使用字符串,有的使用文件(包括url),选 择的时候要注意
官方手册:http://www.ecartchina.com/php-simple-html-dom/manual.htm
自己看吧,一会就看懂了,我花了半个小时不到的时候就熟练的运用了
对了,这儿还有一个php的抓取系统,phpcrawl,如果想了解php搜索引擎方面的一些知识,可以看看他的源码:
源码下载地址
http://sourceforge.net/projects/phpcrawl/files/PHPCrawl/
- 简述php关于网页元素抓取方面的技术
- 思考:关于搜索引擎抓取网页的几个技术问题
- 关于网页方面的问题
- 关于动态网页的抓取
- 关于php方面的优化
- 收集的材料 关于数据库和抓取器方面的
- 抓取网页链接的php类:snoopy
- php中抓取网页的内容
- php抓取网页的若干实现方式
- php抓取网页内容的方法
- php抓取网页上的指定内容
- php 正则抓取网页的table数据
- php抓取网页的基本操作
- HtmlParser技术:网页抓取
- Jsoup网页抓取技术
- 关于动态网页方面
- 动态网页技术PHP关于cookie和session的分析
- 用PHP抓取网页
- 控制器动作和模型。试图ROR
- TCP/IP之四书五经
- LeetCode Implement strStr()
- 为什么开始写csdn博客?
- EncapsulationTest
- 简述php关于网页元素抓取方面的技术
- hdu-1247 Hat’s Words
- C语言中返回字符串函数的四种实现方法
- oracle的体系结构
- OCP-1Z0-051 第168题 使用子查询DELETE数据
- (10)JS之按下不同的按钮显示不同的颜色
- Java能扮演嵌入式开发主角吗?
- 12.4日期类
- JAVA之类的构造与对象初始化