使用Simple-Html-Dom解析HTML文件
来源:互联网 发布:node.js是什么 编辑:程序博客网 时间:2024/05/16 05:19
要想获得网页源码里的指定内容需要用到正则表达式!正则表达式,让我猝不及防,因为之前没有接触过,用起来非常的吃力!
在Java中,有大牛封装好的库,我使用的是Jsoup。将Jsuop的Jar包引入项目中,指定好唯一标示,再使用选择器,就可以将数据解析出来,最近接触到了PHP,就像使用PHP解析个新闻来玩玩!Jsoup解析滁州学院官网获取信息列表
正如我刚才所说,正规的做法就是使用正则表达式获取数据!搞了好长时间,真心驾驭不住!无论怎样研究,都没有什么卵用!
最后我通过Google搜索引擎,搜索到一篇文章,文章里介绍几种调用PHP文件来解析HTML的方法,真是天助我也!
文章我待会给转载发布出来,因为我找到的也是比人通过“转载器”发表的,既然很有用,我就给它搬过来!
昨天我使用Simple-Html-Dom.php文件,解析糗事百科首页的糗事,并定时,15分钟获取一次!因为刚刚接触PHP,昨天在11点半断网之前刚把代码发布到SAE上,有点担心代码不能正常运行,毕竟对PHP一点都不了解!
今早起来,一看数据库
这酸爽,数据太多了,太多也没用,我就关闭了获取!
下面来讲讲如何使用Simple-Html-Dom来解析HTML(小弟接触php不到两天),如果大牛看到,呵呵一笑,最好给点意见,不要喷,怕被喷!
1、下载Simple-Html-Dom压缩文件
去官网(http://sourceforge.net/projects/simplehtmldom/files/)下载压缩文件;
2、解压文件
解压文件会发现如下文件
你需要用到的方法,demo里基本上都有,就看你怎么使用了
大家看如下代码,会发现是如何引入php文件和方法的
<span style="font-family:Times New Roman;font-size:14px;"><?php// example of how to use basic selector to retrieve HTML contentsinclude('../simple_html_dom.php');//引入php核心文件,注意路径,不要写错 // get DOM from URL or file$html = file_get_html('http://www.google.com/');// find all linkforeach($html->find('a') as $e) echo $e->href . '<br>';// find all imageforeach($html->find('img') as $e) echo $e->src . '<br>';// find all image with full tagforeach($html->find('img') as $e) echo $e->outertext . '<br>';// find all div tags with id=gbarforeach($html->find('div#gbar') as $e) echo $e->innertext . '<br>';// find all span tags with class=gb1foreach($html->find('span.gb1') as $e) echo $e->outertext . '<br>';// find all td tags with attribite align=centerforeach($html->find('td[align=center]') as $e) echo $e->innertext . '<br>'; // extract text from tableecho $html->find('td[align="center"]', 1)->plaintext.'<br><hr>';// extract text from HTMLecho $html->plaintext;?></span>还有这个php文件
<span style="font-family:Times New Roman;font-size:14px;"><?php// example of how to use advanced selector featuresinclude('../simple_html_dom.php');// -----------------------------------------------------------------------------// descendant selector$str = <<<HTML<div> <div> <div class="foo bar">ok</div> </div></div>HTML;$html = str_get_html($str);echo $html->find('div div div', 0)->innertext . '<br>'; // result: "ok"// -----------------------------------------------------------------------------// nested selector$str = <<<HTML<ul id="ul1"> <li>item:<span>1</span></li> <li>item:<span>2</span></li></ul><ul id="ul2"> <li>item:<span>3</span></li> <li>item:<span>4</span></li></ul>HTML;$html = str_get_html($str);foreach($html->find('ul') as $ul) { foreach($ul->find('li') as $li) echo $li->innertext . '<br>';}// -----------------------------------------------------------------------------// parsing checkbox$str = <<<HTML<form name="form1" method="post" action=""> <input type="checkbox" name="checkbox1" value="checkbox1" checked>item1<br> <input type="checkbox" name="checkbox2" value="checkbox2">item2<br> <input type="checkbox" name="checkbox3" value="checkbox3" checked>item3<br></form>HTML;$html = str_get_html($str);foreach($html->find('input[type=checkbox]') as $checkbox) { if ($checkbox->checked) echo $checkbox->name . ' is checked<br>'; else echo $checkbox->name . ' is not checked<br>';}?></span>这个Demo讲解的更加详细,虽然简洁但是不简单!大家如果感兴趣,可以下载运行一下试试
文件下载
- 使用Simple-Html-Dom解析HTML文件
- 使用php simple html dom parser解析html标签
- PHP Simple HTML DOM解析器使用入门
- PHP Simple HTML DOM解析器使用入门
- PHP Simple HTML DOM解析器使用入门
- PHP Simple HTML DOM解析器使用入门
- PHP Simple HTML DOM解析器使用入门
- PHP Simple HTML DOM解析器使用入门
- PHP Simple HTML DOM解析器使用入门
- PHP Simple HTML DOM解析器使用入门
- DOM解析HTML文件
- 【PHP HTML DOM解析器】PHP Simple HTML DOM Parser
- php simple dom html 解析乱码
- PHP Simple HTML DOM解析器
- PHP Simple HTML DOM Parser 強力解析html工具
- php的html解析工具 PHP Simple HTML DOM Parser
- Simple Html Dom Parser的使用
- php操作html元素,使用PHP Simple HTML DOM Parser
- hdu 4006 The kth great number(线段树单点更新)
- Leetcode Reverse Linked List
- Thrift交流(二)thrift服务端和客户端实现 Nifty
- 黑客入门视频
- 提高篇16-19第二题
- 使用Simple-Html-Dom解析HTML文件
- 简单布局01
- 网络流学习(一)基本概念
- leveldb之DBImpl
- UVA - 1220 Party at Hali-Bula
- Java Socket编程
- hdu2159
- 数组指针和指针数组
- 关于进程控制块PCB