PHP获取淘宝单个商品信息

来源:互联网 发布:linux 安装 oracle 编辑:程序博客网 时间:2024/04/29 01:44

调用淘宝的数据当然可以使用淘宝提供的api啦,只是基于当前项目只需调用淘宝商品图片名称等公开信息在自己网站上就ok,因此使用php中的file_get_contents函数实现。

 

思路:

file_get_contents(url)该函数根据url如http://www.baidu.com将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth,我想在一段时间内这种命名方式应该不会变吧!

 

具体实现:(获取500图,名称,价格,属性及商品描述)

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279");//将url地址上页面内容保存进$text

A.获取500图

preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=/"([^"]*)/"[^>]*>/',$text, $img);

//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;

B. 获取名称:

preg_match('/<title>([^<>]*)<//title>/',$text, $title);

//因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓<title>标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签$title[1]标签中内容;

$title=iconv('GBK','UTF-8',$title);

//如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)

C.获取价格:

preg_match('/<([a-z]+)[^i]*id=/"J_StrPrice/"[^>]*>([^<]*)<////1>/is',$text, $price);

//同理获取id为J_StrPrice的标签内容$price[2],$price[0]是整个标签, $price[1]为strong标签名;

$price=floatval($price);//放入数据库估计还有转一下变量类型

D.获取属性:

这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如

<div id=xxx>

<ul>

</ul>

<div>

<div>

</div>

</div>

</div>

这样特定div中有未知n个<>标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是"/<([a-z]+)[^>]*>([^<>]|(?R))*<////1>/"这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class="attributes"的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的<div class="attributes"></div>标签后面不是</div><divid="description">就是</div><div class="boxJ_TBox">,所以我们可以采用变通法达到获取属性标签内容的目的。

 

preg_match('/<(div)[^c]*class=/"attributes/"[^>]*>.*<////1>/is',$text, $text0);

//这个正则会抓取<div class="attributes"开始到整个页面最后一个</div>标签,当然我们属性标签就在这个的前面部分。

   $text1=preg_replace("/<//div>[^<]*<(div)[^c]*id=/"description/"[^>]*>.*<////1>/is","",$text0);

//匹配到</div ><div id="description">至最后</div>然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。

 

 $attributes=preg_replace("/<//div>[^<]*<(div)[^c]*class=/"boxJ_TBox/"[^>]*>.*<////1>/is","",$text1);

//如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除boxJ_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。

 

E.获取描述:

通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。

好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“<divid="detail" class="box"> </div>

        <div id="description"class="J_DetailSection">

          <div class="content"id="J_DivItemDesc">描述加载中</div>

        </div>”

这几个div是加载描述所必须的,那么下面就是写代码了:

 

preg_match_all('/<script[^>]*>[^<]*<//script>/is',$text, $content);//页面js脚本

    $content=$content[0];

    $description='<div id="detail"class="box"> </div>

        <div id="description"class="J_DetailSection">

          <div class="content"id="J_DivItemDesc">描述加载中</div>

        </div>';

    foreach ($content as&$v){$description.=iconv('GBK','UTF-8',$v);};

//将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。

 

以上是琢磨获取特定页面特定内容的一些方法和心得,感觉蛮有收获的!