网页采集+pdo入库
来源:互联网 发布:耐药监测数据处理软件 编辑:程序博客网 时间:2024/04/30 23:22
<?php
/**
* 采集soho网页新闻
*/
// header头
header("content-type:text/html;charset=utf8");
// 网站地址
$url="http://sports.sohu.com/nba.shtml";
// 获取网站内容
$str=file_get_contents($url);
// 转码
$str=iconv('GBK','utf-8',$str);
// pdo连接数据库
$pdo=new PDO("mysql:host=localhost;dbname=caiji" ,"root","root");
$pdo->exec("set names utf8");
// 获取网页内容`
$reg='#<div style="display: block; height: 110px; overflow: hidden;" class="l">.*<div class="blank10"></div>#isU';
preg_match($reg, $str,$arr);
// 分步正则获取图片、标题、详情
$reg2='#<img alt="NBA" src="(.*)" border="0" height="100" width="100"></a></div>#isU';
$reg3='#<h4><a onFocus="undefined" title="" href=".*" target="_blank">(.*)</a></h4>#isU';
$reg4='#<p>(.*)<a onFocus="undefined" href=".*" target="_blank">.*<div class="r"></div></div>#isU';
// var_dump($arr);
preg_match_all($reg2,$arr[0],$image);
preg_match_all($reg3,$arr[0],$title);
preg_match_all($reg4,$arr[0],$content);
// 添加到同一个数组
$data=array();
// 将图片保存到本地
foreach ($image[1] as $key => $value) {
// 截取后缀
$exm=substr($value,strrpos($value,'.'));
// 拼写路径
$image_name='./image/'.time().rand(1000,9999).$exm;
// var_dump($image_name);
// 获取图片内容
$value=file_get_contents($value);
file_put_contents($image_name,$value);
$data[$key]['image']=$image_name;
}
// foreach ($image[1] as $key => $value) {
// $data[$key]['image']=$value;
// }
foreach ($title[1] as $key => $value) {
$data[$key]['title']=$value;
}
foreach ($content[1] as $key => $value) {
$data[$key]['content']=$value;
}
// 循环入库
foreach ($data as $key => $value) {
$sql="insert into sohu (image,title,content) values('".$value['image']."','".$value['title']."','".$value['content']."')";
$pdo->exec($sql);
}
var_dump($data);
?>
/**
* 采集soho网页新闻
*/
// header头
header("content-type:text/html;charset=utf8");
// 网站地址
$url="http://sports.sohu.com/nba.shtml";
// 获取网站内容
$str=file_get_contents($url);
// 转码
$str=iconv('GBK','utf-8',$str);
// pdo连接数据库
$pdo=new PDO("mysql:host=localhost;dbname=caiji" ,"root","root");
$pdo->exec("set names utf8");
// 获取网页内容`
$reg='#<div style="display: block; height: 110px; overflow: hidden;" class="l">.*<div class="blank10"></div>#isU';
preg_match($reg, $str,$arr);
// 分步正则获取图片、标题、详情
$reg2='#<img alt="NBA" src="(.*)" border="0" height="100" width="100"></a></div>#isU';
$reg3='#<h4><a onFocus="undefined" title="" href=".*" target="_blank">(.*)</a></h4>#isU';
$reg4='#<p>(.*)<a onFocus="undefined" href=".*" target="_blank">.*<div class="r"></div></div>#isU';
// var_dump($arr);
preg_match_all($reg2,$arr[0],$image);
preg_match_all($reg3,$arr[0],$title);
preg_match_all($reg4,$arr[0],$content);
// 添加到同一个数组
$data=array();
// 将图片保存到本地
foreach ($image[1] as $key => $value) {
// 截取后缀
$exm=substr($value,strrpos($value,'.'));
// 拼写路径
$image_name='./image/'.time().rand(1000,9999).$exm;
// var_dump($image_name);
// 获取图片内容
$value=file_get_contents($value);
file_put_contents($image_name,$value);
$data[$key]['image']=$image_name;
}
// foreach ($image[1] as $key => $value) {
// $data[$key]['image']=$value;
// }
foreach ($title[1] as $key => $value) {
$data[$key]['title']=$value;
}
foreach ($content[1] as $key => $value) {
$data[$key]['content']=$value;
}
// 循环入库
foreach ($data as $key => $value) {
$sql="insert into sohu (image,title,content) values('".$value['image']."','".$value['title']."','".$value['content']."')";
$pdo->exec($sql);
}
var_dump($data);
?>
0 0
- 网页采集+pdo入库
- 网页采集+PDO入库
- 采集网页内容,pdo入库,定时采集
- 采集入库
- 采集入库
- 入库&采集入库
- 周考 信息采集 使用PDO添加入库 展示 及分页效果
- 采集页面,PDO添加入库,email发送,列表展示生成静态页面
- session入库Pdo操作
- php 采集入库
- 图片采集入库
- 图片采集入库
- yii 采集,入库,展示
- 采集入库 定时执行
- file_get_contents采集加入库
- 采集数据入库
- PDO采集菜鸟入门
- ASP网站数据采集程序制作:一个采集入库生成本地文件的几个FUCTION(可用来生成HTML静态网页)
- json学习笔记
- UI设计的狂暴之路(PS篇)---设计知识学习路线概要以及PS在日常生活中的关键作用
- 常用的jquery方法,学会你也变大神
- 在unity环境下用ngui实现转盘
- 源码-Spark中Worker源码分析(一)
- 网页采集+pdo入库
- 【noip2014】tyvj4058 寻找道路
- 分布式爬虫
- windows7 ISO文件如何直接安装
- android DataBindingUtil 数据绑定框架
- YUV数据分析
- RxJava初步探路(基础篇)
- 学习笔记--实践认识保护模式
- 汇编--INT 10H功能