PHP第一次采集小记
来源:互联网 发布:支付宝和淘宝什么关系 编辑:程序博客网 时间:2024/06/13 12:04
首先是基本的页面编码设置
header("Content-Type: text/html; charset=UTF-8");
链接数据库,为了把采集的数据存放起来避免反复采集
这个可以写成一个文件,以后调用,而不是像我这样每个文件里都写。
$mysql_server = "localhost";$mysql_username = "root";$mysql_password = "123";$mysql_database = "caiji";//建立数据库链接$conn = mysql_connect($mysql_server, $mysql_username, $mysql_password) or die("数据库链接错误");//选择某个数据库mysql_select_db($mysql_database, $conn);
//设置数据库链接编码mysql_query("set names 'utf-8'");
//.....这里是mysql语句
//关闭连接mysql_close($conn);
采集网页要用到 cURL
// 1. 初始化
$ch = curl_init();
//2.设置URL和相应的选项curl_setopt($ch, CURLOPT_URL, $str);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_HEADER, 0);// 3. 执行并获取HTML文档内容$output = curl_exec($ch);//4. 释放curl句柄curl_close($ch);
说一下字符串存放数据库的时候如果字符创中有' ," ,之类的符号。那么就会引起错误。解决方法就是 :
addslashes() 函数返回在预定义字符之前添加反斜杠的字符串。
然后就是页面运行问题:
//后台运行,永远不超时
ignore_user_abort(true); // 后台运行ignore_user_abort() 函数设置与客户机断开是否会终止脚本的执行。
set_time_limit(0); // 取消脚本运行时间的超时上限,set_time_limit — 设置脚本最大执行时间,默认值为30秒,如果设置为0(零),没有时间方面的限制。
正则完的数据带有html标签。这个函数帮你搞定
strip_tags() 函数剥去字符串中的 HTML、XML 以及 PHP 的标签。
阅读全文
0 0
- PHP第一次采集小记
- Python第一次采集数据小记
- 第一次正式赛小记
- 第一次出差小记
- PHP采集
- php采集
- php采集
- PHP采集
- PHP小记
- python第二次采集数据小记
- 第一次更博,160720小记
- 2017前端第一次面试小记
- php信息采集程序
- PHP采集利器:Snoopy
- php采集论坛
- php 采集入库
- PHP采集代码实例
- php数据采集
- Linux命令行访问网页
- 有序表归并算法
- HashSet和TreeSet的分析
- Rviz教程(一):用户指南
- Qt学习09——基本标准对话框
- PHP第一次采集小记
- C#添加引用后提示还是无法找到类型或命名空间
- caffe 学习笔记之Makefile.config注释
- Windows 7便签程序
- Windows 10下mysql 64位 安装(mysql-5.7.11-winx64安装)
- 全栈开发——动手打造属于自己的直播间(Vue+SpringBoot+Nginx)
- python-期货指数的单位根检验
- reverse shell dll 源码
- Elasticsearch源码编译运行