采集
来源:互联网 发布:算法技术面试常问问题 编辑:程序博客网 时间:2024/04/29 22:03
一、文件操作
对文件里面的内容进行读写
PHP5文件操作
将文件的内容整个进行读取和写入1.读取文件
file_get_contents:从一个指定的文件内读取数据内容。将整个文件读入一个字符串; 一个参数,文件名
2. 写入内容
file_put_contents:将指定的字符串写入到对应的文件 ,将一个字符串写入到文件里 两个参数 第一个是文件名,第二个是要写入的字符串
执行一次就是操作一次。返回的是内容数量
注意事项:file_put_contents如果要写入的文件不存在,系统会自动创建,有的话就直接写入
默认的file_put_contents写入数据的时候,会先清空数据再写入
如果要在文件后面追加内容:应该使用file_put_contents的第三个参数
FILE_USE_INCLUDE_PATH:先清空文件,再重新写入(默认的)
FILE_APPEND:追加数据到文件末尾
PHP4文件操作
php5以前文件的操作,与文件夹一样,都是通过资源的形式进行操作
1. 获取文件资源
fopen:打开一个文件资源
如果是通过资源形式去操作文件的话,那么必须在打开文件的时候,就指定操作模式。
只读模式打开
1. 读取文件内容
fgets:s代表string,代表可以读取多个字符,取决于指定的读取长度或者是否碰到换行(最多只能读取一行数据)
两个函数都是对当前资源指针进行操作,读取之后都会将指针下移
fgetc : c 代表char ,代表每次读取一个字符
fread:获取指定长度的数据直到文件结束
2. 修改文件(写)
fwrite:向文件资源指针所在的位置写入数据,写东西不会将当前位置已有的东西往后移,而是会覆盖
fputs:fwrite别名
3. 释放资源
fclose:使用对应的文件资源
5. 文件操作相关函数
unlink:删除文件
rename:重命名文件
filemtime:m代表modify,文件最后被修改的时间获得的是时间戳
filesize:文件大小(字节)
二、采集
1、采集思路
从要采集的页面中获取内容--》通过正则匹配要获取的信息--》把数据进行入库操作
注意:文件编码 转码函数iconv() mb_convert_encoding()(必须先在php.ini中开启mb_string.dll扩展)
三、数据采集的三种方式
1、file_get_contents();
2、Curl函数
3、Snoopy类