采集

来源:互联网 发布:算法技术面试常问问题 编辑:程序博客网 时间:2024/04/29 22:03

一、文件操作

对文件里面的内容进行读写

PHP5文件操作

将文件的内容整个进行读取和写入

1.读取文件

file_get_contents:从一个指定的文件内读取数据内容。将整个文件读入一个字符串;  一个参数,文件名  

2. 写入内容

file_put_contents:将指定的字符串写入到对应的文件  ,将一个字符串写入到文件里  两个参数  第一个是文件名,第二个是要写入的字符串

                                   执行一次就是操作一次。返回的是内容数量

注意事项:file_put_contents如果要写入的文件不存在,系统会自动创建,有的话就直接写入

                    默认的file_put_contents写入数据的时候,会先清空数据再写入


如果要在文件后面追加内容:应该使用file_put_contents的第三个参数

FILE_USE_INCLUDE_PATH:先清空文件,再重新写入(默认的)

FILE_APPEND:追加数据到文件末尾

PHP4文件操作

php5以前文件的操作,与文件夹一样,都是通过资源的形式进行操作

 

1.      获取文件资源

        fopen:打开一个文件资源

        如果是通过资源形式去操作文件的话,那么必须在打开文件的时候,就指定操作模式。

        只读模式打开

 

1.      读取文件内容

        fgets:s代表string,代表可以读取多个字符,取决于指定的读取长度或者是否碰到换行(最多只能读取一行数据)

                     两个函数都是对当前资源指针进行操作,读取之后都会将指针下移

         fgetc : c 代表char  ,代表每次读取一个字符

         fread:获取指定长度的数据直到文件结束

 

2.      修改文件(写)

         fwrite:向文件资源指针所在的位置写入数据,写东西不会将当前位置已有的东西往后移,而是会覆盖

         fputs:fwrite别名

 

 

3.      释放资源

         fclose:使用对应的文件资源

5. 文件操作相关函数

        unlink:删除文件

        rename:重命名文件

        filemtimem代表modify,文件最后被修改的时间获得的是时间戳

        filesize:文件大小(字节)

二、采集

1、采集思路

       从要采集的页面中获取内容--》通过正则匹配要获取的信息--》把数据进行入库操作

注意:文件编码  转码函数iconv() mb_convert_encoding()(必须先在php.ini中开启mb_string.dll扩展)

三、数据采集的三种方式

1、file_get_contents();

2、Curl函数

3、Snoopy类



0 0