信息采集

来源:互联网 发布:哪个批发软件最好用 编辑:程序博客网 时间:2024/05/02 00:26

《信息采集》

一:什么是信息采集

信息采集就是通过各种途径对相关信息进行搜索、归纳、整理并最终形成所需有效信息的过程。各种途径包括:一是通过实地调查、采访、亲身经历、亲眼目睹获得的第一手资料,也就是直接信息。二是通过某种介质间接获得的信息。如通过书刊、报纸、电视、电脑获得的各种信息。目前由于各种条件的局限性,以及网络技术的发达、便捷,我们进行信息采集的主要途径来自于网络,主要工具就是计算机。有效信息就是对我们切实有用的信息,不是随便一条信息对我们都是有用的。一般来说我们需要的信息往往具备这样几个属性:即信息的综合性、准确性和时效性。

二:信息采集的重要性(意义)

信息采集是新形势下经济信息工作的客观要求。现在是信息社会,所有从事信息工作的单位、部门、甚至个人,对信息的需求越来越多,依赖性也越来越大,信息采集已成为获得有效信息的必要过程。

三、要采集什么样的信息

简单我我总结为:有价值,权威性,和时效性。

-序言

这里我简单介绍的是 “”file_get_contents“”--php采集方式

一:文件操作

对文件里面的内容进行读写

PHP5文件操作

将文件的内容整个进行读取和写入

 

读取文件

file_get_contents:从一个指定的文件内读取数据内容。将整个文件读入一个字符串;  一个参数,文件名   

 

写入内容

file_put_contents:将指定的字符串写入到对应的文件  ,将一个字符串写入到文件里  两个参数  第一个是文 件名,第二个是要写入的字符串

执行一次就是操作一次。返回的是内容数量

 

注意:file_put_contents如果要写入的文件不存在,系统会自动创建,有的话就直接写入

默认的file_put_contents写入数据的时候,会先清空数据再写入

 

如果要在文件后面追加内容:应该使用file_put_contents的第三个参数

FILE_USE_INCLUDE_PATH:先清空文件,再重新写入(默认的)

FILE_APPEND:追加数据到文件末尾

PHP4文件操作

php5以前文件的操作,与文件夹一样,都是通过资源的形式进行操作

 

1. 获取文件资源

fopen:打开一个文件资源

如果是通过资源形式去操作文件的话,那么必须在打开文件的时候,就指定操作模式。

只读模式打开


1. 读取文件内容

fgetss代表string,代表可以读取多个字符,取决于指定的读取长度或者是否碰到换行(最多只能读取一行数据)

两个函数都是对当前资源指针进行操作,读取之后都会将指针下移

fgetc : c 代表char  ,代表每次读取一个字符

 

fread:获取指定长度的数据直到文件结束

 

2. 修改文件(写)

fwrite:向文件资源指针所在的位置写入数据,写东西不会将当前位置已有的东西往后移,而是会覆盖

fputsfwrite别名

 

 

3. 释放资源

fclose:使用对应的文件资源

5. 文件操作相关函数

unlink:删除文件

rename:重命名文件

filemtimem代表modify,文件最后被修改的时间 获得的是时间戳

filesize:文件大小(字节)


二、采集

1、采集思路

   从要采集的页面中获取内容--》通过正则匹配要获取的信息--》把数据进行入库操作

注意:文件编码  转码函数iconv()  

mb_convert_encoding()(必须先在php.ini中开启mb_string.dll扩展)

 

一、正则表达式

正则表达式的书写

 

三、数据采集的三种方式

1、file_get_contents();

2、Curl函数

3、Snoopy


举个栗子~





0 0