基于人人网的简单爬虫(二)——具体实现

来源:互联网 发布:js e.srcelement 编辑:程序博客网 时间:2024/06/06 01:11

 该程序分为三个部分:获取人人网登陆权限、爬取所需要的好友信息和分析好友关系。下面对这三个部分的设计思路进行阐述。

 

(1)获取人人网登陆权限

  设计的核心思想是:将登陆所需要的cookie放在程序中,使得程序能够在爬取网页之前能够获得登陆的权限。

  这里用到了firebug这样一个运行在firefox浏览器中的插件,来获得所需要的cookie。如图:

 

 

  由此获得的cookie可以用下面一段代码登陆:

 

  上面的代码事实上已经将url页面的内容取出来并转化成string类型了。注意:WebClient 的使用要加头:using System.Net;

 

  (2)爬取所需要的好友信息

  这个过程其实只要了解了正则表达式的写法之后,就非常简单了。只需要先通过正则表达式对上面取到的文本进行匹配,然后将不相关的文字replace 掉,就可以了。匹配的代码:

 

 

  通过上面的匹配,就能够从html中获得匹配结果并保存在myfriendsmatch,供进一步分析使用。replace的部分就不讲了。

 

  (3)分析好友关系

  这个得看程序是怎么进行爬取的了。要将所有的好友关系都爬取出来时比较困难的,我在程序中只爬取了两层,因此还是比较简单的一种方法吧。算是入门级别的吧。

 

  总之,整个程序的核心其实在于登陆账号的写入、页面内容的获取和正则表达式的匹配。