基于人人网的简单爬虫（二）——具体实现

来源：互联网发布：js e.srcelement 编辑：程序博客网时间：2024/06/06 01:11

该程序分为三个部分：获取人人网登陆权限、爬取所需要的好友信息和分析好友关系。下面对这三个部分的设计思路进行阐述。

（1）获取人人网登陆权限

设计的核心思想是：将登陆所需要的cookie放在程序中，使得程序能够在爬取网页之前能够获得登陆的权限。

这里用到了firebug这样一个运行在firefox浏览器中的插件，来获得所需要的cookie。如图：

由此获得的cookie可以用下面一段代码登陆：

WebClient client = new WebClient(); client.Headers.Add("Cookie", "你的cookie"); Byte[] pageData = client.DownloadData(url); string text = Encoding.UTF8.GetString(pageData);

上面的代码事实上已经将url页面的内容取出来并转化成string类型了。注意：WebClient 的使用要加头：using System.Net;

（2）爬取所需要的好友信息

这个过程其实只要了解了正则表达式的写法之后，就非常简单了。只需要先通过正则表达式对上面取到的文本进行匹配，然后将不相关的文字replace 掉，就可以了。匹配的代码：

Regex regex = new Regex("<a stats=/"pf_friend/" class=/"avatar/" href="/" mce_href="/""http://www.renren.com/profile.do//?portal=profileFriendlist&id=.*?/" title=/"查看.*?的个人主页/">//n<img stats=/"pf_friend/" src="/" mce_src="/"".*?.jpg");MatchCollection myfriendsmatch = regex.Matches(html);

通过上面的匹配，就能够从html中获得匹配结果并保存在myfriendsmatch，供进一步分析使用。replace的部分就不讲了。

（3）分析好友关系

这个得看程序是怎么进行爬取的了。要将所有的好友关系都爬取出来时比较困难的，我在程序中只爬取了两层，因此还是比较简单的一种方法吧。算是入门级别的吧。

总之，整个程序的核心其实在于登陆账号的写入、页面内容的获取和正则表达式的匹配。