基于人人网的简单爬虫(二)——具体实现
来源:互联网 发布:js e.srcelement 编辑:程序博客网 时间:2024/06/06 01:11
该程序分为三个部分:获取人人网登陆权限、爬取所需要的好友信息和分析好友关系。下面对这三个部分的设计思路进行阐述。
(1)获取人人网登陆权限
设计的核心思想是:将登陆所需要的cookie放在程序中,使得程序能够在爬取网页之前能够获得登陆的权限。
这里用到了firebug这样一个运行在firefox浏览器中的插件,来获得所需要的cookie。如图:
由此获得的cookie可以用下面一段代码登陆:
上面的代码事实上已经将url页面的内容取出来并转化成string类型了。注意:WebClient 的使用要加头:using System.Net;
(2)爬取所需要的好友信息
这个过程其实只要了解了正则表达式的写法之后,就非常简单了。只需要先通过正则表达式对上面取到的文本进行匹配,然后将不相关的文字replace 掉,就可以了。匹配的代码:
通过上面的匹配,就能够从html中获得匹配结果并保存在myfriendsmatch,供进一步分析使用。replace的部分就不讲了。
(3)分析好友关系
这个得看程序是怎么进行爬取的了。要将所有的好友关系都爬取出来时比较困难的,我在程序中只爬取了两层,因此还是比较简单的一种方法吧。算是入门级别的吧。
总之,整个程序的核心其实在于登陆账号的写入、页面内容的获取和正则表达式的匹配。
- 基于人人网的简单爬虫(二)——具体实现
- 基于人人网的简单爬虫(一)——正则表达式
- python——基于煎蛋网的简单图片爬虫
- 基于Jsoup实现的简单爬虫
- 基于Jsoup实现的简单网络爬虫
- Python爬虫——人人好友相册多线程下载(二)
- 简单Python爬虫实现(二)
- java爬虫之基于httpclient的简单Demo(二)
- 爬虫/蜘蛛程序的具体实现(C#)
- Spring Aop(二)——基于Aspectj注解的Aop简单实现
- Node.js 实现爬虫(1) —— 简单的爬虫程序
- python网络爬虫入门(二)——用python简单实现调用谷歌翻译
- 用 Scrapy+Mariadb 实现汉典数据爬虫(二)——Scrapy简单介绍
- PHP写的人人网好友爬虫
- 数据库基础入门(二)——具体项目实现
- Hadoop网盘具体实现(二)
- 人人网用户信息爬虫
- 一个简单的爬虫(二)
- STL容器的实现原理
- Linux Call Trace原理分析
- project3---我们的成果展示
- 红黑树的C实现完整源码
- ado.net 事务 处理 锁定数据行
- 基于人人网的简单爬虫(二)——具体实现
- 自己的实现的二叉树的一些功能
- 从源文件到可执行程序
- Linux下应用程序开发:QT中的多线程编程
- 经典游戏算法之走迷宫
- 模拟键盘按键
- INITIALLY DEFERRED
- 编程资源共享
- 一边看二分匹配一边流泪