学习爬虫的记录
来源:互联网 发布:日本人的交友软件 编辑:程序博客网 时间:2024/06/06 03:36
学了一些爬虫的入门,记录一下。
步骤:爬取网上所需要的东西,下载,分析。
用的Java语言,其他语言也可以。
有很多已经封装好的包可以直接拿过来用,例如httpClient、Jsoup、htmlUnit等,还有一个XPath,它能够提取出需要的数据,htmlUnit支持,Jsoup不支持。Jsoup和htmlUnit本身也自带有提取数据的API。
HTML的数据都是树状结构的,所以可以根据其中的元素的排列、标签的属性等等一些特殊的标记来找出HTML中需要的东西。
这些封装好的包基本的功能都有,但是网页的数据有很多情况。例如:新闻网站上的数据不需要登陆就可以拿到页面的数据;而像新浪微博的数据就必须先登录才能提取到后面的数据。这就是这些包的不同,Jsoup不能模拟登陆,htmlUnit则可以进行模拟登陆,还有JavaScript和Ajax的功能,尽管不能很好的支持。
后面会记录一些实际的例子。
0 0
- 学习爬虫的记录
- DHT 爬虫的学习记录
- DHT 爬虫的学习记录
- 记录自己python爬虫的学习
- 爬虫学习记录(一)
- 爬虫学习记录一
- 学习Python爬虫记录
- python 爬虫的学习记录--《crifan大神的教程》
- 爬虫学习记录(二)
- WebCollector爬虫学习记录(二)jsoup的小记
- Scrapy爬虫学习中遇到的问题记录
- python网络爬虫的记录
- 【Scrapy】学习记录2_爬虫Spider
- 学习记录:python糗百爬虫
- 学习记录:python百度贴吧爬虫
- 爬虫框架Scrapy学习记录I--ing
- 20170718 【学习记录】使用anaconda写爬虫
- Python爬虫学习记录(5)——python mongodb + 爬虫 + web.py 的acfun视频排行榜
- 从VCC,GND想到EMC
- PowerShell 异常处理(trap / try…catch / Throw / $Error / $ConfirmPreference)
- 文件上传
- C++ 用libcurl库进行http通讯网络编程
- Android中NavigationDrawer的分析
- 学习爬虫的记录
- android--(BroadcastReceiver)
- 十二、机器学习系统设计笔记之大数据
- 欢迎使用CSDN-markdown编辑器
- 批处理文件 bat 的入门命令
- LintCode:二叉树的最小深度
- POJ-2028
- Brackets(区间DP)
- Repo和Git 版本管理常用命令