使用python如何开始练习爬虫
来源:互联网 发布:js非负整数正则 编辑:程序博客网 时间:2024/04/28 03:33
1 当然是选择一个可以解析html的包了
这个包,首先推荐的就是lxml, 用xpath的方式来解析html
2. 什么HTMLParser, SGMLParser,
就算了吧,很难学,也很难用
3. Beautiful Soup?
这个可以作为一个候选,毕竟beautiful Soup基于lxml开发的
4. PyQuery
这个也很好,类似与jQuery的工具,也是基于lxml的
5. Scrapy
这个也是基于lxml的,使用xpath提取html dom的信息。
综上所述, 建议使用lxml和pyquery或者scrapy(毕竟scrapy提供了一揽子爬虫解决方案)
0 0
- 使用python如何开始练习爬虫
- python网页爬虫练习
- python爬虫第一次练习
- Python爬虫练习
- python爬虫练习1
- python爬虫练习1
- python爬虫练习2
- python爬虫练习3
- python简单爬虫练习
- 你是如何开始能写python爬虫?
- 知乎:你是如何开始能写python爬虫?
- 你是如何开始能写python爬虫?
- 如何使用Python写一个爬虫软件
- python,从爬虫开始(一)
- python 爬虫scrapy框架练习
- Python爬虫练习笔记一
- Python爬虫练习笔记二
- 青少年如何使用 Python 开始游戏开发
- Linux下挂载本地文件
- 地址
- vi 多行缩进 技巧
- 《Windows核心编程》——八 用户模式下的线程调度
- eclipse中配置maven 运行使用maven中自带的jetty
- 使用python如何开始练习爬虫
- 推荐十五款APP原型设计工具
- Qt 实现简单邮件发送
- Tomcat启动时报 java.security.AccessControlException: access denied
- python路径常用函数
- maven工程部署到tomcat服务器上:maven+tomcat6-maven-plugin
- 自定义带滑动属性的Switch
- hadoop工作流调度oozie安装
- 在Swift中使用iAd