Python爬虫技术汇总

来源:互联网 发布:新农村频道网络直播 编辑:程序博客网 时间:2024/05/17 22:09

基础技术

urllib
urllib.quote
urllib.urlencode

urllib2
urllib2.HTTPCookieProcessor
urllib2.build_opener

cookielib
cookielib.CookieJar

进阶技术

request
request.get
request.post
s = request.Session

Beautiful Soup HTML页面解析工具
PyQuery jQuery的Python实现
PhantomJS 是一个无界面的,可脚本编程的WebKit浏览器引擎
lxml xpath支持
Selenium 支持各种浏览器驱动(包括PhantomJS), 可操作浏览器自动请求

高级

PySpider
Scrapy

0 0