Python_爬虫

来源:互联网 发布:java中静态代理 编辑:程序博客网 时间:2024/04/29 03:06
1、网页下载器和urllib2模块...


=================
1、网页解析器:
   正则表达式:字符串模糊匹配
   html.parser:
   Beautiful Soup:
   lxml:
   除正则表达式外,都是采用结构化-DOM进行解析。
   课程推荐:Beautiful Soup
   
2、网页解析器-Beautiful Soup
   -Python第三方库,用于从HTML或XML中提取数据
   -官网:http://www.crummy.com/software/BeautifulSoup/
   
   安装:pip install beautifulsoup4  


================================================

数据专家必知必会的 7 款 Python 工具

:http://www.imooc.com/article/3159

0 0