python 爬虫

来源:互联网 发布:mac把原唱边伴奏 编辑:程序博客网 时间:2024/06/03 20:45

爬虫入门

  1. HTTP基础知识
  2. Requests库入门
  3. BeautifulSoup库入门

相关API

  1. python requests库 API
  2. Python BeautifulSoup库 API

爬虫应用

简单网页抓取

静态网页抓取

通过find_all()找到相应地标签
然后通过循环,找出每个节点的父节点,子节点
最后综合到一起

动态网页抓取

  1. Ajax
  2. JavaScript 解析js
  3. json
  4. 从手机端口入手

验证用户信息网页抓取

登录网页