pyspider

来源:互联网 发布:mac中文件的绝对路径 编辑:程序博客网 时间:2024/06/06 14:21

爬虫类有三个函数:

  • on_start()
  • index_page()
  • detail_page()

爬虫操作流程:
新建爬虫项目,输入链接,然后点击run得到index_page,点击play,调用detail_page()进一步解析。解析后的结果可以用Python语法来提取,也可以用CSS selector来提取HTML elements,推荐使用CSS selector。CSS selector内嵌在response.doc对象中,response.doc()返回pyquery对象,response.doc('a[href^="http"]'),pyspider提供了一个CSS selector helper的工具来很容易的生成一个selector pattern。

pyquery的用法:

  • response.doc().items()
  • response.doc().text()
0 0
原创粉丝点击