Python总结
来源:互联网 发布:apache jmeter3.0下载 编辑:程序博客网 时间:2024/06/03 05:52
官方英文文档
中文教程文档
Python3教程
知乎-Python系列
知乎-如何系统的学习Python
Python学习路线
廖雪峰的python教程(可查询)
博客:
Python博客
小白爬虫博客
一个python练习多线程的爬虫(爬虫实现了多线程但是存入MYSQL的多线程实现不了)
视频教程:
《用Python玩转数据》
慕课网《Python入门》
慕课网《Python进阶》
Python腾讯课堂视频
爬虫:
如何入门Python爬虫
爬虫系列教程
Python 爬虫进阶?
你见过哪些令你瞠目结舌的爬虫技巧?
Python 3 网络爬虫学习建议?
想要用 python 做爬虫, 是使用 scrapy框架还是用 requests, bs4 等库?
用python爬虫抓站的一些技巧总结
使用python爬虫抓站的一些技巧总结:进阶篇
Scrapy:
Scrapy入门教程(很全)
【scrapy】学习Scrapy入门
scrapy下各种安装包
Scrapy学习笔记博客
scrapy学习笔记博客2
scrapy安装:
windows下安装scrapy做数据采集
How to Install Scrapy in Windows
最新win10下安装Scrapy 及其环境搭建
Python version 2.7 required, which was not found in the registry
python 安装pywin32模块问题
http://bbs.csdn.net/topics/390512587?page=1
http://jingyan.baidu.com/article/72ee561aa7f129e16138dfa1.html
scrapy使用:
从零开始的Python爬虫速成指南
scrapy爬虫框架入门实例
Scrapy教程——搭建环境、创建项目、爬取内容、保存文件(txt)
网站的反爬虫策略
scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP
采用settings.py的方式进行设置user agent和proxy列表
http://www.tuicool.com/articles/VRfQR3U
http://jinbitou.net/2016/12/01/2229.html
实例:
Python爬虫实战-抓取MM图片
Python爬虫系列
实验楼-Python实例综合(很多例子)
可以用 Python 编程语言做哪些神奇好玩的事情?
下面的Python例子列表
Python 经典项目实战(6个例子)
具体实例:
基于Python的网络小爬虫
基于scrapy爬虫的天气数据采集(python)
Pybatis添加数据库连接池
代理防止禁IP
可以参见: python中使用tor代理
百度贴吧自动签到
遍历bilibili网站视频信息
用Python做2048游戏
python数据使用pyquery抓取YCJ股票数据
爬取代理IP并通过多线程快速验证
思考进阶:
1.如何抓取JavaScript生成的页面?
2.一些网站会限制你的抓取频率,过快的抓取会封禁IP,如何定量控制抓取频率?
3.google早就实现了单台机器同时维持300个爬取任务,如何提高单台机器爬虫的工作效率?
4.大数据背景下,单台机器不能满足数据量要求,爬虫分布式如何实现?
5.如何对DeepWeb进行自动化挖掘?附论文: Google’s Deep-Web Crawl 从1到5逐渐按难度加大,也算是能不断进阶了吧。
6、Python实现网站模拟登陆
等你要抓的网站非常多时,就会遇到几个问题:
1、一些网站开始防抓,IP被封?
随机User-Agent,随机代理,开始用到scrapy的插件。
2、网页太多,抓的太慢,scrapy默认是不支持分布式的,怎么实现分布式?
一些分布式的插件就会用起来,例如scrapy-redis。
3、网页越来越多,会不会抓重复?
哦,原来不会重复抓。看一看scrapy源码,基于url指纹过滤重复的。啊,过滤规则自己可以替换,不错!
4、网站如何深度抓取,如何广度抓取?
看一看scrapy源码,哦,原来通过实现了栈和队列改变任务的入队顺序,结合配置来控制。
如果你有足够的兴趣和耐心,有没有发现,从开始使用它,慢慢地你开始关注scrapy的是如何实现了,继续深入源码,你就会发现它的实现思想很巧妙,代码结构低耦合,插件威力巨大!
工具:
Python 程序如何高效地调试?
Python 代码调试技巧
Python在线运行工具1
Python在线运行工具2
Python 爬虫的工具列表
Notepad++编辑Pyhton文件的自动缩进的问题
python开发工具-sublimetext3
sublimetext下配置可用python
如何在myeclipse8.5 配置pydev环境
MyEclipse10中配置开发Python所需要的PyDev