Python总结

来源:互联网 发布:apache jmeter3.0下载 编辑:程序博客网 时间:2024/06/03 05:52

官方英文文档

中文教程文档
Python3教程

知乎-Python系列

知乎-如何系统的学习Python

Python学习路线

廖雪峰的python教程(可查询)

 

 

博客:

Python博客

小白爬虫博客

一个python练习多线程的爬虫(爬虫实现了多线程但是存入MYSQL的多线程实现不了)

 

视频教程:

《用Python玩转数据》 

慕课网《Python入门》

慕课网《Python进阶》

Python腾讯课堂视频

 

爬虫:

如何入门Python爬虫

爬虫系列教程

Python 爬虫进阶?

你见过哪些令你瞠目结舌的爬虫技巧?

Python 3 网络爬虫学习建议?

想要用 python 做爬虫, 是使用 scrapy框架还是用 requests, bs4 等库?

用python爬虫抓站的一些技巧总结

使用python爬虫抓站的一些技巧总结:进阶篇

 

Scrapy:

Scrapy入门教程(很全)

【scrapy】学习Scrapy入门

scrapy下各种安装包

Scrapy学习笔记博客

scrapy学习笔记博客2 

 

scrapy安装

windows下安装scrapy做数据采集

How to Install Scrapy in Windows

最新win10下安装Scrapy 及其环境搭建

Python version 2.7 required, which was not found in the registry

python 安装pywin32模块问题

http://bbs.csdn.net/topics/390512587?page=1

http://jingyan.baidu.com/article/72ee561aa7f129e16138dfa1.html

scrapy使用

从零开始的Python爬虫速成指南

scrapy爬虫框架入门实例

Scrapy教程——搭建环境、创建项目、爬取内容、保存文件(txt)

网站的反爬虫策略

scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP

采用settings.py的方式进行设置user agent和proxy列表

http://www.tuicool.com/articles/VRfQR3U

http://jinbitou.net/2016/12/01/2229.html

 

 

实例:

Python爬虫实战-抓取MM图片

Python爬虫系列

实验楼-Python实例综合(很多例子)

可以用 Python 编程语言做哪些神奇好玩的事情?

下面的Python例子列表

 Python 经典项目实战(6个例子)

 

具体实例:

基于Python的网络小爬虫

基于scrapy爬虫的天气数据采集(python)

Pybatis添加数据库连接池

代理防止禁IP

可以参见: python中使用tor代理

百度贴吧自动签到

遍历bilibili网站视频信息

用Python做2048游戏

python数据使用pyquery抓取YCJ股票数据

爬取代理IP并通过多线程快速验证 

 

 

 

思考进阶:

1.如何抓取JavaScript生成的页面?     

2.一些网站会限制你的抓取频率,过快的抓取会封禁IP,如何定量控制抓取频率?     

3.google早就实现了单台机器同时维持300个爬取任务,如何提高单台机器爬虫的工作效率?     

4.大数据背景下,单台机器不能满足数据量要求,爬虫分布式如何实现?     

5.如何对DeepWeb进行自动化挖掘?附论文: Google’s Deep-Web Crawl  从1到5逐渐按难度加大,也算是能不断进阶了吧。

6、Python实现网站模拟登陆

 

等你要抓的网站非常多时,就会遇到几个问题:

1、一些网站开始防抓,IP被封?

随机User-Agent,随机代理,开始用到scrapy的插件。

2、网页太多,抓的太慢,scrapy默认是不支持分布式的,怎么实现分布式?

一些分布式的插件就会用起来,例如scrapy-redis。

3、网页越来越多,会不会抓重复?

哦,原来不会重复抓。看一看scrapy源码,基于url指纹过滤重复的。啊,过滤规则自己可以替换,不错!

4、网站如何深度抓取,如何广度抓取?

看一看scrapy源码,哦,原来通过实现了栈和队列改变任务的入队顺序,结合配置来控制。

如果你有足够的兴趣和耐心,有没有发现,从开始使用它,慢慢地你开始关注scrapy的是如何实现了,继续深入源码,你就会发现它的实现思想很巧妙,代码结构低耦合,插件威力巨大!

 

 

工具:

Python 程序如何高效地调试?

 

Python 代码调试技巧

Python在线运行工具1

Python在线运行工具2

Python 爬虫的工具列表

Notepad++编辑Pyhton文件的自动缩进的问题

python开发工具-sublimetext3

         sublimetext下配置可用python

 

如何在myeclipse8.5 配置pydev环境

MyEclipse10中配置开发Python所需要的PyDev 


 

 

原创粉丝点击