安装Python及爬虫入门介绍
来源:互联网 发布:nginx 访问目录 403 编辑:程序博客网 时间:2024/05/29 06:52
一.安装Python及基础知识
<一>.安装Python
在开始使用Python编程之前,需要介绍Python的安装过程。python解释器在Linux中可以内置使用安装,windows中需要去http://www.python.org官网downloads页面下载。具体步骤如下:
第一步:打开Web浏览器并访问http://www.python.org官网;
第二步:在官网首页点击Download链接,进入下载界面,选择Python软件的版本,作者选择下载python 2.7.8,点击“Download”链接。
Python下载地址:
第三步:选择文件下载地址,并下载文件。
第四步:双击下载的“python-2.7.8.msi”软件,并对软件进行安装。
第五步:在Python安装向导中选择默认设置,点击“Next”,选择安装路径,这里设置为默认的安装路径“C:\Python27”,点击“Next”按钮,如图所示。
注意1:建议将Python安装在C盘下,通常路径为C:\Python27,不要存在中文路径。
在Python安装向导中选择默认设置,点击“Next”,选择安装路径,这里设置为默认的安装路径“C:\Python27”,点击“Next”按钮。
安装成功后,如下图所示:
第六步:假设安装一切正常,点击“开始”,选中“程序”,找到安装成功的Python软件,如图所示:
选中上图中第三个图标,即点击“Python (command line)命令行模式”,运行程序输入如下代码:
print 'hello world'
则python命令行模式的解释器会打印输出“hello world”字符串,如下图所示。
选中图中的第一个图片,点击“IDLE (Python GUI)”,即运行Python的集成开发环境(Python Integrated Development Environment,IDLE),运行结果如下图。
注意2:建议大家使用IDLE写脚本,完整的代码而不是通过命令行模式。
<二>.Python基础知识
这里简单入门介绍,主要介绍下条件语句、循环语句、函数等基础知识。
1、函数及运行
这里举个简单的例子。打开IDLE工具->点击栏"File"->New File新建文件->命名为test.py文件,在test文件里添加代码如下:
- def fun1():
- print 'Hello world'
- print 'by eastmount csdn'
- print 'output'
- fun1()
- def fun2(val1,val2):
- print val1
- print val2
- fun2(8,15)
2、条件语句
包括单分支、双分支和多分支语句,if-elif-else。
(1).单分支语句
它的基本格式是:
if condition:
statement
statement
需要注意的是Ptthon中if条件语句条件无需圆括号(),条件后面需要添加冒号,它没有花括号{}而是使用TAB实现区分。其中condition条件判断通常有布尔表达式(True|False 0-假|1-真 非0即真)、关系表达式(>= <= == !=)和逻辑运算表达式(and or not)。
(2).双分支语句
它的基本格式是:
if condition:
statement
statement
else:
statement
statement
(3).多分支语句
if多分支由if-elif-else组成,其中elif相当于else if,同时它可以使用多个if的嵌套。具体代码如下所示:
- #双分支if-else
- count = input("please input:")
- print 'count=',count
- if count>80:
- print 'lager than 80'
- else:
- print 'lower than 80'
- print 'End if-else'
- #多分支if-elif-else
- number = input("please input:")
- print 'number=',number
- if number>=90:
- print 'A'
- elif number>=80:
- print 'B'
- elif number>=70:
- print 'C'
- elif number>=60:
- print 'D'
- else:
- print 'No pass'
- print 'End if-elif-else'
- #条件判断
- sex = raw_input("plz input your sex:")
- if sex=='male' or sex=='m' or sex=='man':
- print 'Man'
- else:
- print 'Woman'
3、while循环语句
while循环语句的基本格式如下:
while condition:
statement
statement
else:
statement
statement
其中判断条件语句condition可以为布尔表达式、关系表达式和逻辑表达式,else可以省略(此处列出为与C语言等区别)。举个例子:
- #循环while计数1+2+..+100
- i = 1
- s = 0
- while i <= 100:
- s = s+i
- i = i+1
- else:
- print 'exit while'
- print 'sum = ',s
- '''''
- 输出结果为:exit while
- sum = 5050
- '''
4、for循环
该循环语句的基础格式为:
for target in sequences:
statements
target表示变量名,sequences表示序列,常见类型有list(列表)、tuple(元组)、strings(字符串)和files(文件).
Python的for没有体现出循环的次数,不像C语言的for(i=0;i<10;i++)中i循环计数,Python的for指每次从序列sequences里面的数据项取值放到target里,取完即结束,取多少次循环多少次。其中in为成员资格运算符,检查一个值是否在序列中。同样可以使用break和continue跳出循环。
下面是文件循环遍历的过程:
- #文件循环遍历三种对比
- for n in open('for.py','r').read():
- print n,
- print 'End'
- for n in open('for.py','r').readlines():
- print n,
- print 'End'
- for n in open('for.py','r').readline():
- print n,
- print 'End'
5、课堂讲解代码
这是我课堂讲解的代码,仅供大家参考:
- #coding=utf-8
- import os
- import string
- print '贵州财经大学大数据金融学院,大家好!'
- def fun1():
- print 'Hello world'
- print 'Goodbye!'
- #计算和
- def fun2(n, m):
- return n+m
- #输出结果
- fun1()
- s = fun2(3,8)
- print 'sum = ' + str(s)
- print 'sum =', s
- #判断语句 u表示unicode字符串
- if(s>10):
- print u'大于10'
- else:
- print u'小于等于10'
- #循环语句
- i = 1
- s = 0
- while i<=100:
- s = s + i
- i = i + 1
- else:
- print 'end while'
- print 'sum =', s
- '''''
- 输出结果为:sum=5050
- '''
- #for循环
- num = [2, 4, 6, 8, 10]
- for x in num:
- print x
二. 安装PIP及第三方包
接下来需要详解介绍爬虫相关的知识了,这里主要涉及到下面几个知识:
PIP
在介绍介绍它们之前,需要安装PIP软件。正如xifeijian大神所说:“作为Python爱好者,如果不知道easy_install或者pip中的任何一个的话,那么......”。
easy_insall的作用和perl中的cpan,ruby中的gem类似,都提供了在线一键安装模块的傻瓜方便方式,而pip是easy_install的改进版,提供更好的提示信息,删除package等功能。老版本的python中只有easy_install,没有pip。常见的具体用法如下:
- easy_install的用法:
- 1) 安装一个包
- $ easy_install <package_name>
- $ easy_install "<package_name>==<version>"
- 2) 升级一个包
- $ easy_install -U "<package_name>>=<version>"
- pip的用法
- 1) 安装一个包
- $ pip install <package_name>
- $ pip install <package_name>==<version>
- 2) 升级一个包 (如果不提供version号,升级到最新版本)
- $ pip install --upgrade <package_name>>=<version>
- 3)删除一个包
- $ pip uninstall <package_name>
第一步:下载PIP软件
可以在官网http://pypi.python.org/pypi/pip#downloads下载,同时cd切换到PIP目录,在通过python setup.py install安装。而我采用的是下载pip-Win_1.7.exe进行安装,下载地址如下:
这里作者提供几种方法供大家下载:
http://download.csdn.net/detail/eastmount/9598651
第二步:安装PIP软件
第三步:配置环境变量
此时在cmd中输入pip指令会提示错误“不是内部或外部命令”。
注意:两种解决方法,一种是通过cd ..去到Srcipts环境进行安装,pip install...
方法二:另一种配置Path路径。
需要添加path环境变量。PIP安装完成后,会在Python安装目录下添加python\Scripts目录,即在python安装目录的Scripts目录下,将此目录加入环境变量中即可!过程如下:
下面在CMD中使用PIP命令,“pip list outdate”列举Python安装库的版本信息。
注意:安装成功后,会在Python环境中增加Scripts文件夹,包括easy_install和pip。
PIP安装过程中可能出现各种问题,一种解决方法是去到python路径,通过python set_up.py install安装;另一种是配置Path环境比例。
课堂重点知识:
第一节课主要想让大家体会下Python网络爬虫的过程及示例。需要安装的第三方库主要包括三个:
pip install httplib2
pip install urllib
pip install selenium
三. Urllib下载网页及图片
在使用pip install urllib或pip install urllib2后,下面这段代码是下载网页。
- #coding=utf-8
- import os
- import urllib
- import httplib2
- import webbrowser as web
- #爬取在线网站
- url = "http://www.baidu.com/"
- content = urllib.urlopen(url).read()
- open("baidu.html","w").write(content)
- #浏览求打开网站
- web.open_new_tab("baidu.html")
- urlopen(url, data, timeout)
第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT。
第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。
- response = urllib2.urlopen("http://www.baidu.com")
- print response.read()
获取的网页本地保存为"baidu.html",通过浏览器打开如下图所示:
然后是需要下载图片,这里需要学会找到图片的URL,如下图百度的LOGO,可以通过浏览器右键"审查元素"或"检查"来进行定位。
定位URL后,再通过函数urlretrieve()进行下载。
- #coding=utf-8
- import os
- import urllib
- import httplib2
- import webbrowser as web
- #爬取在线网站
- url = "http://www.baidu.com/"
- content = urllib.urlopen(url).read()
- open("baidu.html","w").write(content)
- #浏览求打开网站
- web.open_new_tab("baidu.html")
- #下载图片 审查元素
- pic_url = "https://www.baidu.com/img/bd_logo1.png"
- pic_name = os.path.basename(pic_url) #删除路径获取图片名字
- urllib.urlretrieve(pic_url, pic_name)
- #本地文件
- content = urllib.urlopen("first.html").read()
- print content
- #下载图片 审查元素
- pic_url = "imgs/bga1.jpg"
- pic_name = os.path.basename(pic_url) #删除路径获取图片名字
- urllib.urlretrieve(pic_url, pic_name)
重点知识:
urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。
urlretrieve方法直接将远程数据下载到本地。
如果需要显示进度条,则使用下面这段代码:
- import urllib
- def callbackfunc(blocknum, blocksize, totalsize):
- '''''回调函数
- @blocknum: 已经下载的数据块
- @blocksize: 数据块的大小
- @totalsize: 远程文件的大小
- '''
- percent = 100.0 * blocknum * blocksize / totalsize
- if percent > 100:
- percent = 100
- print "%.2f%%"% percent
- url = 'http://www.sina.com.cn'
- local = 'd:\\sina.html'
- urllib.urlretrieve(url, local, callbackfunc)
四. HTML网页基础知识及审查元素
HTML DOM是HTML Document Object Model(文档对象模型)的缩写,HTML DOM则是专门适用于HTML/XHTML的文档对象模型。熟悉软件开发的人员可以将HTML DOM理解为网页的API。它将网页中的各个元素都看作一个个对象,从而使网页中的元素也可以被计算机语言获取或者编辑。
DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中导航寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而 DOM 被认为是基于树或基于对象的。
HTML DOM 定义了访问和操作HTML文档的标准方法。 HTML DOM 把 HTML 文档呈现为带有元素、属性和文本的树结构(节点树)。它们都是一个节点(Node),就像公司的组织结构图一样。 我们现在从另一个角度来审视源代码,first.html的源码如下:
- <html>
- <head>
- <title>Python挖掘开发</title>
- </head>
- <body>
- 欢迎大家学习《基于Python的Web大数据爬取实战指南》! <br>
- </body>
- </html>
重点:
在网络爬虫中,通常需要结合浏览器来定位元素,浏览器右键通常包括两个重要的功能:查看源代码和审查或检查元素。
通过审查元素,可以定位到需要爬取图片或网页的HTML源文件,通常是table或div的布局,这些HTML标签通常是成对出现的,如<html></html>、<div></div>等;同时会包括一些属性id、name、class来指定该标签。如:
<div id="content" name="n1" class="cc">....</div>
五. 安装Selenium及网页简单爬取
Selenium用于Web应用程序测试的工具,模拟浏览器用户操作,通过Locating Elements 定位元素。安装过程如下图所示,通过pip install selenium安装。
注意:需要cd去到Scripts目录进行安装。
selenium结合浏览器定位的基本函数包括:
推荐文章,同时下节课会详细介绍。
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
第一个基于Selenium爬虫的代码,通过调用Firefox浏览器:
- #coding=utf-8
- import os
- import urllib
- from selenium import webdriver
- from selenium.webdriver.common.keys import Keys
- #Open PhantomJS
- #driver = webdriver.PhantomJS(executable_path="phantomjs-1.9.1-windows\phantomjs.exe")
- driver = webdriver.Firefox()
- #访问url
- driver.get("https://www.baidu.com/")
- print u'URL:'
- print driver.current_url
- #当前链接: https://www.baidu.com/
- print u'标题:'
- print driver.title
- #标题: 百度一下, 你就知道
- #print driver.page_source
- #源代码
- #定位元素,注意u1(数字1)和ul(字母L)区别
- print u'\n\n定位元素id:'
- info1 = driver.find_element_by_id("u1").text
- print info1
- #定位元素
- print u'\n\n定位元素xpath:'
- info3 = driver.find_element_by_xpath("//div[@id='u1']/a")
- print info3.text
参考:http://blog.csdn.net/eastmount/article/details/52577215
- 安装Python及爬虫入门介绍
- [Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
- 【Python数据挖掘课程】一.安装Python及爬虫入门介绍
- Python数据挖掘课程 一.安装Python及爬虫入门介绍
- [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)
- python爬虫入门--Requests库介绍及实例
- python爬虫入门--Beautiful Soup库介绍及实例
- Python介绍及安装
- python安装及入门
- Python入门及安装
- python爬虫框架Scrapy入门:安装
- [python知识] 爬虫知识之BeautifulSoup库安装及简单介绍
- [python知识] 爬虫知识之BeautifulSoup库安装及简单介绍
- Python爬虫 | Python爬虫入门
- python Scrapy安装、教程、及爬虫
- Scrapy安装介绍及入门
- SASS入门介绍及安装
- Python爬虫入门 | 1 Python环境的安装
- 如何让一段代码tomcat启动就运行
- AJAX入门基础
- 常用的git命令和它与github的那些事
- UVALive 7500 Boxes and Balls(模拟,二分)
- 【9605】智力大冲浪
- 安装Python及爬虫入门介绍
- nginx 中 相关配置信息
- 一步一步学调试——gdb命令小结
- 在 Sublime Text 3 中配置编译和运行 Java 程序
- zabbix监控memcache状态
- msysgit和github 结合使用
- spring 的"零配置"支持
- 4 以太网设备
- CSS(一)_语法,选择器,创建