python异常处理与调试,正则表达式

来源:互联网 发布:数据结构与算法c pdf 编辑:程序博客网 时间:2024/05/16 14:29

####异常处理与调试####

1.cacl包里没加if __name__ == "__main__":时,hell.py在调用mun中的方法时,会执行mun中的print,加了之后则没有。

2.错误
•有的错误是程序编写有问题造成的,比如本来应该输出整数结果输出了字符
串,这种错误我们通常称之为 bug,bug 是必须修复的。
•有的错误是用户输入造成的,比如让用户输入 email 地址,结果得到一个空字
符串,这种错误可以通过检查用户输入来做相应的处理。
•还有一类错误是完全无法在程序运行过程中预测的,比如写入文件的时候,磁盘
满了,写不进去了,这类错误也称为异常,在程序中通常是必须处理的,否则,程序会
因为各种问题终止并退出。

3.错误处理
• 在程序运行的过程中,如果发生了错误,可以事先约定返回一个错误代码;


• Python语言通常都内置了一套 try...except...finally... 的错误处理机制
try:
print 'try...'
r = 10 / 0
print 'result:', r
except ZeroDivisionError, e:
print 'except:', efinally:
print 'finally...'
print 'END'
- 用 try 来运行可能会出错的代码;
- 如果执行正确,则except 语句块不会执行;
- 如果执行错误,直接跳转至错误处理代码,即except语句块;
- 如果有 finally 语句块,不管try语句块内容是否正确,都会执行 finally语句块
• 错误有很多种类,如果发生了不同类型的错误,应该由不同的 except语句块处理。因此可以有多个 except 来捕获不同类型的错误。
eroDivisionError:', e
print 'ValueError:', e
except ZeroDivisionError, e:
print 'ZeroDivisionError:', e
• Python 的错误其实也是 class,所有的错误类型都继承自BaseException;
• 在使用except 捕获该类型的错误,还把其子类也“一网打尽”;
•常见的错误类型和继承关系看这里:
https://docs.python.org/2/library/exceptions.html#exception­hierarchy



4.读懂复杂的错误
•解读错误信息是定位错误的关键。我们从上往下可以看到整个错误的调用函数链。
def foo(s):
return 10 / int(s)
def bar(s):
return foo(s) * 2
def main():
bar('0')
main()


5.记录错误
• 不捕获错误,Python 解释器会打印出错误信息,但程序也被结束;
• 捕获错误,就可以把错误信息打印出来,然后分析错误原因,同时,让程序继续执行下去。
• Python 内置的 logging 模块可以记录错误信息。
logging.exception(e)


6.抛出错误
• 错误是 class,捕获一个错误就是捕获到该 class 的一个实例;


• Python 的内置函数会抛出很多类型的错误,我们自己编写的函数也可以抛出错误。
• 可以定义一个错误的 class,选择好继承关系,然后,用raise 语句抛出一个错误的实例;
• 尽量使用 Python 内置的错误类型抛出错误
class FooError(StandardError):
pass
def foo(s):
n = int(s)
if n==0:
raise FooError('invalid value: %s' % s)
return 10 / n


7.调试- print
第一种方法简单直接粗暴有效,就是用 print 把可能有问题的变量打印出来看看。用 print 最大的坏处是将来还得删掉它,运行结果也会包含很多垃圾信息。

8.调试- 断言
• 凡是用 print 来辅助查看的地方,都可以用断言(assert)来替代:;
• 如果断言失败, assert 语句本身就会抛出 AssertionError


assert n!=0
assert hello() = "hello"
• Python 解释器执行时可以用 -O 参数来关闭 assert,把所有的 assert 语句当成 pass。


9.调试- logging
• logging 不会抛出错误,而且可以输出到文件;
• logging.info() 就可以输出一段文本到日志文件中。
• logging.basicConfig(level=logging.INFO)指定记录信息的级别,有debug , info , warning , error等几个级别。
import logging
s = '0'
n = int(s)
logging.basicConfig(filename="/home/kiosk/hello.log
",level=logging.INFO)
logging.info('n=%d' %n)
print 10/n




10.调试- pdb
•pdb
pdb让程序以单步方式运行,随时查看运行状态。n 可以单步执行代码,p 变量名 来查看变量,q 结束调试,退出程序。


•pdb.set_trace
在可能出错的地方放一个 pdb.set_trace() ,就可以设置一个断点。程序会自动在在 pdb.set_trace() 暂停并进入 pdb 调试环境, p 查看变量, c 继续运
行。




####正则表达式####


1.正则表达式
是一种用来匹配字符串的强有力的武器。
它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,
否则,该字符串就是不合法的。


2.基本模式
• 字面模式: 就是字面长量,就代表其本身
• . 匹配任何字符
• \w 匹配一个单词(字母) \W 匹配非字母
• \s 匹配空白 \S 匹配非空白字符
• \d 匹配数字
• ^ 开头 $ 结尾
• \ 转义字符


3.次数的匹配
次数的匹配 , 匹配其前面的字符出现的次数 :
• * 0 次或多次
• + 一次或多次
• ? 零次或一次
• {n} 出现 n 次
• {m,n} 出现 m 到 n 次


4.中括号
• 中括号用于指向一个字符集合
• 中括号可以使用元字符
• 中括号中的. 表示其字面意思
[a-z] [A-Z] [0-9] [A-Za-z]中括号
• [0-9a-zA-Z\_] 可以匹配一个数字、字母或者下划线;
• [0-9a-zA-Z\_]+ 可以匹配至少由一个数字、字母或者下划线组成的字符串;
• [a-zA-Z\_][0-9a-zA-Z\_]{0, 19} 更精确地限制了变量的长度是 1­20个字符;
•A|B 可以匹配 A 或 B
•^\d 表示必须以数字开头
• \d$ 表示必须以数字结束思考


• 判断一个字符串是否是合法的 Email 的方法;

判断满足029-1234567这样要求的电话号码的方法;


5.re 模块
r = r'hello'
re.match(r, 'hello')
re.match(r, 'westos')
match() 方法判断是否匹配,如果匹配成功,返回一个 Match对象,否则返回 None 。

6.分组
m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
m.group(0)
m.group(1)
m.group(2)

7.贪婪匹配
正则匹配默认是贪婪匹配,也就是匹配尽可能多的字符
>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')
• \d+ 采用贪婪匹配,直接把后面的 0 全部匹配了,结果 0* 只能匹配空字符串
• 必须让 \d+ 采用非贪婪匹配(也就是尽可能少匹配),才能把后面的 0 匹配出来,加个 ? 就可以让 \d+ 采用非贪婪匹配

8.编译
当我们在 Python 中使用正则表达式时,re 模块内部会干两件事情:
1. 编译正则表达式,如果正则表达式的字符串本身不合法,会报错;
2. 用编译后的正则表达式去匹配字符串。
重复使用几千次,出于效率的考虑,我们可以预编译该正则表达式。
r = r'hello'
r_compile = r.compile(r)
r_compile .match()


练习
基础版:有一个日志文件access.log,统计访问前十的 IP 地址和访问次数。
升级版:有多个日志文件access.log,统计访问前十的 IP 地址和访问次数。

9.总结
• re.match(p,text) :p 为正则表达式模式, text 要查找的字符串,会返回一个match 对象


• re.search(p,text) : 只要在 text 中匹配到了 p 就返回,只返回第一个匹配到的


• re.findall(p,text) :将能匹配上的全返回,会返回一个 list
• re.split(p,text) : 按照 p 匹配,并且以匹配到的字符为分隔符切割 text, 返回一个切割后的 list


• re.sub(p,s,text) : 替换,将 p 匹配到的字符替换为 s.

re.finditer


• pattern = re.compile(p) 先编译 p 模式,当正则表达式模式比较复杂的时候,会先编译,然后再使用


eg:

1>

2>