自然语言处理课程自学笔记(一)之python正则表达式
来源:互联网 发布:佳词网络科技集团 诈骗 编辑:程序博客网 时间:2024/06/06 00:56
处理字符的强有力的工具。
字符串操作
(1)去空格及特殊符号:
(2)连接字符串:
(3)查找字符:
若查找模式串则需要用正则表达式。
(4)比较字符串:
以前是cmp函数,现在改为operator。
函数返回布尔值(True or False)。
(5)字符串中大小写转换:
(6)翻转字符串:
(7)查找字符串:
(8)分割字符串:
第一种:
第二种:
(9)计算字符串中出现频次最多的字母:
第一种:
第二种:
第三种:
正则表达式
是处理字符串的强大工具,拥有独特的语法和独立的处理引擎。在一些复杂的情况下才会用到。
效率比str略差,但匹配功能强很多。
不是python独有的,其他语言也有。
语法
当你想要匹配一个/多个/任意个数字/字母/非数字/非字母/某几个字符/任意字符,想要贪婪/非贪婪匹配,想要捕获匹配出来的第一个/所有内容的时候,一下可以参考:
常用的有
. 匹配除掉换行符以外的所有字符
\d 匹配所有的数字
\D 匹配除数字以外的所有的字符
\s 匹配空格、换行符、Tab等(肉眼所见为空白的字符)
\S 匹配除空格、换行符、Tab等以外的所有字符
\w 匹配单词字符(a-z,A-Z,0-9,_)
\W 匹配除单词字符以外所有的字符
[] 匹配括号中的字符(自己制指定)
\d{2} 匹配2个一起的数字字符
\d{2,4} 匹配2个一起/3个一起/4个一起的数字字符
? 匹配前面字符0次/1次 (abc?—-ab/abc)
+ 匹配前面字符1次或无限次 (abc+ —-abc/abcccc)
* 匹配前面字符0次或无限次 (abc* —-ab/abcccc)(a(bc)*——a/abcbcbcbc)
^w.*e$ 匹配以w开头,以e结尾的字符串
(at)|(ve) 匹配所有的at和ve
python案例
python通过 re模块提供对正则表达式的支持。
使用re步骤:
(1)将正则表达式的字符串形式编译为Pattern实例。
(2)使用Pattern实例处理文本并获得匹配结果(一个Match实例)
(3)使用Match实例获得信息,进行其他操作。
关于re.compile(strPattern[ ,flag])
flag可加可不加。
关于Match
例子:
关于Pattern
- 自然语言处理课程自学笔记(一)之python正则表达式
- python自然语言处理-学习笔记(一)
- 《Python自然语言处理》学习笔记(一)
- python自然语言处理(一)
- 自学Python之Python基础:(八)正则表达式
- Python 自然语言处理学习笔记(一)-- 软件安装需求
- 《Python进行自然语言处理》代码笔记(一):第一章示例
- (初学者)用Python进行自然语言处理笔记一
- python自然语言处理学习笔记一
- standford NLP课程笔记一 正则表达式
- Python 自然语言处理 一
- Python 正则表达式笔记(一)
- 《python自然语言处理》笔记
- python自然语言处理入门教程(一)
- Python之学习笔记(正则表达式)
- python自然语言处理-学习笔记(二)
- 《Python自然语言处理》学习笔记(二)
- 《Python自然语言处理》学习笔记(三)
- 从零开始的"E"世界(J2SE)
- Hadoop 2.6.5 Windows环境下安装
- 回文数字 观察数字:12321,123321都有一个共同的特征,无论从左到右读还是从右向左读;都是相同的。这样的数字叫做: 回文数字。 本题要求你找到一些5位或6位的十进制数字。满足要求: 该数字
- Python数据结构
- 100 单调性及极值复习 型一:极值点判断;型二:不等式证明
- 自然语言处理课程自学笔记(一)之python正则表达式
- Zookeeper(五)Watcher机制
- [noip2015]神奇的幻方 题解
- Java开发环境搭建--Ubuntu14.04安装mysql5.6
- java线程的终止与中断
- Redis 入门介绍
- Spring配置文件<context:property-placeholder>标签使用
- BZOJ 2079 [Poi2010]Guilds 巧解
- nltk练习题