pyahocorasick使用
来源:互联网 发布:网络推手网站大全 编辑:程序博客网 时间:2024/06/16 19:07
据说pyahocorasick也是一直字符串匹配方法,上午一直迷迷糊糊想睡觉,看了半天ahocorasick看不明白,以前以为匹配只有正则表达式或者kmp算法,这个ahocorasick是个什么东西。
地址:http://blog.csdn.net/pirage/article/details/51657178
pyahocorasick是个python模块,由两种数据结构实现:trie和Aho-Corasick自动机。
Trie是一个字符串索引的词典,检索相关项时时间和字符串长度成正比。
AC自动机能够在一次运行中找到给定集合所有字符串。AC自动机其实就是在Trie树上实现KMP,可以完成多模式串的匹配。
(推荐学习资料:http://blog.csdn.net/niushuai666/article/details/7002823;http://www.cnblogs.com/kuangbin/p/3164106.html)
作者
Wojciech Muła, wojciech_mula@poczta.onet.pl
官方地址:
https://pypi.python.org/pypi/pyahocorasick/
安装
- 1
API
模块ahocorasick包含几个常量和Automaton类
Unicode和bytes
Automaton接受和返回的字符串既可以是unicode,也可以是bytes,取决于编译阶段设置。用模块成员unicode表示选择的类型。
需要注意的是:如果选择使用unicode,trie存储每个字母时用2或者4个bytes;如果选择bytes,每个字母只需要一个byte。
constants
- unicode:
- STORE_ANY,STORE_INTS,STORE_LENGTH
- EMPTY,TRIE,AHOCORASICK
- MATCH_EXACT_LENGTH,MATCH_AT_MOST_PREFIX,MATCH_AT_LEAST_PREFIX
Antomaton类
略。有兴趣了解请看官网介绍。
AutomatonSearchIter类
略。有兴趣了解请看官网介绍。
示例
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
示例2
- pyahocorasick使用
- 【正则表达式】pyahocorasick介绍
- 使用
- 使用
- 使用
- 使用
- 使用
- 使用
- 使用++,--
- 使用$@ $!
- 使用
- SoftICE使用(指令使用)
- 使用GraphEdit使用
- 使用HtmlParser使用心得
- 时钟使用使用
- Ubuntu 使用Git 使用
- Ubuntu 使用Git 使用
- GUID使用的使用
- 浅谈数据结构(一)
- 初窥javaScrit权威指南,第二章语法结构
- angular里的filter过滤数据传参
- Spring 2.5配置文件详解(1)
- TensorFlow Object Detection API 实践
- pyahocorasick使用
- ssm 上传和下载
- 堆栈用链表实现压栈和出栈
- 类似美拍、秒拍、快手的短视频SDK
- [i.MX6Q][QNX Neutrino 6.6.0]调试笔记------LVDS显示配置
- MDK + STM32固件库 启动文件startup_stm32f10x_hd.s功用及注释
- java下载的excel显示发现不可读取的内容。是否恢复此工作薄的内容?如果信任此工作薄的来源,请单击‘是’。”
- SQLserver查询数据库中各表大小,行数...
- 解决svn:E155037错误(另附查看.db文件的工具)