spacy-入门02-helloworld
来源:互联网 发布:mac dare you diva 编辑:程序博客网 时间:2024/06/05 02:23
下载模型
spaCy目前支持的语言有英语、德语、法语,中文已经在版本规划中未来会有,中文处理可以使用spaCy的自定义语言处理,中文问题可以解决只是需要更多时间罢了。入门学习可以先考虑已经训练好的英语模型,spaCy提供了各种方法下载该模型,我使用了最简单的下载方法。
打开cmd(需管理员权限),键入如下指令,系统会将模型下载至默认的目录也就是python程序的site-packges目录下。需要注意的是(因为是从github下载内网可能有下载超时的问题)
python -m spacy download en
下载完成后site-packges中会出现一个新的目录site-packges/spacy/data/en,spaCy提供了许多模型,每种模型的大小不同会影响标注或者语法分析,因为入门不追求精度我下载的是最小的版本50M,最大的有1.3G但是精度比50M的要高很多。Hello spaCy
import spacy as spmodule_name = 'en' # 英文模型名称sentenc_line = u'Hello,spacy!.'sp.info(module_name) # spacy模型相关信息nlp = sp.load(module_name) # 加载模型doc = nlp(sentenc_line) # print([(word.text,word.pos) for word in doc]) # 打印单词及其词性
上述代码运行后就能看到简单的结果。# 建立doc,默认会将四个处理管道放入nlp对象中# 可以通过不同的调用来处理句子# 比如使用词性标注 nlp.tagger(doc)doc = nlp.make_doc(sentenc_line)for p in nlp.pipeline: print(p)
nlp.tagger(doc)print([word.pos for word in doc])前两篇比较简单,第一篇的格式因为CSDN没有预览代码命令行格式有点问题大家请见谅,接下来我会详细介绍使用spaCy词性标注、命名实体、语法解析、中文处理等内容。
必须要吐槽,CSDN的BLOG的排版格式非常有问题,一个BLOG居然没有预览功能也是够可以的了。
阅读全文
0 0
- spacy-入门02-helloworld
- spaCy-入门01-windows 环境搭建
- 入门 HelloWorld!
- spacy初学
- SWT 入门之 -> HelloWorld
- WebWork介绍-入门helloWorld
- J2ME入门之HelloWorld
- dwr入门之HelloWorld
- iText入门之HelloWorld
- Flex入门1-HelloWorld
- Resultful WebService 入门 helloworld
- cocos2d-iphone入门:HelloWorld
- java入门实例HelloWorld
- java入门实例HelloWorld
- jsf 入门 helloWorld
- Flex入门(二)HelloWorld
- Maven 3 入门 -- HelloWorld
- struts2入门helloworld
- 今天看了《海马记忆法》这本书
- QT Creator 使用seetaface
- 安装配置hadoop和eclipse插件遇到的坑和解决办法
- 深度学习论文(九)---DeepLabV2-Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,
- 推荐使用的几种单例模式
- spacy-入门02-helloworld
- C++ primer阅读笔记---------------IO
- 内核字节对齐 ping Error -- Unhandled fault: alignment exception
- 小程序tabBar的一些用法
- JAVA SE --接口
- 笔试题:利用素数定理计算100以内素数的个数
- BZOJ1798 AHOI2009 维护数列
- DELETE_FAILED_INTERNAL_ERROR 小米之殇
- HDU6129(杨辉三角和万恶的Lucas)