jieba词性和句法分析树标注集
来源:互联网 发布:兄贵音源软件 编辑:程序博客网 时间:2024/05/21 13:05
句法分析树标注集:
ROOT 原始语句;IP简单句;NP 名词短语;VP动词短语;PU 断句符,通常是句号、问号、感叹号等标点符号;
LCP 方位词短语;PP介词短语;CP 由’的‘构成的修饰性关系的短语;DNP由’的‘构成的表示所属关系的短语;
ADVP 副词短语;ADJP 形容词短语;DP 限定词短语;QP 量词短语;NN常用名词;NR 固有名词;NT时间名词;
PN 代词;V V动词;VC 是;CC 连词;VE 有;VA 表语形容词;AS 内容标记(如:了);VRD 动词复合词。
结巴词性表:
Ag
形语素
形容词性语素。形容词代码为 a,语素代码g前面置以A。
a
形容词
取英语形容词 adjective的第1个字母。
ad
副形词
直接作状语的形容词。形容词代码 a和副词代码d并在一起。
an
名形词
具有名词功能的形容词。形容词代码 a和名词代码n并在一起。b
区别词
取汉字“别”的声母。c
连词
取英语连词 conjunction的第1个字母。副语素
副词性语素。副词代码为 d,语素代码g前面置以D。d
副词
取 adverb的第2个字母,因其第1个字母已用于形容词。e
叹词
取英语叹词 exclamation的第1个字母。f
方位词
取汉字“方”g
语素
绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。h
前接成分
取英语 head的第1个字母。i
成语
取英语成语 idiom的第1个字母。j
简称略语
取汉字“简”的声母。k
后接成分
l
习用语
习用语尚未成为成语,有点“临时性”,取“临”的声母。m
数词
取英语 numeral的第3个字母,n,u已有他用。Ng
名语素
名词性语素。名词代码为 n,语素代码g前面置以N。n
名词
取英语名词 noun的第1个字母。nr
人名
名词代码 n和“人(ren)”的声母并在一起。ns
地名
名词代码 n和处所词代码s并在一起。nt
机构团体
“团”的声母为 t,名词代码n和t并在一起。nz
其他专名
“专”的声母的第 1个字母为z,名词代码n和z并在一起。o
拟声词
取英语拟声词 onomatopoeia的第1个字母。p
介词
取英语介词 prepositional的第1个字母。q
量词
取英语 quantity的第1个字母。r
代词
取英语代词 pronoun的第2个字母,因p已用于介词。s
处所词
取英语 space的第1个字母。tg
时语素
时间词性语素。时间词代码为 t,在语素的代码g前面置以T。t
时间词
取英语 time的第1个字母。u
助词
取英语助词 auxiliaryvg
动语素
动词性语素。动词代码为 v。在语素的代码g前面置以V。v
动词
取英语动词 verb的第一个字母。vd
副动词
直接作状语的动词。动词和副词的代码并在一起。vn
名动词
指具有名词功能的动词。动词和名词的代码并在一起。w
标点符号
x
非语素字
非语素字只是一个符号,字母 x通常用于代表未知数、符号。y
语气词
取汉字“语”的声母。z
状态词
取汉字“状”的声母的前一个字母。un
未知词
不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)参考:http://3y.uu456.com/bp-cfb032eq81c7s8fsf61f676d-1.html
http://blog.csdn.net/xiangtaoxiangtao/article/details/50479490
http://www.cnblogs.com/tomato0906/articles/5600348.html
http://blog.csdn.net/kevin_darkelf/article/details/39520881
http://www.cnblogs.com/adienhsuan/p/5674033.html
- jieba词性和句法分析树标注集
- 句法分析树标注集
- jieba分词词性标注含义
- Python 文本挖掘:jieba中文分词和词性标注
- Python 文本挖掘:jieba中文分词和词性标注
- 使用Stanford CoreNLP的Python封装包处理中文(分词、词性标注、命名实体识别、句法树、依存句法分析)
- python的jieba分词词性标注
- jieba分词、关键词提取、词性标注
- nlp 总结 分词,词义消歧,词性标注,命名体识别,依存句法分析,语义角色标注
- 计算所词性标注集
- 北大词性标注集
- ANSJ词性标注集
- jieba分词/载入词典/抽取关键词/标注词性
- ICTCLAS 汉语词性标注集
- ICTCLAS2008汉语词性标注集
- 中科院词性标注标记集
- ICTCLAS 汉语词性标注集
- Penn Treebank 词性标注集
- 玲珑学院OJ 1074 Pick Up Coins【区间dp】
- IntelliJ IDEA For Mac 快捷键
- 2016-前端面试
- ZOJ
- C++输入输出流缓冲区
- jieba词性和句法分析树标注集
- [生存志] 第130节 司马著史记
- Python位运算符
- POJ2823_Sliding Window_优先队列||线段树
- iOS开发零基础教程之真机调试流程
- Linux系统升级bash安装 ---待更新
- android开发中Canvas.save()、Canvas.restore()的区别与联系
- 删除Vector 结构体元素相同的,保留后面一个
- 自定义ToolBar与ToolBar的封装,使ToolBar的Title居中