Stanford CoreNLP学习日记1

来源：互联网发布：python 循环编辑：程序博客网时间：2024/05/21 15:13

1. Stanford CoreNLP

解析：tokenize，cleanxml，ssplit，pos，lemma，ner，regexner，sentiment，truecase，parse，depparse，

dcoref，relation，natlog，quote。

2. NLTK（Natural Language Toolkit）

解析：NLTK是一个开源的自然语言处理工具包，包含Python模块，数据集和教程，用于NLP的研究和开发。

3. WordNet

解析：WordNet是一部在线词典数据库系统，采用与传统词典不同方式，即按照词义而不是词形来组织词汇信息。

4. 语料库语言学

解析：语料库语言学（Corpus Linguistics）主要研究机器可读的自然语言文本的采集、存储、检索、统计、词性和句

法标注、句法语义分析，以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机

器翻译等领域中的应用。

5. 词性标注

解析：

（1）ADJ：形容词。比如，new，good，high，special，big，local。

（2）ADV：副词。比如，really，already，still，early，now。

（3）CNJ：连词。比如，and，or，but，if，while，although。

（4）DET：限定词。比如，the，a，some，most，every，no。

（5）EX：存在量词。比如，there，there's。

（6）FW：外来词。比如，dolce，ersatz，esprit，quo，maitre。

（7）MOD：情态动词。比如，will，can，would，may，must，should。

（8）N：名词。比如，year，home，costs，time，education。

（9）NP：专有名词。比如，Alison，Africa，April，Washington。

（10）NUM：数词。比如，twenty-four，fourth，1991，14:24。

（11）PRO：代词。比如，he，their，her，its，my，I，us。

（12）P：介词。比如，on，of，at，with，by，into，under。

（13）TO：词to。比如，to。

（14）UH：感叹词。比如，ah，bang，ha，whee，hmpf，oops。

（15）V：动词。比如，is，has，get，do，make，see，run。

（16）VD：过去式。比如，said，took，told，made，asked。

（17）VG：现在分词。比如，making，going，playing，working。

（18）VN：过去分词。比如，given，taken，begun，sung。

（19）WH：Wh限定词。比如，who，which，when，what，where，how。

6. N-gram标注器

解析：1-gram标注器是一元标注器（unigram tagger）另一个名称：即用于标注一个标识符的上下文的只是标识符本

身。2-gram标注器也称为二元标注器（bigram taggers），3-gram标注器也称为三元标注器（trigram taggers）。

7. NLTK模块

解析：

（1）获取和处理语料库：nltk.corpus；语料库和词典的标准化接口。

（2）字符串处理：nltk.tokenize，nltk.stem；分词，句子分解提取主干。

（3）搭配发现：nltk.collocations；t-检验，卡方，点互信息PMI。

（4）词性标识符：nltk.tag；n-gram， backoff， Brill， HMM， TnT。

（5）分类：nltk.classify，nltk.cluster；决策树，最大熵，贝叶斯， EM， k-means。

（6）分块：nltk.chunk；正则表达式， n-gram，命名实体。

（7）解析：nltk.parse；图表，基于特征，一致性，概率，依赖。

（8）语义解释：nltk.sem，nltk.inference；λ演算，一阶逻辑，模型检验。

（9）指标评测：nltk.metrics；精度，召回率，协议系数。

（10）概率与估计：nltk.probability；频率分布，平滑概率分布。

（11）应用：nltk.app，nltk.chat；图形化的关键词排序，分析器，WordNet查看器，聊天机器人。

（12）语言学领域的工作：nltk.toolbox；处理SIL工具箱格式的数据。

8. 常用命名实体类型

解析：

（1）组织：Georgia-Pacific Corp.，WHO。

（2）人：Eddy Bonte，President Obama。

（3）地点：Murray River，Mount Everest。

（4）日期：June，2008-06-29。

（5）时间：two fifty a m，1:30 p.m.。

（6）货币：175 million Canadian Dollars，GBP 10.40。

（7）百分数：twenty pct，18.75 %。

（8）设施：Washington Monument，Stonehenge。

（9）地缘政治实体：South East Asia，Midlothian。

9. jieba支持三种分词模式（默认是精确模式）

解析：

（1）精确模式，试图将句子最精确地切开，适合文本分析；

（2）全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义；

（3）搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

10. 中文词汇状态标记

解析：中文词汇按照BEMS四个状态来标记，B是开始begin位置，E是end，是结束位置，M是middle，是中间位置，

S是singgle，单独成词的位置，没有前，也没有后。即采用状态为(B，E，M，S)这四种状态来标记中文词语，比如北

京可以标注为 BE，即北/B 京/E，表示北是开始位置，京是结束位置，中华民族可以标注为BMME，就是开始，中

间，中间，结束。

（1）prob_trans.py：位置转换概率，即B（开头），M（中间），E（结尾），S（独立成词）四种状态转移概率。

如下所示：

{‘B’: {‘E’: 0.8518218565181658, ‘M’: 0.14817814348183422},‘E’: {‘B’: 0.5544853051164425, ‘S’: 0.44551469488355755}, ‘M’: {‘E’: 0.7164487459986911, ‘M’: 0.2835512540013088}, ‘S’: {‘B’: 0.48617017333894563,‘S’: 0.5138298266610544}}

（2）prob_emit.py：位置到单字的发射概率，比如P(“和”|M)表示一个词的中间出现”和”这个字的概率。

（3）prob_start.py：词语以某种状态开头的概率，其实只有两种，要么是B，要么是S。这个是起始向量，即HMM系

统的最初模型状态。

11. Trie树

解析：Trie树是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于

字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是利用字符串的公共前缀来减少查询时间，最大限

度地减少无谓的字符串比较，查询效率比哈希树高。

12. 句法依存分析

解析：句法依存分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。

（1）主谓关系：SBV：我送她一束花（我<--送）。

（2）动宾关系：VOB：我送她一束花（送-->花）。

（3）间宾关系：IOB：我送她一束花（送-->她）。

（4）前置宾语：FOB：他什么书都读（书<--读）。

（5）兼语：DBL：他请我吃饭（请-->我）。

（6）定中关系：ATT：红苹果（红<--苹果）。

（7）状中结构：ADV：非常美丽（非常<--美丽）。

（8）动补结构：CMP：做完了作业（做-->完）。

（9）并列关系：COO：大山和大海（大山-->大海）。

（10）介宾关系：POB：在贸易区内（在-->内）。

（11）左附加关系：LAD：大山和大海（和<--大海）。

（12）右附加关系：RAD：孩子们（孩子-->们）。

（13）独立结构：IS：两个单句在结构上彼此独立。

（14）核心关系：HED：指整个句子的核心。

13. 语义依存分析（树和图）

解析：语义依存分析不受句法结构的影响，将具有直接语义关联的语言单元直接连接依存弧并标记上相应的语义关

系。它的目标是跨越句子表层句法结构的束缚，直接获取深层的语义信息。语义依存关系分为三类，分别是主要语义

角色，每一种语义角色对应存在一个嵌套关系和反关系；事件关系，描述两个事件间的关系；语义依附标记，标记说

话者语气等依附性信息。如下所示：

（1）施事关系：Agt：我送她一束花（我<--送）。

（2）当事关系：Exp：我跑得快（跑-->我）。

（3）感事关系：Aft：我思念家乡（思念-->我）。

（4）领事关系：Poss：他有一本好读（他<--有）。

（5）受事关系：Pat：他打了小明（打-->小明）。

（6）客事关系：Cont：他听到鞭炬声（听-->鞭炮声）。

（7）成事关系：Prod：他写了本小说（写-->小说）。

（8）源事关系：Orig：我军缴获敌人四辆坦克（缴获-->坦克）。

（9）涉事关系：Datv：他告诉我个秘密（告诉我）。

（10）比较角色：Comp：他成绩比我好（他-->我）。

（11）属事角色：Belg：老赵有俩女儿（老赵<--有）。

（12）类事角色：Clas：他是中学生（是-->中学生）。

（13）依据角色：Accd：本庭依法宣判（依法<--宣判）。

（14）缘故角色：Reas：他在愁女儿婚事（愁-->婚事）。

（15）意图角色：Int：为了金牌他拼命努力（金牌<--努力）。

（16）结局角色：Cons：他跑了满头大汗（跑-->满头大汗）。

（17）方式角色：Mann：球惺惺滚进空门（慢慢<--滚）。

（18）工具角色：Tool：她用砂锅熬粥(砂锅<--熬粥)。

（19）材料角色：Malt：她用小米熬粥（小米<--熬粥）。

（20）时间角色：Time：唐朝有个李白（唐朝<--有）。

（21）空间角色：Loc：这房子朝南（朝--> 南）。

（22）历程角色：Proc：火车正在过长江大桥（过--> 大桥）。

（23）趋向角色：Dir：部队奔向南方（奔-->南）。

（24）范围角色：Sco：产品应该比质M (比-->质量)。

（25）数量角色：Quan：一年有365天（有-->天）。

（26）数量数组：Qp：三本书（三-->本）。

（27）频率角色：Freq：他每天看书（每天<--看）。

（28）顺序角色：Seq：他跑第一（跑-->第一）。

（29）描写角色：Desc(Feat)：他长得胖(长-->胖)。

（30）宿主角色：Host：住房面积（住房<--面积）。

（31）名字修饰角色：Nmod：栗戈里大街（果戈里<--大街）。

（32）时间修饰角色：Tmod：星期一上午（星期一<--上午）。

（33）反角色：r+main role：打篮球的小姑娘（打篮球<--姑娘）。

（34）嵌套角色：d+main role：爷爷看见孙子在跑（看见-->跑）。

（35）并列关系：eCoo：我喜欢唱歌和跳舞（唱歌-->跳舞）。

（36）选择关系：eSelt：您是喝茶还是喝咖啡（茶-->咖啡）。

（37）等同关系：eEqu：他们三个人一起走（他们-->三个人）。

（38）先行关系：ePrec：首先，先。

（39）顺承关系：eSucc：随后，然后。

（40）递进关系：eProg：况且，并且。

（41）转折关系：eAdvt：却，然而。

（42）原因关系：eCau：因为，既然。

（43）结果关系：eResu：因此，以致。

（44）推论关系：elnf：才，则。

（45）条件关系：eCond：只要，除非。

（46）假设关系：eSupp：如果，要是。

（47）让步关系：eConc：纵使，哪怕。

（48）手段关系：eMetd。

（49）目的关系：ePurp：为了，以便。

（50）割舍关系：eAban：与其，也不。

（51）选取关系：ePref：不如，宁愿。

（52）总括关系：eSum：总而言之。

（53）分叙关系：eRect：例如，比方说。

（54）连词标记：mConj：和，或。

（55）的字标记：mAux：的，地，得。

（56）介词标记：mPrep：把，被。

（57）语气标记：mTone：吗，呢。

（58）时间标记：mTime：才，曾经。

（59）范围标记：mRang：都，到处。

（60）程度标记：mDegr：很，稍微。

（61）频率标记：mFreq：再，常常。

（62）趋向标记：mDir：上去，下来。

（63）播入语标记：mPars：总的来说，众所周知。

（64）否定标记：mNeg：不，没，未。

（65）情态标记：mMod：幸亏，会，能。

（66）标点标记：mPunc：,。!。

（67）重复标记：mPept：走啊走（走-->走）。

（68）多数标记：mMaj：们，等。

（69）实词虚化标记：mVain。

（70）离合标记：mSepa：吃了个饭（吃-->饭），洗了个澡（洗-->澡）。

（71）根节点：Root：全句核心节点。

说明：语义依存与语义角色标注之间也存在关联，语义角色标注只关注句子主要谓词的论元及谓词与论元之间的关

系，而语义依存不仅关注谓词与论元的关系，还关注谓词与谓词之间、论元与论元之间、论元内部的语义关系。语义

依存对句子语义信息的刻画更加完整全面。

参考文献：

[1] fudannlp：https://code.google.com/archive/p/fudannlp/downloads

[2] 语言云API使用文档：http://www.ltp-cloud.com/document/

[3] 中国科学院计算所智能信息处理重点实验室：http://nlp.ict.ac.cn/2017/index_zh.php

[4] 国内外自然语言处理（NLP）研究组：http://blog.csdn.net/wangxinginnlp/article/details/44890553

[5] 国内有哪些自然语言处理的牛人或团队：https://www.zhihu.com/question/24366306

[6] NLPIR/ICTCLAS2016分词系统：http://ictclas.nlpir.org/

[7] HanLP自然语言处理包开源：http://www.hankcs.com/nlp/hanlp.html

[8] hankcs/HanLP：https://github.com/hankcs/HanLP

[9] Apache OpenNLP：http://opennlp.apache.org/

[10] CRF++：https://sourceforge.net/projects/crfpp/files/crfpp/0.54/

[11] FudanNLP/fnlp：https://github.com/FudanNLP/fnlp

阅读全文

1 0