python NLP总结

来源：互联网发布：淘宝明星同款违规吗编辑：程序博客网时间：2024/06/05 09:34

1 https://www.zhihu.com/question/19929473

目前常用的自然语言处理开源项目/开发包有哪些？刘知远

2自然语言处理工具包spaCy介绍

spaCy 是一个Python自然语言处理工具包，诞生于2014年年中，号称“Industrial-StrengthNatural Language Processing in Python”，是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能，这个区别于学术性质更浓的Python NLTK，因此具有了业界应用的实际价值。

http://www.52nlp.cn/

基于词向量计算两个单词的相似度

3 word2vec+ transE 知识表示模型

http://www.cnblogs.com/chenbjin/p/5644457.html

4、Wiki语料处理

http://www.cnblogs.com/chenbjin/p/5635853.html

4.1中英文维基百科语料上的Word2Vec实验

http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C

5、中文语义依存分析：通往中文语义理解的一条蹊径http://www.tuicool.com/articles/Z3EfQz3

6、#THULAC# 我们推出的中文词法分析工具包 THULAC-Java 版刘知远

https://github.com/thunlp/THULAC-Java

7、https://www.zhihu.com/question/29372574

Python 的练手项目有哪些值得推荐？

8、https://github.com/chenbjin/RepresentationLearning/tree/master/Word2vec

chenbjin/RepresentationLearning

word2vec

9、一项工作：http://ir.ia.ac.cn/handle/173211/7768

面向网络的中文实体关系抽取

实体关系抽取是信息抽取的重要任务，该任务的的输入是多结构化的文本数据，包括：结构化的infobox信息框，半结构化的表格，以及非结构化的自由文本。该任务的输出是实体关系，可以表示为三元组（实体1，关系，实体2）的形式。对于结构化和半结构化数据，可以直接解析得到关系三元组，目前实体关系抽取的研究主要是从非结构化文本中抽取出实体关系。比如给定一个句子“姚明出生于上海”，实体关系抽取算法需要从中抽取出实体关系“<姚明, 出生地, 上海>”。这些抽取出来的三元组集合，可以构建知识库，对问答系统，语义网，机器翻译等都有非常重大的意义。现在互联网上有海量的中文数据，而且中文互联网用户数量巨大，对中文实体关系抽取的研究有着很好的应用前景。但是当前大部分实体关系的抽取研究都是处理英文数据，基于中文语料的工作很少。和英文相比，中文句子需要分词，中文语言也没有时态，字母大小写等特征，所以基于中文的实体关系抽取的研究更难，更有挑战性。本文针对中文实体关系抽取的方法进行了探索和研究，主要的创新和研究成果有：

1.构建了一个中文语义知识库。爬取百度百科和互动百科的网页数据，抽取其中结构化部分，转化为关系三元组<实体1,关系词,实体2>的形式存储起来，构建中文语义知识库。当给定的待抽取关系词在知识库中的频数大于某阈值，则认为该关系词为高频关系词，否则认为该关系词为低频关系词。

2.对于高频关系词的抽取，转换为序列标注问题。高频关系词在知识库中对应丰富的关系三元组集合，这些三元组数据可以采用打分策略在文本中回标候选句子，自动构建训练语料。采用关键词匹配策略在待抽取词条页面中定位到需要抽取的句子，训练条件随机场模型标注待抽取部分，然后根据标注的结果提取关系三元组。实验对比选择候选句子的不同策略，然后从准确率和召回率的侧重点给出不同的建议。

3.应用领域知识和规则进行低频关系词的实体关系抽取，该方法有效避免了低频关系词无法自动标注训练语料的问题。确定待抽取关系词前后实体的类别，扩充表达该关系的关键词库，借助实体类别词库数据，根据实体对和关键词在文本中共现的策略，抽取相应的关系三元组。另外，采用关联分析的方法学习规则，可以挖掘出非常丰富的关系词模板。

4.利用word2vec训练词向量进行中文实体关系的判断和抽取。利用google开源工具包word2vec，结合百度百科的文本数据，学习得到词向量，通过实验评估词向量的效果。根据词向量，学习得到待抽取关系词对应的关系矩阵，利用关系矩阵训练分类器，将实体关系抽取转换为二分类问题，通过分类结果判断实体对中是否存在特定的关系，来获取关系三元组。

10 http://www.52nlp.cn/getting-started-in-natural-language-processing

我爱自然语言处理

11http://www.cnblogs.com/chenssy/category/525010.html

Java学习

12http://blog.csdn.net/a_step_further/article/details/50333961

Hanlp分词

13？词向量句向量 doc2vec

[Algorithm& NLP]文本深度表示模型——word2vec&doc2vec词向量模型

http://www.cnblogs.com/maybe2030/p/5427148.html#top

14https://seofangfa.com/other-note/word2vec%E8%AF%8D%E5%90%91%E9%87%8F%E8%AE%AD%E7%BB%83%E5%8F%8A%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E7%9B%B8%E4%BC%BC%E5%BA%A6%E8%AE%A1%E7%AE%97-eastmount%E7%9A%84%E4%B8%93%E6%A0%8F-%E5%8D%9A.html

word2vec词向量训练及中文文本相似度计算– Eastmount的专栏– 博客频道 – CSDN.NET

15 http://www.mamicode.com/info-detail-859790.html词向量表示句子

阅读全文

0 0