python NLP总结

来源:互联网 发布:淘宝明星同款违规吗 编辑:程序博客网 时间:2024/06/05 09:34

1   https://www.zhihu.com/question/19929473

目前常用的自然语言处理开源项目/开发包有哪些?刘知远

 

 

2自然语言处理工具包spaCy介绍

spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-StrengthNatural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。

http://www.52nlp.cn/

基于词向量计算两个单词的相似度

 

word2vec+ transE 知识表示模型

http://www.cnblogs.com/chenbjin/p/5644457.html

 

 

4、Wiki语料处理

http://www.cnblogs.com/chenbjin/p/5635853.html

 

4.1中英文维基百科语料上的Word2Vec实验

 

http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C

 

 

 

5、中文语义依存分析:通往中文语义理解的一条蹊径http://www.tuicool.com/articles/Z3EfQz3

 

 

6、#THULAC# 我们推出的中文词法分析工具包 THULAC-Java  刘知远

https://github.com/thunlp/THULAC-Java

 

7、https://www.zhihu.com/question/29372574

Python 的练手项目有哪些值得推荐?

 

8、https://github.com/chenbjin/RepresentationLearning/tree/master/Word2vec

chenbjin/RepresentationLearning

 word2vec

 

 

 

9、一项工作:http://ir.ia.ac.cn/handle/173211/7768

面向网络的中文实体关系抽取

实体关系抽取是信息抽取的重要任务,该任务的的输入是多结构化的文本数据,包括:结构化的infobox信息框,半结构化的表格,以及非结构化的自由文本。该任务的输出是实体关系,可以表示为三元组(实体1,关系,实体2)的形式。对于结构化和半结构化数据,可以直接解析得到关系三元组,目前实体关系抽取的研究主要是从非结构化文本中抽取出实体关系。比如给定一个句子“姚明出生于上海”,实体关系抽取算法需要从中抽取出实体关系“<姚明, 出生地, 上海>”。这些抽取出来的三元组集合,可以构建知识库,对问答系统,语义网,机器翻译等都有非常重大的意义。 现在互联网上有海量的中文数据,而且中文互联网用户数量巨大,对中文实体关系抽取的研究有着很好的应用前景。但是当前大部分实体关系的抽取研究都是处理英文数据,基于中文语料的工作很少。和英文相比,中文句子需要分词,中文语言也没有时态,字母大小写等特征,所以基于中文的实体关系抽取的研究更难,更有挑战性。本文针对中文实体关系抽取的方法进行了探索和研究,主要的创新和研究成果有:

1.构建了一个中文语义知识库。爬取百度百科和互动百科的网页数据,抽取其中结构化部分,转化为关系三元组<实体1,关系词,实体2>的形式存储起来,构建中文语义知识库。当给定的待抽取关系词在知识库中的频数大于某阈值,则认为该关系词为高频关系词,否则认为该关系词为低频关系词。

2.对于高频关系词的抽取,转换为序列标注问题。高频关系词在知识库中对应丰富的关系三元组集合,这些三元组数据可以采用打分策略在文本中回标候选句子,自动构建训练语料。采用关键词匹配策略在待抽取词条页面中定位到需要抽取的句子,训练条件随机场模型标注待抽取部分,然后根据标注的结果提取关系三元组。实验对比选择候选句子的不同策略,然后从准确率和召回率的侧重点给出不同的建议。

3.应用领域知识和规则进行低频关系词的实体关系抽取,该方法有效避免了低频关系词无法自动标注训练语料的问题。确定待抽取关系词前后实体的类别,扩充表达该关系的关键词库,借助实体类别词库数据,根据实体对和关键词在文本中共现的策略,抽取相应的关系三元组。另外,采用关联分析的方法学习规则,可以挖掘出非常丰富的关系词模板。

4.利用word2vec训练词向量进行中文实体关系的判断和抽取。利用google开源工具包word2vec,结合百度百科的文本数据,学习得到词向量,通过实验评估词向量的效果。根据词向量,学习得到待抽取关系词对应的关系矩阵,利用关系矩阵训练分类器,将实体关系抽取转换为二分类问题,通过分类结果判断实体对中是否存在特定的关系,来获取关系三元组。

10 http://www.52nlp.cn/getting-started-in-natural-language-processing

我爱自然语言处理

 

11http://www.cnblogs.com/chenssy/category/525010.html

Java学习

 

 

12http://blog.csdn.net/a_step_further/article/details/50333961

Hanlp分词

 

 

 

13?词向量  句向量   doc2vec

[Algorithm& NLP]文本深度表示模型——word2vec&doc2vec词向量模型

http://www.cnblogs.com/maybe2030/p/5427148.html#top

 

 

14https://seofangfa.com/other-note/word2vec%E8%AF%8D%E5%90%91%E9%87%8F%E8%AE%AD%E7%BB%83%E5%8F%8A%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E7%9B%B8%E4%BC%BC%E5%BA%A6%E8%AE%A1%E7%AE%97-eastmount%E7%9A%84%E4%B8%93%E6%A0%8F-%E5%8D%9A.html

word2vec词向量训练及中文文本相似度计算– Eastmount的专栏– 博客频道 – CSDN.NET

 

15 http://www.mamicode.com/info-detail-859790.html词向量表示句子