【2017-10-30】这是一个新的Flag

来源：互联网发布：java的四大特性编辑：程序博客网时间：2024/05/23 14:38

心血来潮，又随口立下了一个flag，一个小习惯的坚持先从三十天开始吧。
还是那句，最坏不过一条路走到黑。

1.论文要点

Traditionally,systems of entity relation extraction have relied on human-annotated corpora for training and adopted an incremental pipeline. Such systems require additional human expertise to be ported to a new domain, and are vulnerable to errors cascading down the pipeline.

pipeline指的是Entity Linking是一个有多个环节组成的管道式的过程，前后有依赖关系，类似串行。所以会有错误扩散问题，前面出错后面一串都错。

2.词向量

1. One-Hot Representation

向量的长度为词典的大小，向量的分量只有一个1，其他全为0，其中1的位置对应着该词在词典中的位置。
缺点：1）容易受维数灾难的困扰；2）任意两个词都是孤立的，不能很好地刻画相似度（词汇鸿沟）。

2.Distributed Representation

根据不同的算法得到不同的向量。维数可人为控制。且映射入空间中，可以根据距离计算相似度。

3.语言模型

给定一个T个词的字符串s，判断它是自然语言的概率P(w1, w2, …, wt)

1.N-gram模型

N-gram模型也称为N-1阶马尔科夫模型，它有一个有限历史假设：当前词的出现概率仅仅与前面n-1个词相关。

当N取1、2、3时，N-gram模型分别称为unigram、bigram和trigram语言模型。在实验中用的最多的是bigram和trigram，效果也基本够了。
缺点：1）n不能取太大，取大了语料库经常不足，所以基本是用降级的方法；2）无法建模出词之间的相似度；3）有些n元组（n个词的组合，跟顺序有关的）在语料库里面没有出现过，对应出来的条件概率就是0，这样一整句话的概率都是0，这是不对的，解决方法为平滑法（基本上是分子分母都加上一个数）或回退法（利用n-1的元组的概率去代替n元组的概率）。

2.N-POS模型

先对词按照词性（Part-Of-Speech, POS）进行了分类，由这些词类决定下一个词出现的概率。
优点：需要的训练数据比N-gram模型少得多，参数空间也要小很多。
缺点：词的概率分布依赖于词性而并非词本身。

4.集成学习

集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统（multi-classifier system）、基于委员会的学习（committee-based learning）。
集成学习一般结构
集成中只包含同种类型的个体学习器，这样的集成是“同质”的（homogeneous），同质集成中的个体学习器亦称“基学习器”（base learner），相应的学习算法称为“基学习算法”（base learning algorithm）。
集成也可包含不同类型的个体学习器，这样的集成是“异质”的（heterogeneous），个体学习器常称为“组件学习器”（component learner）或直接称为个体学习器。
集成学习的结果通过投票发（voting）产生，即“少数服从多数”。要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的“准确性”和“多样性”，但它们本身就存在冲突。
根据个体学习的生成方式，目前的集成学习方法大致可分为两大类：1）个体学习器间存在强依赖关系，必须串行生成的序列化方法，代表Boosting；2）个体学习器间不存在强依赖关系，同时生成的并行化方法，代表Bagging和“随机森林”（Random Forest）。

5.知识图谱导论

Knowledge Graph涉及的领域：Semantic Web+NLP+Database。
知识体系组织形式：1）Ontology：树状结构，不同层节点之间是严格地IsA关系，优点是可以适用于知识的推理，缺点是无法表示概念的二义性；2）Taxonomy：树状结构，上下位节点之间非严格的IsA关系，优点是可以表示概念的二义性，缺点是不适用于推理，无法避免概念冗杂；3）Folksonomy：类别标签，更加开发，优点是能够涵盖更多的概念，缺点是标签管理问题。

明天目标：今天还大致了解了远程监督和Embed，还有一般的关系抽取任务的大致框架，明天了解一下弱监督学习和Word2Vec，重温随机森林，再看一篇PaperWeekly推荐的比较好的远程监督的论文。晚安。

阅读全文

0 0