【2017-10-30】这是一个新的Flag

来源:互联网 发布:java的四大特性 编辑:程序博客网 时间:2024/05/23 14:38

心血来潮,又随口立下了一个flag,一个小习惯的坚持先从三十天开始吧。
还是那句,最坏不过一条路走到黑。


1.论文要点

Traditionally,systems of entity relation extraction have relied on human-annotated corpora for training and adopted an incremental pipeline. Such systems require additional human expertise to be ported to a new domain, and are vulnerable to errors cascading down the pipeline.

pipeline指的是Entity Linking是一个有多个环节组成的管道式的过程,前后有依赖关系,类似串行。所以会有错误扩散问题,前面出错后面一串都错。

2.词向量

1. One-Hot Representation

向量的长度为词典的大小,向量的分量只有一个1,其他全为0,其中1的位置对应着该词在词典中的位置。
缺点:1)容易受维数灾难的困扰;2)任意两个词都是孤立的,不能很好地刻画相似度(词汇鸿沟)。

2.Distributed Representation

根据不同的算法得到不同的向量。维数可人为控制。且映射入空间中,可以根据距离计算相似度。

3.语言模型

给定一个T个词的字符串s,判断它是自然语言的概率P(w1, w2, …, wt)

1.N-gram模型

N-gram模型也称为N-1阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅仅与前面n-1个词相关。

当N取1、2、3时,N-gram模型分别称为unigram、bigram和trigram语言模型。在实验中用的最多的是bigram和trigram,效果也基本够了。
缺点:1)n不能取太大,取大了语料库经常不足,所以基本是用降级的方法;2)无法建模出词之间的相似度;3)有些n元组(n个词的组合,跟顺序有关的)在语料库里面没有出现过,对应出来的条件概率就是0,这样一整句话的概率都是0,这是不对的,解决方法为平滑法(基本上是分子分母都加上一个数)或回退法(利用n-1的元组的概率去代替n元组的概率)。

2.N-POS模型

先对词按照词性(Part-Of-Speech, POS)进行了分类,由这些词类决定下一个词出现的概率。
优点:需要的训练数据比N-gram模型少得多,参数空间也要小很多。
缺点:词的概率分布依赖于词性而并非词本身。

4.集成学习

集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)。
集成学习一般结构
集成中只包含同种类型的个体学习器,这样的集成是“同质”的(homogeneous),同质集成中的个体学习器亦称“基学习器”(base learner),相应的学习算法称为“基学习算法”(base learning algorithm)。
集成也可包含不同类型的个体学习器,这样的集成是“异质”的(heterogeneous),个体学习器常称为“组件学习器”(component learner)或直接称为个体学习器。
集成学习的结果通过投票发(voting)产生,即“少数服从多数”。要获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”和“多样性”,但它们本身就存在冲突。
根据个体学习的生成方式,目前的集成学习方法大致可分为两大类:1)个体学习器间存在强依赖关系,必须串行生成的序列化方法,代表Boosting;2)个体学习器间不存在强依赖关系,同时生成的并行化方法,代表Bagging和“随机森林”(Random Forest)。

5.知识图谱导论

Knowledge Graph涉及的领域:Semantic Web+NLP+Database。
知识体系组织形式:1)Ontology:树状结构,不同层节点之间是严格地IsA关系,优点是可以适用于知识的推理,缺点是无法表示概念的二义性;2)Taxonomy:树状结构,上下位节点之间非严格的IsA关系,优点是可以表示概念的二义性,缺点是不适用于推理,无法避免概念冗杂;3)Folksonomy:类别标签,更加开发,优点是能够涵盖更多的概念,缺点是标签管理问题。


明天目标:今天还大致了解了远程监督和Embed,还有一般的关系抽取任务的大致框架,明天了解一下弱监督学习和Word2Vec,重温随机森林,再看一篇PaperWeekly推荐的比较好的远程监督的论文。晚安。