【2017-10-30】这是一个新的Flag
来源:互联网 发布:java的四大特性 编辑:程序博客网 时间:2024/05/23 14:38
心血来潮,又随口立下了一个flag,一个小习惯的坚持先从三十天开始吧。
还是那句,最坏不过一条路走到黑。
1.论文要点
Traditionally,systems of entity relation extraction have relied on human-annotated corpora for training and adopted an incremental pipeline. Such systems require additional human expertise to be ported to a new domain, and are vulnerable to errors cascading down the pipeline.
pipeline指的是Entity Linking是一个有多个环节组成的管道式的过程,前后有依赖关系,类似串行。所以会有错误扩散问题,前面出错后面一串都错。
2.词向量
1. One-Hot Representation
向量的长度为词典的大小,向量的分量只有一个1,其他全为0,其中1的位置对应着该词在词典中的位置。
缺点:1)容易受维数灾难的困扰;2)任意两个词都是孤立的,不能很好地刻画相似度(词汇鸿沟)。
2.Distributed Representation
根据不同的算法得到不同的向量。维数可人为控制。且映射入空间中,可以根据距离计算相似度。
3.语言模型
给定一个T个词的字符串s,判断它是自然语言的概率P(w1, w2, …, wt)
1.N-gram模型
N-gram模型也称为N-1阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅仅与前面n-1个词相关。
当N取1、2、3时,N-gram模型分别称为unigram、bigram和trigram语言模型。在实验中用的最多的是bigram和trigram,效果也基本够了。
缺点:1)n不能取太大,取大了语料库经常不足,所以基本是用降级的方法;2)无法建模出词之间的相似度;3)有些n元组(n个词的组合,跟顺序有关的)在语料库里面没有出现过,对应出来的条件概率就是0,这样一整句话的概率都是0,这是不对的,解决方法为平滑法(基本上是分子分母都加上一个数)或回退法(利用n-1的元组的概率去代替n元组的概率)。
2.N-POS模型
先对词按照词性(Part-Of-Speech, POS)进行了分类,由这些词类决定下一个词出现的概率。
优点:需要的训练数据比N-gram模型少得多,参数空间也要小很多。
缺点:词的概率分布依赖于词性而并非词本身。
4.集成学习
集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)。
集成中只包含同种类型的个体学习器,这样的集成是“同质”的(homogeneous),同质集成中的个体学习器亦称“基学习器”(base learner),相应的学习算法称为“基学习算法”(base learning algorithm)。
集成也可包含不同类型的个体学习器,这样的集成是“异质”的(heterogeneous),个体学习器常称为“组件学习器”(component learner)或直接称为个体学习器。
集成学习的结果通过投票发(voting)产生,即“少数服从多数”。要获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”和“多样性”,但它们本身就存在冲突。
根据个体学习的生成方式,目前的集成学习方法大致可分为两大类:1)个体学习器间存在强依赖关系,必须串行生成的序列化方法,代表Boosting;2)个体学习器间不存在强依赖关系,同时生成的并行化方法,代表Bagging和“随机森林”(Random Forest)。
5.知识图谱导论
Knowledge Graph涉及的领域:Semantic Web+NLP+Database。
知识体系组织形式:1)Ontology:树状结构,不同层节点之间是严格地IsA关系,优点是可以适用于知识的推理,缺点是无法表示概念的二义性;2)Taxonomy:树状结构,上下位节点之间非严格的IsA关系,优点是可以表示概念的二义性,缺点是不适用于推理,无法避免概念冗杂;3)Folksonomy:类别标签,更加开发,优点是能够涵盖更多的概念,缺点是标签管理问题。
明天目标:今天还大致了解了远程监督和Embed,还有一般的关系抽取任务的大致框架,明天了解一下弱监督学习和Word2Vec,重温随机森林,再看一篇PaperWeekly推荐的比较好的远程监督的论文。晚安。
- 【2017-10-30】这是一个新的Flag
- 博客首秀--这是一个flag
- 这是一个新的消息
- 这是一个新的开始
- 这是一个新的开始
- 十年,这是一个新的开始
- 这是一个新的开始
- 这是一个新的开始
- 这是一个新的开始
- 这是一个新的开始
- 这是一个新的开始
- 这是一个新的开始
- 这是一个新的开始
- 这是一个新的开始
- 这是一个新的起点
- 新的AppBarLayout flag:SCROLL_FLAG_SNAP
- 这是我的第一篇Blog,立个FLAG
- 2015-4-1:这是一个新的开始
- OkHttp3源码解析05-连接池
- java 获取当月的第一天和最后一天
- 三周一次课(10月30日)
- Unity之AssetBundle原理全解
- dagger2学习笔记
- 【2017-10-30】这是一个新的Flag
- 万圣节动画-canvas像素点
- gitflow 分支原理
- 英文Windows 10中的中文显示不正常问题解决方案
- Python基础(五)
- 感想篇:8)关于提升机械结构工程师地位的畅想
- 青云笔试题的思路
- Kubernetes(k8s)学习笔记1
- CSS 动画经验