【2017-10-31 & 2017-11-01】超忙,忙着可爱,忙着长大。

来源:互联网 发布:男友生日礼物 知乎 编辑:程序博客网 时间:2024/05/01 01:55

才立好的Flag,就就就倒了,反思一下反思一下。
我明明有很努力,效率也不低,怎么每天时间还是不够用呢。最近事超多,忘性大,以后还是要养成用拿小本本记日程的习惯。不想做自己不感兴趣的事情,人为什么总是要被强迫着去学一些无聊又无用的东西,从小到大都是如此。所以一定不可以松懈哦,这样以后才有资格去拥抱自己想过的生活,拒绝自己不想做的事情。
2017-10-31,黑色星期二,从早排到晚十节课,虽然不听课,但是还是超累。晚上想在实验室把一些零零散散的事情做完的,但是两点多实在撑不住睡着了,设了四点多的闹钟也没听见,六点多才醒,啊呀呀呀呀呀。
2017-11-01,看了『Distant supervision for relation extraction without labeled data』,大体知道了所以然(刚刚和导师交流完才知道精髓都没看到,超Down),超开心超开心,上次这么开心是成功源码安装TensorFlow的时候吧。奖励自己在各种Deadline的重压下回寝室好好睡一觉,结果还是整理论文笔记到了两点,然后就选择睡觉了,再写一篇天就该亮了。
废话太多,进入正题。


1.蹭课笔记

1)认知计算问题

密度峰值聚类《Clustering by fast search and find of density peaks》
多粒度密度峰值聚类
多粒度大数据机器学习
计算机的认知是从细粒度到粗粒度,但人类的认知大多是从粗粒度到细粒度的。

2)三大学派

Symbolism AI –> 专家系统等
Connectionism AI –> 神经网络等
Behaviorism AI –> 控制等

2.论文学习

『Distant supervision for relation extraction without labeled data』
来源:Proceeding of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP.
主要思想:本文是第一个提出将远程监督应用到关系抽取任务中的。利用 NER ,使 Freebase 监督一部分 Freebase Wikipedia Extraction 形成训练集,提取 lexical features 和 Syntactic features 得到 feature vector,再利用一部分 Freebase Wikipedia Extraction 作为测试集, NER ,提取 feature vector ,输入 classifier 中得到 relation name 。

3.能力模型

通常是基于语言学规则的模型,建立在人脑中先天存在语法通则这一假设的基础上,认为语言是人脑的语言能力推导出来的,建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力,又称“理性主义的”语言模型。

4.应用模型

根据不同的语言处理应用而建立的特定语言模型,通常是基于统计的模型,又称“经验主义的”语言模型,使用大规模真实语料库中获得语言各级语言单位上的统计信息,依据较低级语言单位上的统计信息运用相关的统计推理技术计算高级语言单位上的统计信息。

5.分词

英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。
中文分词技术可分为三大类:1)基于字典、词库匹配的分词方法;2)基于词频度统计的分词方法;3)基于知识理解的分词方法。
1)基于字典、词库匹配的分词方法:
根据扫描方向的不同分为:正向匹配逆向匹配
根据不同长度优先匹配分为:最大(最长)匹配最小(最短)匹配
根据与词性标注过程是否相结合分为:单纯分词方法分词与标注相结合一体化方法
2)基于词的频度统计的分词方法:
这是一种全切分方法,它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并容易将新词提取出来。
全切分:全切分要求获得输入序列的所有可接受的切分形式,从根本上避免了可能切分形式的遗漏,克服了部分切分方法的缺陷。
全切分的句子覆盖率和分词覆盖率均为100%,但没有在文本处理中广泛的采用,原因如下:
1)全切分算法只是能获得正确分词的前提,因为全切分不具有歧义检测功能,最终分词结果的正确性和完全性依赖于独立的歧义处理方法,如果评测有误,也会造成错误的结果。
2)全切分的切分结果个数随句子长度的增长呈指数增长,一方面将导致庞大的无用数据充斥于存储数据库,另一方面当句长达到一定长度后,由于切分形式过多,造成分词效率严重下降。
3)基于知识理解的分词方法:
主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界。它通常包括三个部分:分词子系统,句法语义子系统,总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。
4)并行分词方法:
这种分词方法借助于一个含有分词词库的管道进行,比较匹配过程是分步进行的,每一步可以对进入管道中的词同时对词库中相应的词进行比较,由于同时有多个词进行比较匹配,因而分词速度可以大幅提高,这种方法涉及到多级内码理论和管道的词典数据结构。

6.词性标注(Part-Of-Speech tagging 或 POS tagging)

又称词类标注词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序。
词性用来描述一个词在上下文中的作用。有些词性经常会出现一些新的词,例如名词,这样的词性叫做开放性词性。另外一些词性中的词比较固定,例如代词,这样的词性叫做封闭性词性。
不同的语言有不同的词性标注集,词性标注集有小标注集和大标注集,采用小标注集比较容易实现,但是太小的标注集可能会导致类型区分度不够。

7.命名实体识别(Named Entity Recognition,简称NER)

是指识别文本中具有特定意义的实体。
主要难题:1)实体边界识别;2)确定实体类别。
主要技术:
1)基于规则和词典的方法:
该方法需要专家制定规则,准确率较高,但依赖于特征领域,可移植性差;
2)基于统计的方法:
难点在于特征选择上,该方法能获得好的鲁棒性和灵活性,不需太多的人工干预和领域限制,但需要大量的标注集。
3)混合方法
采用规则与统计相结合,多种统计方法相结合等,是目前主流的方法。

8.指代消解

指代分为两种:回指和共指。
回指是指当前的照应语与上文出现的词、短语或句子(句群)存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体,具有非对称性和非传递性。
共指主要是指2个名词指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。

9.词袋模型(Bag Of Words)

是信息检索领域常用的文档表示方法。在信息检索中,BOW模型假定对于一个文档,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干词汇的集合,文档中每个单词的出现都是独立的,不依赖于其他单词是否出现。

10.词向量

Distributed representation 最早是 Hinton 在1986年的论文《Learning distributed representations of concepts》中提出的。Distributed representation 用来表示词,通常被称为 “Word Representation” 或 “Word Embedding”。
词向量的用法最常见的两种:
1)直接用于神经网络模型的输入层;
2)作为辅助特征扩充现有模型。
每一个词向量的维度都可能会表征一些意义(物理含义),这些意义我们用“声明Speech”来定义。

原创粉丝点击