研究了下海量公司

来源:互联网 发布:数据集成算法 编辑:程序博客网 时间:2024/03/29 18:06

       以前在做中文分词时在网上找资料时,找到过海量的分词系统,当时以为海量又是北京的哪个高科技公司呢,最近才发现原来是在天津的一个公司,刚好自己也在天津读研,于是上去看了看公司的主页,发现也是做信息检索,中文信息处理的一个公司。下面是自己对其网站上的一个内容的很浅薄的一个看法吧。

    首先是公司简介。公司简介黑字部分摘自海量科技的网站。红字部分是自己的评论。

   

公司简介

COMPANY

海量信息技术有限公司成立于1999年, 是一家专业从事中文智能计算及信息数据挖掘技术理论研究、技术开发的知识创新型企业,公司长期致力于智能计算技术的研究和互联网应用,在基础理论、应用研究和产品化方面确立了行业领先地位。公司在核心技术基础上提供相关基础件产品和数据挖掘服务。

可以看出标榜的是中文信息处理,所以中文方面的研究会成为重点,作为中文信息,首先遇到的当然是中文分词的问题。

以海量分词为核心的中文智能计算产品,包括:检索、关键词提取、自动内容查重、自动分类、自动聚类,分词属性标注等,在中文网络信息处理领域获得广泛的应用。是国际软件本土化(MicrosoftMySQLAutonomy)、大型网站应用 (腾讯、猫扑、MySpace.cn Askjeeves)、海量数据挖掘管理(新华社、北大方正、中国网)、语言学术研究(商务印书馆、中华书局)中 ,解决中文智能计算问题的首选方案。

的确是以分词为核心,分词 中的 词语等 包括建立索引等的基础单元 检索就是查词语所出现过的文档, 关键词提取 统计分词后 词语出现的频率 ,考虑文档内频率(tf)、全局频率(idf),自动内容查重 可以将文档看成一系列词语的vector set,然后计算文档的相似度,在一定阈值范围内相似度的文档为重复的文档, 同理,自动分类、自动聚类等也是如此。  分词属性标注,也是建立在分词基础上的。考虑上下文信息等,n元的语言模型。

基于中文智能计算技术,公司针对非结构化信息高效利用的需求,采用自主研发、自有知识产权的网络数据采集技术、模式识别技术和中文智能计算技术,构建了自动完成信息采集、抽取、筛选、标引、索引、存储、调用过程的数据挖掘平台,将纷繁杂乱的非结构化信息提炼为高质量的结构化数据库,为央视国际、凤凰网等各行业用户提供专业数据挖掘服务。

非结构化信息?是指杂乱的网页结构信息么?结构化信息当然很容易处理,如xml 文件等,标签定义都非常明确,但非结构化信息处理起来就比较麻烦了。

  信息的自动采集,就是使用爬虫去爬取嘛,通过程序分析url信息找到主机地址,自动与主机去通讯,将页面请求回来存在本地。

信息的抽取,就是进行正文提取阿,去标签阿,去广告阿,获取网页中最重要的那部分信息,目前研究还有根据网页的结构,包括字体大小等进行抽取。

筛选阿,标记阿,存储阿,都是对保存下来的数据进行操作拉,也很简单。但规模较大时,设计到一些分布式存储等的知识,访问量较大时,还有一个负载平衡的问题。

经过9年的发展,海量公司规模不断扩大,已经建立起一支有强大核心凝聚力的团队。

2002年,海量公司成立了企业自己的独立研发机构智能计算技术研究中心,世界级中文智能计算专家周富秋博士出任中心主任。在公司既定的两条技术路线(即:从字符到语义;从非结构化到结构化)的指导下,研究中心取得了多项研究成果,为公司的持续发展奠定了坚实的技术基础,同时也为广大用户和合作伙伴带来了一定的经济效益。研究中心成立以来,已经和国内多所知名高校的相关研究机构以及该领域的多位专家学者建立了良好的合作关系。

从字符到语义,从非结构化到结构化?

在我看来,从字符到语义,应该是一个很自然的趋向。字符就是字符,更重要的是字符之后所代表的知识,不然,字符就仅仅是一个个无意义的标记罢了,信息论是很重要的一门学科,但是并不能解决所有的问题,其核心就在于信息不仅仅是简单的数理信息,还包括其中蕴含的知识,这些知识是在人类社会发展的千百年过程中积累下来的,对于计算机来说,并不能简单地用一些数学模型来涵盖这一切。

非结构化到结构化,应该说目前的网络的大多数网页都是非结构的,或者说是半结构的,而将其整理为结构化的数据,由于情况千变万化,目前也没有很成熟的正文提取、结构整理的方法,没有哪一个能说对所有的网页都有很好的效果,大多数估计都是通过特定的网页结构自己写分析器parser把,这也是通用性与特性之间的一个折衷。

20083月,资深互联网专家谢文出任海量公司CEO,汇集智能计算技术成果与社会网络理论结合,推出全面创新的网络生活平台—— 一起网(www.yiqi.com)。志在建立一座结构完整的互联网宜居城市,为用户提供全面,智能化、个性化的服务,为网络服务提供商搭建开放的运营和服务平台。

随着互联网技术在各领域的普遍应用和飞快发展,追求信息利用效率和质量的需求日益迫切。海量公司将秉承"让优质的中文信息服务完善我们的生活"的理想, 与用户、合作伙伴、业界同行共同努力,不断推动互联网时代中文智能计算技术的进步和发展。

 

对研究中心的那几个demo的看法

 

在研究中心中,“传媒观点”小demo中,

可以输入一个实体名等,搜索在其存储的1.2亿文章,对该实体的定义等,

观察了下,全是“*****。”这样模式的句子。

肯定是在整个的全文索引库中,使用“*****。”这样的模式来进行匹配抽取。当然,其中比较困难的部分是消重,就是把相似的句子聚在一起,作为一个观点的支持。可以使用的方法包括编辑距离的计算,语义距离的计算等,将这些距离作为距离的计算,然后距离小于一定阈值的聚类呗。然后把对应的代表的那个句子,或者说是中心句子的支持数字加1,最后按照支持观点数字的个数进行排序。

 

“命名实体”小demo中,

打不开demo,命名实体确实包含了很重要的信息,而且在信息检索中发挥着重要的作用。

从对这个demo的介绍中来看,首先,解决命名实体问题,首先遇到的是命名实体的标注的问题,一个句子中到底哪些是命名实体,一般在分词中,较好的分词工具就可以分出来。然后是命名实体的关系,可以通过一些工程化的方法,如使用模板等方法。例如,“****的同学”,就将两个命名实体的关系确定为“同学”关系等等。也可以使用机器学习的方法,自动学习模板,规则等等,但目前学术界对机器学习方法应用也不是非常的成熟,所以很怀疑就是使用的rule的方法。

 

第三个demo,“直接引语抽取”

一个使用rule规则的经典案例。通过不同模式,或者说不同规则抽取诸如“A说‘大家好’。”,就将大家好归为A的直接引语之一。在其结果展示页面中,结果中也有“RulerCode”这一栏,说明使用了第几个规则或第几个模板吧。另外,也发现有错的,本来不是这个人说的,但也作为了其直接引语,只因为那个人名就在那句话前,是规则没有考虑到的意外情况,就出现在系统给出的示例例子中。

 

虽然说,原理都不难,其实实现起来都很有困难,包括不规范的网页的解析、正文提取、不同的网页编码等等都会造成很大的麻烦。可以看得出海量的工作还是很细致的。

有些噪音数据的出现是无法避免的。

 

而且开发出来的这几个应用的应用价值也很大。

 

原创粉丝点击