信息抽取技术实践、探索

来源:互联网 发布:网络监管新规 编辑:程序博客网 时间:2024/06/05 09:42
信息抽取技术实践与探索
正文抽取的开源代码:

基于文本密度的html2article:        http://www.cnblogs.com/jasondan/p/3497757.html

基于标签比例的机器学习Dragnet:        https://github.com/seomoz/dragnet

专注新闻类网页提取的Newspaper:        https://github.com/codelucas/newspaper

集成goose等三种算法的readbilitybundle:https://github.com/srijiths/readabilityBUNDLE


http://www.open-open.com/lib/view/open1412172214656.html




科研单位
哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 (HIT-SCIR) 成立于2000 年9月,隶属于计算机科学与技术学院。研究中心主任刘挺教授,副主任秦兵教授,教师包括张宇教授、车万翔副教授/博导、陈毅恒博士(讲师),张伟男博士(讲师),行政主管李冰老师。还有多位校内其他院系的老师参与实验室的研究工作,包括赵妍妍博士/讲师、张紫琼教授/博士后、景东讲师等。

研究方向包括语言分析、信息抽取、情感分析、问答系统、社会媒体处理和用户画像6个方面。已完成或正在承担的国家973课题、国家自然科学基金重点项目、国家863重点项目、国际合作、企业合作等课题60余项。在这些项目的支持下打造出"语言技术平台LTP",并免费共享给400多家研究机构,百度、腾讯、华为、金山等企业付费使用,获2010年钱伟长中文信息处理科学技术一等奖。

研究中心坚持理论研究与技术研发相结合的原则,一方面在向技术极限挑战的过程中发表高水平的论文,另一方面将陆续完成的阶段性成果适时地转化为实用技术。研究中心近年来发表论文100余篇,其中在ACL、SIGIR、IJCAI、EMNLP等顶级国际学术会议上发表20余篇论文,积极参加国内外技术评测,并取得优异成绩,包括国际CoNLL'2009七国语言句法语义分析评测总成绩第一名。研究中心通过与企业合作,已将多项技术嵌入企业产品中,为社会服务。双语例句检索等一批技术嵌入金山词霸产品中,并因此获得2012年黑龙江省技术发明二等奖。

研究中心努力营造浓厚的学术氛围,悉心培养优秀学子。目前研究中心有20名博士生,20名硕士生,学生中曾有2人获百度奖学金,3人获微软学者奖学金,多人次获得国家奖学金、IBM奖学金、计算机世界奖学金等。博士毕业生20余人,硕士毕业生120余人。

研究中心与国内外多家相关的研究机构和企业保持着密切而友好的合作关系。哈工大社会计算与信息检索研究中心是一个充满活力的团队,她渴望向国内和国际的同行们学习,也愿意尽自己的努力为中文信息处理领域的发展做出贡献。

联系我们:
电话:0451-86413683或86402993
地址:哈尔滨市南岗区教化街29号6楼
通信地址:哈尔滨工业大学321信箱
电子邮件:webmaster [At] ir.hit.edu.cn

 

0 0
原创粉丝点击