WEB-DICT词库计划
来源:互联网 发布:金庸小说那本好看知乎 编辑:程序博客网 时间:2024/05/21 17:17
欢迎大家支持晓阳童鞋的词库计划,建立一个庞大的中文词库
地址如下:http://webdict.info/
什么是WEB-DICT词库计划?
WEB-DICT词表计划目标是通过机器学习算法以及人工标注构建一个包含大量网络词汇的、无版权限制的中文词库,从而提高中文网络文本自然语言分析以及开源中文输入法的效果。
现在有很多词库,为什么还要创建新的词库?
虽然目前互联网上可以得到的词库很多,但是包含网络词汇的非常少,而且都是有版权的,反之没有版权或者免费使用的词库大多比较旧。
目前的词库是怎么得到的?
目前的词库首先是通过网络爬虫从Twitter中抓取中文推(约4G左右纯文本),然后使用Stanford word segmenter进行分词,统计词频。最后用CRF模型进行筛选,比较不确定的词语放到网络上进行人工标注,最后汇合生成词库。
怎样获得WEB-DICT词库?
可以从GitHub中下载
WEB-DICT词库有版权吗?
WEB-DICT词库是Public Domain的,没有任何的版权限制。
一些判断标准
判断是否是一个词的最主要标准就是,拆开之后是否意思会发生改变,如果拆开意思不变则不是一个词语,比如“发微博”。 末尾带有“的”“地”“得”的很明显不是一个词语。
常用的短语,如果拆分之后不能表示原来的意义,也算作是一个词语,比如“混口饭吃”。
很明显由两个词语构成的,不是一个词语,比如“别到”、“扭出”等。
数字不是一个词语,比如“三二五”、“五千五”等。
人名、地名和机构名等命名实体是一个词语,比如“南京市”、“张小贱”等。
最近记录
[10-9 16:43] "社区店"不是一个词语
[10-9 16:43] "盗贼们"不是一个词语
[10-9 16:43] "冷笑篇"不是一个词语
[10-9 16:43] "撤得"不是一个词语
[10-9 16:43] "瑟吧"不是一个词语
[10-9 16:43] "等面"不确定
[10-9 16:43] "共生"是一个词语
[10-9 16:43] "爱太"不是一个词语
[10-9 16:43] "半天才"不是一个词语
[10-9 16:43] "券还"不是一个词语
- WEB-DICT词库计划
- 说一说PHPCMS V9中自动生成关键词的segment类和dict的关键词库
- dict
- dict
- dict
- dict
- dict
- Web研习计划
- StarDict词库
- 电气词库
- 敏感词库
- 中文词库
- 关于EMAG WEB的计划
- Google 正在计划下一代Web!
- WEB前端 :“懒人”养成计划
- 在Web应用程序中执行计划任务
- web时代营销战略计划报告
- AngularJS和EmberJS计划支持Web Components
- VS 的makefile工程
- 简单排序java实现
- Hadoop 学习总结之一:HDFS简介
- java 类型通配符 直接源码1
- I2C总线
- WEB-DICT词库计划
- boost序列化多态类指针的例子
- 杭电 畅通工程 1863 (并查集)
- HDU 4493 Tutor (基础题)
- 文件的本质,以及在VC中读写文本文件盒二进制文件的注意事项
- [各种面试题] N个点来回路径最小
- Hadoop学习总结之二:HDFS读写过程解析
- #define 用法锦集
- android简单的应用程序管理器