统计分词/无字典分词学习(1):介绍和语料准备

来源:互联网 发布:informix windows下载 编辑:程序博客网 时间:2024/05/21 15:47

           分词算法中,一般都需要一个词典,但这些词典往往很难覆盖所有的词,特别是在一些专业领域,甚至有超过40%的词都不在词典里面,这样首先就需要“学习”大量的新词,否则分词准确性很难提高,进一步的,有研究就干脆不要词典了,由算法自动从大量的语料中学得一个词典,这就是统计分词,或者成为无字典分词。一般就只预设一个小规模的词典,后者没有词典,首先从大量的未标注语料,也就是生语料中学习出一个词典,然后利用这个词典再去分词。对应的研究主题有新词发现,无监督分词,无字典分词,统计分词等。

这里我们还以英文为例,找一些英文文本,首先利用标点分成句子,然后去掉词之间的空格,这样就是构造了英文的分词生语料,其就是一系列没有空格的英文单词

如:

thisisatest
wheninthecourseofhumaneventsitbecomesnecessary
itisatruthuniversallyacknowledged
inaholeinthegroundtherelivedahobbitnotanastydirtywethole
itwasthebestoftimesitwastheworstoftimesitwastheageofwisdomitwastheageoffoolishness

            我们的任务就是从这些语料中“学习”一个英文词典,然后进行分词。


这样的无监督学习一般都需要大量的语料,目前开放的下载的语料其实并不是很多

我们就直接利用互联网,下载格式比较规整的数据,这里使用wikipedia的下载xml数据,抽出正文,然后拿出句子,并去掉单词之间的空格,这里抽取1G的数据作为训练数据,具体可以在这里下载到:http://pan.baidu.com/s/1dDtFHID


        然后我们要对统计分词的效果设计定一个评测标准,这里我们直接使用一个比较全的词典,就是前面几个文章中用用到的count_1w.txt作为标准词典,大概有30多万的单词,并利用该词典分词得到的分词形式作为标准形式,这样便于对字典构造以及分词方法进行分别考察。

0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 qq密保号码换了验证不了怎么办 qq登陆需要密保手机验证怎么办 微信漂流瓶被投诉收不到回复怎么办 电视的屏幕出现三条黑线怎么办 付了定金的房子不想要了怎么办 顾客刚买了东西就退怎么办 飞机票买了但是没有报团怎么办 日本寄东西回来深圳海关扣了怎么办 xp框架安装模块后无限重启怎么办 手机百度云下载的文件不见了怎么办 百度云手机号换了文件不见了怎么办 好劵app提现密码忘了要怎么办 微信上买的衣服不给退货怎么办 在微信上买的衣服不给退货怎么办 贴贴纸的地方出现色差了怎么办 贴在玻璃上的贴纸撕掉后有胶怎么办 魅族手机部分时间上划失效怎么办 别人电脑上c盘文件无权访问怎么办 网络已连接但上不了网怎么办 asp复选框选中的有重复值怎么办 邮件在邮递中出现损坏怎么办呢? 爱彩彩票资金密码忘记了怎么办 注册彩票网站忘了资金密码怎么办 电车电瓶加水后电压变低怎么办 电动车电瓶四块电池坏了一块怎么办 把小孩的玩具修坏了怎么办 电动车插头太紧了插不到底怎么办 宜家沙发不能更换布套怎么办 苹果官网买的无线充坏了怎么办 苹果官网上买的耳机坏了怎么办 led灯开关关掉了闪烁是怎么办 我朋友借的网贷光给我打电话怎么办 电脑上的文件变成了图片查看怎么办 外卖店打印机纸卡住打不开了怎么办 微信撤回图片留下一堆代码怎么办 拼多多砍价免费拿砍不到0元怎么办 一岁三个月宝宝老足拉肚子怎么办丶 想打好关系送礼发红包不敢收怎么办 我在相亲市场太受欢迎了怎么办小说 有人报警说我诈骗警察说立案怎么办 微信账号长时间未登录不想要怎么办