《数学之美》读书笔记(四)
来源:互联网 发布:linux自学 带不带桌面 编辑:程序博客网 时间:2024/04/28 07:23
关于分词
统计语言模型方法进行分词
最好的一种分词方法应该保证分完词后这个句子出现的概率最大;
如果穷举所有可能的分词方法并计算每种可能性下句子的概率,计算量相当大。可以看成动态规划问题Dynamic Programming,并利用维特比Viterbi解码算法快速找到最佳分词。
孙茂松教授的贡献:解决了没有词典时的分词
吴德凯教授:将中文分词方法用于英文词组的分割,并且将英文词组和中文词组在机器翻译时对应起来;
英文照样需要分词,比如手写体识别,空格并不明显。
一个分词器同时支持不同层次的词的切分
首先需要一个基本词表和一个复合词表;前者包括无法在切分的词。后者包括复合词及其组成。
接下来根据两个表各建立一个语言模型,如L1和L2
然后根据基本词表和L1对句子进行分词,得到小粒度结果;
再用复合词表和语言模型L2进行第二次分词,输出复合词串。
0 0
- 数学之美读书笔记(四)
- 《数学之美》读书笔记(四)
- 《数学之美》读书笔记
- 数学之美读书笔记
- 《数学之美》--读书笔记
- 数学之美-读书笔记
- 数学之美读书笔记
- 数学之美读书笔记
- 读书笔记-数学之美
- 《数学之美》 读书笔记(一)
- 《数学之美》读书笔记 (二)
- 数学之美读书笔记(一)
- 数学之美读书笔记(二)
- 数学之美读书笔记(三)
- 数学之美读书笔记(五)
- 《数学之美》读书笔记(二)
- 《数学之美》读书笔记(1)
- 《数学之美》读书笔记(五)
- 跟着小程来学微服务--微服务思想
- 【VC++DLL动态链接库编程】教程目录(1)
- 基于Spark Streaming和Spark MLlib实现文本情感分析
- CenOS 6.6 常用命令《三》
- sse指令加速例子-无对比
- 《数学之美》读书笔记(四)
- HTTP协议分析系列(八)------http协议缓存详解
- Openstack L版本的neutron server 启动流程分析(二)
- 火星人家园:太阳能是国有资产吗?
- 【NPM】Packages与Modules
- 【C/C++开发】运算符重载二
- Lua查找表(元表,_index)
- 网页显示不正常怎么修复
- HTTP协议分析系列(九)------http协议与内容压缩