暑期实习||汉语分词的一些体会
来源:互联网 发布:java在方法上定义泛型 编辑:程序博客网 时间:2024/05/20 17:41
现在已经完全不做了,只是偶尔关注一下NLP的一些东西,回想起来,从刚开始的一无所知,到后来能够使用第三方API做出来使用的工具和API,收获还是蛮大的,先将做过的东西记录下。
统计文本可以发现,双字、三字和四字词语加起来的概率占了大概所有词语的90%以上,所以没必要依照句子进行存储,考虑使用双字结构、三字结构、四字结构存储词典,词典并非预先定义的,而是通过文本训练得到的,有些词语出现的概率很好,比如‘的我’‘了是’等等有助词参与,导致概率上升的词语,剔除掉,还有一些完全没有意义的词语,这样做的一个好处就是按照概率排列的话,出现频率比较高的基本就是词语了,可以看出一些规律,但是跟实际的分词系统相差很远,放弃不用。
.....
折腾来折腾去,最后实现的大体框架是按照ICTALCAL的API来的,NLP带给我的不仅仅是这一段时间让我费劲脑汁使用STL的高效MAP,HASH_MAP,MULTIPLE_MAP,SET,HASH_SET等容器,还有对字符串的切分,变换一些其他操作,字符编码的深入理解,高效查找,最重要的是培养起来的兴趣,你不做,永远不知道自己喜欢什么,有可能其中滋味不好受,折腾来折腾去,但回想起来,最值的记起的往往是死扛的那段时期,实习带给我的思考远没有结束,最后的画面:
早上磨磨蹭蹭极其不情愿爬起来,然后买俩包子,揣着去地铁坐车,车上打开,电子书,看看面试题目之类的(奇葩吧,真事!),到了西二旗再走上个十分钟,开始一天的日子,中午去辉煌国际吃难吃的饭,回去往往没有午休=_=,继续编码,刚开始还要被要求做测试,我后来抵制就罢了。跟公司的那个HR矛盾挺多,不怨她怨这DT的规章制度,你听说过请假要提前一个月么?一个星期呢?MD,这就是我碰见的事情。实习生当驴子使,工资不按时发放,却要求你做出成果,还好,熬过来了!坚决辞了。
我不怀念,虽然值得回忆,走过的路也不后悔,向前看,未来,我为你准备。(原文写于2012.0903)
0904面了搜狗的NLP职位后打击太大,面试官看我没有这方面基础,就找个理由放了我=_=
- 暑期实习||汉语分词的一些体会
- 一些实习体会
- 我的暑期实习
- 汉语分词
- 东亚运动会的实习体会
- 汉语分词算法
- NLP-汉语分词
- 汉语自动分词
- 汉语分词标准汇总
- 暑期实习16之字符串的显示
- 暑期实习17之数据库的引入
- 2014暑期实习的一道面试题
- 我的暑期实习----功能展示
- 记腾讯的暑期实习面试
- 我的暑期实习及秋招
- 实习体会
- 实习体会
- 实习体会
- 16道嵌入式C语言面试题(经典)
- 添加Activity步骤
- Android中HTTP通信
- Js OO方法小记
- 今天讲了接口的应用和抽象类
- 暑期实习||汉语分词的一些体会
- java在acm中大数运算教程
- 赵雅智_java 多线程(3)之线程间的通信
- 2、检查一个字符是否是整数或者4行代码从一个字符串到长整形函数
- strtol(将字符串转换成长整型数)
- ORACLE常见BUG收集汇总【不断更新】
- ORACLE 11G EM 配置
- CentOS6.3下使用OpenSWAN做IPSecVPN的RoadWarrior模式
- 3、给出一个函数输出字符串的所有排列