网页正文提取+HMM命名实体识别+CRF命名实体识别
来源:互联网 发布:js跨域带cookie 编辑:程序博客网 时间:2024/06/09 16:41
推荐一篇博客:http://blog.csdn.net/AJAXHu/article/details/48382381
开源的WebCollector爬虫确实很好用,并且提供了网页正文提取的模块。
提供了图形界面的简单配置,Log也比较全面,WebCollector-Hadoop是WebCollector的分布式版本。
对比自己一直使用的Scrapy-redis,感觉WebCollector更适合工业生产。有机会完整的看一下源码,暂时先调用了其中的ContentExtractor模块。
HMM命名实体识别推荐Hanlp开源框架,个人感觉完美实现了NLPIR并且开源,可拓展性强。对于复杂的机构名和地名的识别感觉并不好,准备加入字典和提供一些实际应用中的标注数据进行训练来进行提高。
CRF作为传统机器学习最好的算法,我使用了CRF++-0.58的windows版本,只需要提供训练集和特征模板的编写即可进行训练,目前对于特征模板的编写还存在一定的疑惑,在PKU数据集上采用词+词性以及字+词性(这里我给每个字赋以所在词的词性)+字所在词的边界(采用了BIES标注),对测试的结果直接用每个标签计算R,P,F,没有合并,所以基于字的F达到94,我觉着有一点太高了,不是很科学。
将来准备使用BLSTM+CRF做一下实验,毕竟这是当前最火的方式。
阅读全文
0 0
- 网页正文提取+HMM命名实体识别+CRF命名实体识别
- CRF++命名实体识别
- crf++中文命名实体识别
- CRF命名实体识别的一些tips
- 使用CRF++进行命名实体识别
- CRF++进行自定义命名实体识别
- lstm+crf实现命名实体识别
- 【命名实体识别】HMM-Viterbi角色标注中国人名识别
- 命名实体识别
- 命名实体识别
- 中文命名实体识别
- 命名实体识别NER
- NLTK命名实体识别
- 命名实体识别
- 细粒度命名实体识别
- 命名实体识别
- 关于命名实体识别
- 命名实体识别方法
- 2分钟回顾无人机的2015年
- Makefile
- Java:创建继承于类Person的类Student并重写方法
- ARM架构和ARM核区别和联系
- 蒟蒻复习之-----二分
- 网页正文提取+HMM命名实体识别+CRF命名实体识别
- Tensorflow实现VGGNet
- 强化学习之最基础篇
- 每天回顾linux命令(cut)
- 连续总结第十七天
- Kotlin 构造器和单例模式
- java锁的公平性
- py基础闯关
- 每日产品辣评:价格对飚苹果,摩托罗拉发布年度旗舰 Moto X 极