网页正文提取+HMM命名实体识别+CRF命名实体识别

来源：互联网发布：js跨域带cookie 编辑：程序博客网时间：2024/06/09 16:41

推荐一篇博客：http://blog.csdn.net/AJAXHu/article/details/48382381
开源的WebCollector爬虫确实很好用，并且提供了网页正文提取的模块。
提供了图形界面的简单配置，Log也比较全面，WebCollector-Hadoop是WebCollector的分布式版本。
对比自己一直使用的Scrapy-redis，感觉WebCollector更适合工业生产。有机会完整的看一下源码，暂时先调用了其中的ContentExtractor模块。

HMM命名实体识别推荐Hanlp开源框架，个人感觉完美实现了NLPIR并且开源，可拓展性强。对于复杂的机构名和地名的识别感觉并不好，准备加入字典和提供一些实际应用中的标注数据进行训练来进行提高。

CRF作为传统机器学习最好的算法，我使用了CRF++-0.58的windows版本，只需要提供训练集和特征模板的编写即可进行训练，目前对于特征模板的编写还存在一定的疑惑，在PKU数据集上采用词+词性以及字+词性（这里我给每个字赋以所在词的词性）+字所在词的边界（采用了BIES标注），对测试的结果直接用每个标签计算R,P,F，没有合并，所以基于字的F达到94，我觉着有一点太高了，不是很科学。

将来准备使用BLSTM+CRF做一下实验，毕竟这是当前最火的方式。

阅读全文

0 0