Spring框架中调用HanLP分词的方法
来源:互联网 发布:留学cv 知乎 编辑:程序博客网 时间:2024/06/11 01:20
我的GitHub博客:咖啡成瘾患者
豌豆镇楼
事情是这样的,最近实验室在搞一个Java Web的项目,用的Spring MVC的框架。项目组有很多没做过Spring的学弟学妹,为了提高效率,我让大家自己先抛开Spring来写自己负责的模块,我来把各个模块在Spring里集成。
项目里有一个文本分析的模块是一个学妹负责的,里面用到了HanLP,我在集成的时候直接用maven添加的依赖,等集成好了测试的时候发现怎么也测不过,问了学妹才发现为了做实体识别,她用了一个很有意思的方法,自己改了HanLP的词典,手动加了好多词,而且后期版本迭代中还有可能继续改。。。。
改了HanLP的词典就意味着不能用maven直接导入仓库里的包了,只能直接将修改后的data文件放到本地,然后指定路径给HanLP。搜了一下网上很多方法,都是在项目部署的时候,把HanLP的词典数据放到服务器上一个固定位置上,然后再配置HanLP的配置文件,指定一个固定位置。这种方法虽然直接,但是不能把HanLP的词典数据跟整个项目打包到一起,管理起来很麻烦。倘若把数据直接作为项目的资源文件,部署到Tomcat上后无论怎么在配置里写路径都会提示找不到词典文件。研究了一下HanLP的issue之后,我发现这个项目支持自定义读写文件的IO类。在一个将词典数据放到HDFS上的一个blog启发下,我想了一个很鸡贼的方法,我重写一个IOAdapter类,使用读写静态资源文件的方法读取词典数据了,这样不就可以把data跟项目打包到一起了嘛。
代码如下:
package com.car.util.nlp;import com.hankcs.hanlp.corpus.io.IIOAdapter;import org.springframework.core.io.ClassPathResource;import java.io.*;public class ResourcesFileIoAdapter implements IIOAdapter{ @Override public InputStream open(String path) throws IOException { ClassPathResource resource = new ClassPathResource(path); InputStream is = new FileInputStream(resource.getFile()); return is; } @Override public OutputStream create(String path) throws IOException{ ClassPathResource resource = new ClassPathResource(path); OutputStream os = new FileOutputStream(resource.getFile()); return os; }}
整好了之后把data文件夹和hanlp.properties放到项目的资源文件夹里,在配置文件里修改一下路径和IOAdapte:
root=IOAdapte=com.car.util.nlp.ResourcesFileIoAdapter
不知道正确的解决方案应该是啥,感觉这个方法还是很鸡贼的。
- Spring框架中调用HanLP分词的方法
- python调用hanlp分词
- Spark中使用HanLP分词
- HanLP分词器的使用方法
- hanlp for elasticsearch(基于hanlp的es分词插件)
- 基于HanLP分词的命名实体提取
- Hanlp中基于2阶HMM 序列标注算法进行分词的代码解析
- Java分词工具HanLP
- HanLPTokenizer HanLP分词器
- Servlet中调用 Spring管理的 Service层方法(SSH框架中)
- Servlet中调用 Spring管理的 Service层方法(SSH框架中)
- Java中文分词hanlp使用
- spring框架中Bean的基本属性及调用外部properties等配置文件的方法介绍
- tomcat中使用spring框架并调用其bean的一些方法
- Spring框架中普通的类如何调用注解Service中的方法
- Spring框架中调用问题
- 基于hanLP的中文分词详解-MapReduce实现&自定义词典文件
- hanlp源码解析之中文分词算法
- 最小二乘法(least square method)的直观认识
- TCP与UDP的完整区别
- Unity优化场景的一点记录
- 原型模式
- 【模线性方程 && 扩展欧几里德】POJ
- Spring框架中调用HanLP分词的方法
- VTK7.1.1+VS2013+QT5.6.1安装教程
- 源码安装PHP7和ApachePHP支持
- 2. 观察者模式
- NYOJ 46 sum of all integer numbers
- mysql数据库增删查改操作命令
- Spring 基于注解的配置(一)(@Conmponent ,@Repository,@Service,以及对访问资源的限定)
- Codeforces Round #438 (Div. 1 + Div. 2 combined) D. Huge Strings
- 操作系统磁盘调度算法