Spark中使用HanLP分词
来源:互联网 发布:巨人网络2018校招面试 编辑:程序博客网 时间:2024/06/05 23:59
1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如:
root=hdfs://localhost:9000/tmp/
2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口:
public static class HadoopFileIoAdapter implements IIOAdapter { @Override public InputStream open(String path) throws IOException { Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(path), conf); return fs.open(new Path(path)); } @Override public OutputStream create(String path) throws IOException { Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(path), conf); OutputStream out = fs.create(new Path(path)); return out; } }
3.设置IoAdapter,创建分词器:
private static Segment segment;static { HanLP.Config.IOAdapter = new HadoopFileIoAdapter(); segment = new CRFSegment();}
然后,就可以在Spark的操作中使用segment进行分词了。
阅读全文
0 0
- Spark中使用HanLP分词
- Java中文分词hanlp使用
- Java分词工具HanLP
- HanLPTokenizer HanLP分词器
- python调用hanlp分词
- Spring框架中调用HanLP分词的方法
- HanLP分词器的使用方法
- hanlp for elasticsearch(基于hanlp的es分词插件)
- Hanlp中基于2阶HMM 序列标注算法进行分词的代码解析
- 菜鸟如何使用Hanlp
- 欢迎使用 HanLP
- Hanlp使用Bug记录
- Hanlp配置与使用
- linux 命令行使用hanlp
- hanlp安装和使用
- hanlp源码解析之中文分词算法
- elasticsearch(4)安装hanlp中文分词插件
- 基于HanLP分词的命名实体提取
- java相关优秀博文收藏
- ios开发:跳转到根视图并跳转到第一个tabbar第一个页面
- [区块链应用]区块链技术在殡葬行业的思考
- SpringMVC 整合shrio框架 Could not resolve placeholder '*******' in value "${*******}"
- 前端--三种插件用来解析mardowm,转化成为html语法
- Spark中使用HanLP分词
- 一致性算法之Raft
- redis缓存,rabbitMQ队列
- 研发团队管理心得
- PHP开发小技巧①④—PHP判断时间在某一时间段内
- Android Studio解决没有HttpClint及相关类的方法
- 表达式求值
- 中科爱讯WiFi探针模块TZ-1002产品简介
- EditText