Bamboo配置方案
来源:互联网 发布:sudoers ubuntu 编辑:程序博客网 时间:2024/05/29 09:36
- Bamboo Framework的核心主要由Processors和Parsers两层构成,配置选项和参数主要对应Parsers层,即每个Parser都有自己的配置文件
- 配置文件和Parser的对应关系:
- /opt/bamboo/etc/ugm_seg.conf - 基于Unigram算法的分词Parser
- /opt/bamboo/etc/crf_seg.conf - 基于CRF模型的分词Parser
- /opt/bamboo/etc/crf_pos.conf - 基于CRF模型的词性标注Parser
- /opt/bamboo/etc/crf_ner_nr.conf - 基于CRF模型的人名识别Parser
- /opt/bamboo/etc/crf_ner_ns.conf - 基于CRF模型的地名识别Parser
- /opt/bamboo/etc/crf_ner_nt.conf - 基于CRF模型的机构名识别Parser
- /opt/bamboo/etc/keyword.conf - 主题词抽取Parser
- /opt/bamboo/etc/build_settings - autobuild训练程序
Bamboo配置文件格式
- 以#开头的行为注释行
- 可以使用$符号进行变量引用,可以使用\逃逸
- 每一行配置为一个Key-Value对,用等号分割
分词主要参数
- root : bamboo的根目录,默认是/opt/bamboo
- processor_root : processor的根目录,默认是/opt/bamboo/processor/
- max_token_length : 最大分词长度
- crf_seg_model : 分词CRF模型文件的路径
- use_single_combine: 是否使用单字合并
- single_combination_lexicon: 单字合并字典路径
- use_break: 是否使用分词打散
- break_lexicon: 分词打散字典路径
- break_min_length: 需要打散单词的最短长度
- ele_lambda: unigram分词的ELE平滑系数
词性标注主要参数
- 词性标注前需要先CRF分词,这部分和CRF分词参数一致
- crf_pos_model : 词性标注CRF模型文件的路径
命名实体识别主要参数
- ner_output_type : 实体识别的输出类型,
- 0:只输出实体词
- 1:输出所有词,实体词有标志位
- crf_nernr/ns/ntmodel : 命名实体CRF模型文件的路径
主题词抽取主要参数
- ke_token_id_dict : 词语的id文件
- ke_token_aff_dict : 词与词之间的同现关系(语料统计)
- ke_token_df_dict : 词的文档频率(语料统计)
- ke_filter_dict : 过滤词表
- ke_top_n : 输出的主题词数量
- ke_algorithm : 主题词的抽取算法类型,默认是基于图的,可以选择传统的TF/IDF的,前者质量相对好,后者速度相对快
- 主题词抽取在算法上还有一些数学参数,可以参见配置文件的内部注释
- Bamboo配置方案
- bamboo
- Bamboo简介
- Bamboo的一些基本概念
- Bamboo的windows安装
- Atlassian Bamboo 安装
- bamboo 内部环境变量
- bamboo servlet 版本列表
- Bamboo入门教程及基础操作
- 另一种持续集成工具Bamboo
- Bamboo-重要安全建议公告
- Docker + Bamboo + Saltstack 持续集成
- codeforces 830C Bamboo Partition
- CF830C:Bamboo Partition(数学)
- CodeForces 830C Bamboo Partition
- Toamcat + Soap 配置方案
- jboss配置方案
- log4j 配置方案
- [IT 男人帮 11-15] 想象力的乐园 Google X——Google 的秘密实验室曝光
- 组件一些常用的触发事件
- 向本进程窗口中的ListView窗口发送NM_DBLCLK通知(SDK代码)
- ip
- 基本I/O接口电路设计实验
- Bamboo配置方案
- Linux Top 命令详解
- linux C 扩展语法1--内联函数方法简介
- Delphi连接SQL Server 2000
- 在UltraEdit (UEStudio)使用技巧及其中的正则表达式
- Android Robotium实例
- 在企业内部门户如何构建社区应用?
- hdu1124
- 如何获得Android的System Bar’s Height