HanLP里使用DAT存取字典的方法
来源:互联网 发布:霹雳知乎 编辑:程序博客网 时间:2024/06/07 02:40
CoreBiGramTableDictionary.java和CoreDictionary.java结构思路
词典里文件的格式:wordA@wordB frequency
CoreBiGramTableDictionary.java文件用一个TreeMap<(int)wordA, TreeMap<(int)wordB, (int)frequency>>来读取词典。用一个名为pair的int型数组来存储TreeMap<(int)wordB, (int)frequency>。因为一个wordA可能对应有多个wordB,所以用一个名为start的int型数组来记录wordA后面有多少个wordB(start[i] ~~~ start[i+1])。
wordA和wordB的int数值从DAT的查询中来。
词典里文件的格式:word nature1 frequency1 nature2 frequency2 ......
CoreDictionary.java里用一个Attribute的内部类来保存词典里的每一列中word后的那些概率。
Attribute属性:Nature nature[];
int frequency[];
int totalFrequency;
接着用一个TreeMap<String, Attribute>来存储一列。
怎么build这个map到DAT里?
build(map<String, Attribute>) --> build(Set<String, Attribute>) --> List<String> keyList, List<Attribute> valueList --> build(keyList, valueList) --> DAT里的Attribute[] v := valueList, 最终到了原有的build()。
OK, finished.
0 0
- HanLP里使用DAT存取字典的方法
- 使用Hanlp加载大字典
- HanLP的配置及使用
- 汉语言处理包Hanlp的使用
- c++存取dat数据
- 菜鸟如何使用Hanlp
- 欢迎使用 HanLP
- Hanlp使用Bug记录
- Hanlp配置与使用
- linux 命令行使用hanlp
- hanlp安装和使用
- Spring框架中调用HanLP分词的方法
- .net里SqlServer存取图片方法
- 简单的C# dat文件读取方法
- C#读取txt文本文件(dat)的方法
- 使用HanLP配置文件经常消失
- 如何在ubuntu使用hanlp
- Java中文分词hanlp使用
- [POJ3264]Balanced Lineup 做题笔记
- 求两个数的最大公约数
- POJ 2376 Cleaning Shifts 区间贪心
- 设计模式:单例模式
- sqlite字符串问题
- HanLP里使用DAT存取字典的方法
- J2EE轻量级框架--3.28学习心得
- 光电传感器笔记
- AndroidStudio R.java文件丢失的问题
- 屏幕参数
- kmp算法字符串匹配C语言实现
- 单链表-----数据结构
- 求两个数的最大公约数
- Remove Node in Binary Search Tree