自动生成语料
来源:互联网 发布:客户数据 编辑:程序博客网 时间:2024/05/19 09:12
这次又来了,很简单的用法,遗憾的事情是还是停留在awk的脚本上面,什么时候整一个C++的版本吧。直接贴代码了:
#!/bin/awk -fBEGIN{}{ tmp = $0; if($0 ~ /\(/ && $0 ~ /\)/) { ind = index(tmp, "("); if(ind > 0) { if(ind > 1) name1 = substr(tmp, 1, ind - 1); else name1 = ""; } tmp1 = substr(tmp, ind + 1, length(tmp) - ind); ind1 = index(tmp1, ")"); if(ind1 > 0) { name2 = substr(tmp1, 1, ind1 - 1); } if(ind1 < length(tmp1)) name3 = substr(tmp1, ind1 + 1, length(tmp1) - ind1); else name3 = ""; split(name2, name2_arr, "\|"); for(name_tmp in name2_arr) printf("%s %s %s\n", name1, name2_arr[name_tmp], name3); }else{ printf("%s\n", $0); }}END{}
用法是 awk -f test2.awk infile > outfile
对一句话中以 括号(英文的)包起来,以”|” 为分隔符的句子进行展开。
eg:
infile:
温度调到(26|27|28)度
相应的输出的文件是
outfile:
温度调到26度温度调到27度温度调到28度
自己一定要整一个C++的版本出来才行!fighting
0 0
- 自动生成语料
- 利用标注语料生成决策weights
- 通过主动学习的方法进行自动语料标注
- 汉语命名实体识别训练语料自动构建
- 自动构建文本分类标注语料的方法
- 通过主动学习的方法进行自动语料标注
- python片段,生成语料中词以及词对应Id
- nltk 获取 gutenberg 语料,gensim 生成词库和 onehot 编码
- 自动生成
- 非主流自然语言处理——遗忘算法系列(二):大规模语料词库生成
- 根据文本语料生成词典、每行行首加唯一id
- 情感语料
- 语料预处理
- 机器学习语料,深度学习语料,神经网络语料,nlp语料,机器视觉语料,持续更新
- (转)非主流自然语言处理——遗忘算法系列(二):大规模语料词库生成
- 生成新类时自动生成注释
- 自动生成NHibernate配置文件
- 自动批量生成缩略图
- Swing动态添加控件,界面刷新重绘
- source Insight
- Min Number
- Java开发中的reloadable设置
- HDU 1003 Max Sum
- 自动生成语料
- linux iptables 配置
- maven与findbugs的集成
- Android Studio系列教程三-- 更新studio、设置Eclipse风格的快捷键、(自动)导包
- 图像的矩
- Android之WebView的简单使用
- 获取视图的绝对坐标(相对于UIWindow)
- UML——用例图
- C语言:day9~指针