java 对文件内容进行分词统计
来源:互联网 发布:淘宝儿童女外衣 编辑:程序博客网 时间:2024/06/05 20:22
本文记录了我在面试过程中感觉有用的问题,方便日后参考。
问题描述:
给定一个文本文件,按以下要求进行分词统计:
时间限制:5000ms
内存限制:256MB
要求1:读取文本信息(input.txt),设置分词大小,输出相应词频信息
要求2:统计一个单词在文本中的出现频率(一个单词出现次数/总单词数),排序输出结果
文本内容大致如下:
程序实现:
import java.util.Map;import java.util.HashMap;import java.util.Scanner;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.IOException;import java.util.List;import java.util.ArrayList;import java.math.BigDecimal;public class Participle { public static void solutionOne(){ Scanner in = new Scanner(System.in); print("请输入分词大小: "); int inputPartiSize = 0; while(in.hasNextInt()){ inputPartiSize = in.nextInt(); break; } final Map<String,Integer> dictFreq = new HashMap<String,Integer>(); final int partiSize = inputPartiSize; readInput(new LineSolution(){ public void solveLine(String line){ String[] lineDicts = lineParser(line, partiSize); if(lineDicts != null){ for(int i=0; i<lineDicts.length; i++){ String word = lineDicts[i]; if(dictFreq.containsKey(word)){ int num = dictFreq.get(word); dictFreq.put(word, ++num); } else { dictFreq.put(word, 1); } } } } }); for(Map.Entry<String,Integer> entry : dictFreq.entrySet()){ print(entry.getKey() + "\t times: " + entry.getValue() + '\n'); } } public static void solutionTwo(){ print("方案二:\n"); final Map<String,Integer> singleDictFreq = new HashMap<String,Integer>(); final Map<String,Integer> callResult = new HashMap<String,Integer>(); callResult.put("sum", 0); readInput(new LineSolution(){ public void solveLine(String line){ String[] lineDicts = lineParser(line, 1); if(lineDicts != null){ callResult.put("sum", callResult.get("sum") + lineDicts.length); for(int i=0; i<lineDicts.length; i++){ String word = lineDicts[i]; if(singleDictFreq.containsKey(word)){ int num = singleDictFreq.get(word); singleDictFreq.put(word, ++num); } else { singleDictFreq.put(word, 1); } } } } }); Map<String,Double> singleDictFreqCalc = new HashMap<String,Double>(); int sum = callResult.get("sum"); for(Map.Entry<String,Integer> entry : singleDictFreq.entrySet()){ singleDictFreqCalc.put(entry.getKey(), divide(entry.getValue(), sum)); } for(Map.Entry<String,Double> entry : singleDictFreqCalc.entrySet()){ print(entry.getKey() + "\t frequency: " + entry.getValue() + '\n'); } } private static String[] lineParser(String line, int scale){ String[] lineDicts = null; if(line != null && !"".equals(line.trim())){ String[] spliter = line.split("\\s+|,"); List<String> container = new ArrayList<String>(); for(int i=0; i<spliter.length; i += scale){ StringBuilder phase = new StringBuilder(""); for(int j=0; (i+j) < spliter.length && j<scale; j++){ phase.append(spliter[i+j]).append(" "); } String phaseStr = phase.toString().trim(); if("".equals(phaseStr)){ continue; } container.add(phaseStr); } lineDicts = new String[container.size()]; container.toArray(lineDicts); } return lineDicts; } private static void readInput(LineSolution solution){ try{ String dir = System.getProperty("java.class.path"); FileReader fr = new FileReader(dir + "/input.txt"); BufferedReader br = new BufferedReader(fr); String line = ""; while(line != null){ line = br.readLine(); if(line == null){ break; } solution.solveLine(line); } }catch(IOException e){ e.printStackTrace(); } } private static double divide(double divisor, double dividend){ return new BigDecimal(divisor) .divide(new BigDecimal(dividend), 5, BigDecimal.ROUND_HALF_UP).doubleValue(); } public static void main(String[] args){ String Q1 = "1:读取文本信息(input.txt),设置分词大小,输出相应词频信息"; String Q2 = "2:统计一个单词在文本中的出现频率(一个单词出现次数/总单词数),排序输出结果"; print(Q1+'\n'); print(Q2+'\n'); print("\n"); print("请输入问题序号: "); Scanner in = new Scanner(System.in); while(in.hasNextInt()){ int num = in.nextInt(); if(num == 1){ solutionOne(); break; } else if(num == 2){ solutionTwo(); break; } else { print("\n请输入有效问题序号: "); } } } private static void print(String str){ System.out.print(str); }}interface LineSolution { void solveLine(String line);}
结果输出:
查看原文:http://localhost:8080/?p=112
阅读全文
0 0
- java 对文件内容进行分词统计
- java 对文件内容进行分词统计
- Java对文本进行分词
- 利用word分词来对文本进行词频统计
- 对文件内容进行加密
- SQL分词 统计每一个内容
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- 可对内容、文件进行加密
- 对文件内容进行MD5加密认证
- linux less对文件内容进行搜索
- 对一段文字进行分词, 查找关键字然后关键字词频统计
- 【自然语言处理入门】01:利用jieba对数据集进行分词,并统计词频
- python中文分词,使用结巴分词对python进行分词
- R语言对微博内容的根据人物分类以及对博文的分词统计
- java中,对文件进行追加内容操作的三种方法
- java中,对文件进行追加内容操作的三种方法!
- java中,对文件进行追加内容到txt的三种方法
- jquery 设置、取消disabled、checked 等属性
- Git 入门
- HeapSort(堆排序)
- 常用函数
- leetcode75. Sort Colors
- java 对文件内容进行分词统计
- java 数组列表
- hdoj 1000
- jsp 指令和内置对象
- 浅谈sql中的in与not in,exists与not exists的区别
- javascript 事件冒泡机制
- Sublime text3
- Dos命令下操作MySql解决中文乱码问题
- 嵌入式Linux内核启动参数介绍与设置