利用icu4j检测文件的编码格式
来源:互联网 发布:驱蚊手环 知乎 编辑:程序博客网 时间:2024/06/06 07:38
在做项目时需要检测文件的编码格式,经过查阅发现icu4j可以解决这个问题。
代码如下:
package org.apache.lucene.analysis.icu.segmentation;import java.io.File;import java.io.IOException;import java.nio.file.Files;import java.nio.file.Path;import java.nio.file.Paths;import com.ibm.icu.text.CharsetDetector;import com.ibm.icu.text.CharsetMatch;public class TestFileEncoding {public static void main(String[] args) {//System.getProperties().list(System.out);//System.out.println(System.getProperty("user.dir"));File file = new File("FileEncodingTest");File[] files = file.listFiles();try {for(File f:files){tryEncoding(f.getPath());}} catch (IOException e) {e.printStackTrace();}}public static void tryEncoding(String fileName) throws IOException {System.out.println("===Getting encoding of " + fileName);Path path = Paths.get(fileName);byte[] data = Files.readAllBytes(path);CharsetDetector detector = new CharsetDetector();detector.setText(data);CharsetMatch match = detector.detect();String encoding = match.getName();System.out.println("The Content in " + encoding);CharsetMatch[] matches = detector.detectAll();System.out.println("All possibilities:");for (CharsetMatch m : matches) {//System.out.println(" CharsetName:" + m.getName() + " Confidence:" + m.getConfidence());}}}测试发现,记事本保存格式为utf-8的输出格式为utf-8,保存格式为ansi输出为GB18030
0 0
- 利用icu4j检测文件的编码格式
- 检测文件编码格式
- PHP检测文件编码格式
- 【改】利用Emeditor转换文件的编码格式
- 利用eclipse修改不同类型文件的编码格式
- 使用ICU4J探测文档编码
- 使用ICU4J探测文档编码
- 文件的编码格式
- 获取文件的编码格式
- 获取文件的编码格式
- 判断文件的编码格式
- 判断文件的编码格式
- 利用Filter 过滤字符编码的格式
- php检测文件编码的方法示例
- 查看文件的编码格式的方法
- 在ASP中自动检测文件的编码格式,支持UTF-8、GB2312、UTF-7、Unicode、Unicode Swap等格式的检测
- asp检测文件编码
- asp检测文件编码
- Ubuntu chmod命令使用方法详解
- 正确的重载operator+
- LeetCode Add Digits(计算数位的和)
- MySQL数据记录基本操作——多表查询、子查询和正则表达式查询
- Hadoop 核心编程之 HDFS 的文件操作
- 利用icu4j检测文件的编码格式
- Android文件上传
- echarts图表数据为空的时候不显示气泡
- yii 2.0 属性
- 对于缓存思想的理解
- Spring注解@Autowired 和@Resource的区别
- javascript——表单校验工具代码
- 一个数组先按值排序,如果它的值有相同,就再按键排序
- Lightoj 1239 (平面几何 凸包)