java中合并不同子目录下的txt文件(CHM转换成txt的过程)

来源:互联网 发布:龙华淘宝电商培训 编辑:程序博客网 时间:2024/05/21 09:02
近日下了一个中文小说CHM,希望放到手机里阅读。结果发现小屏幕的手机看chm真是痛苦。因此想将chm转成txt。
文件:E:\temp.chm
文件大小:220M
试了几个转换工具,貌似都不行⊙﹏⊙b汗
那就自己弄吧^_^,这种方式应该也能转成其他格式,例如word啥的。
首先在cmd命令行用如下命令对dhm反编译:
                              hh -decompile 目标文件夹 源CHM文件名
得到temp文件夹,里面一堆文件
 

 

所有的txt文本都在temp\txt\数字\txt文件夹中,此文件夹中除了txt文件还有其他文件,例如.jpg

 

大概浏览了一下,txt中需要的部分应该都是中文及标点(,。;)。除了需要的部分,还有一堆html控制语言(英文字母,其他符号,例如< > \ /等)。因此合并时将不需要的部分去掉。这一点可以了利用正则表达式实现(参见http://blog.csdn.net/matao409/article/details/9188737)。

 java合并程序如下:

 

package tony.txttool;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;public class TxtTool {/** * @param args * @throws IOException  */public static void main(String[] args) throws IOException {BufferedWriter fw = new BufferedWriter(new FileWriter(new File("F:\\new.txt")));BufferedReader fr = null;String basepath = "E:\\temp\\txt\\";String subpath = null;String[] subdirnames = new File(basepath).list();for(int i=0;i<subdirnames.length;i++){subpath=basepath+subdirnames[i]+"\\txt";System.out.println(subpath);File[] files =  new File(subpath).listFiles();System.out.println("number of files in "+subpath+" : "+files.length);for(int j=0;j<files.length;j++){//如果不是以.txt结尾的话跳过if(!"txt".equals(files[j].getName().split("\\.")[1])){System.out.println(files[j].getName()+"不是txt文件");continue;}//是txt文件,则从此文件中读出(fr),然后写入到new.txt中(fw)fr = new BufferedReader(new FileReader(files[j]));String line = null;while((line=fr.readLine())!=null){line = handleString(line);fw.write(line);fw.newLine();}}}fw.close();fr.close();System.out.println("over");}private static String handleString(String s){//利用正则表达式和字符串的替换函数,去除所有除了逗号和句号的非汉字s = s.replaceAll("[^\\u4e00-\\u9fa5|\\,||。]", "");return s;}}


 

 最后看到文件比较大,又分割了一下

http://blog.csdn.net/matao409/article/details/9189729

 

 .bat批处理方法应该也能实现,有待进一步研究

 

================================================================

原创文章,转载请注明链接

 

 

原创粉丝点击