关于读取大文本文件

来源:互联网 发布:美利坚淘宝之王下载 编辑:程序博客网 时间:2024/05/19 22:02

    昨天晚上开始着手写这个程序,看了很多网上的方法,用文件流,用多线程。本来想用多线程来处理,一个线程读文件,读到一个一个缓存中,然后再调用一个线程一个一个处理这些缓存,写到每个小文件中,从而实现分割,但是尝试了下,发现不知道线程到底处理到哪里了,而且读,写文件也有很大的问题,不知道如何从读完了第一个大小的文件,再如何从刚刚读完的地方读下一个文件,搞了半天分割了文件却都是同一个内容。

    这个还在慢慢研究,我想多线程的先放放,看看是不是写个日志监控下,先吧分割文件的解决了,不知道是用文件流读起来比较快且不费内存还是一行一行的读写比较快捷,这个还有待测试。

    不过我还写了一个提取包含某个字符串的行都取出来的方法,我是通过读一行然后判断然后再写一行的方法来实现的,用循环来做,看来一下,小文件当然速度比较快,我就用日志文件试了一下,大概5G吧,然后提取包含某字符串的行,文件大概2G多,(如果能再分割成小文件就很好了),不知道为什么用UE竟然打不开,我5G的都打开了,真想不明白,cpu大概一直在50%左右,我感觉也就5,6分钟,本来以为cpu会达到100%,看来还好。

    有一个很郁闷的问题就是,用这种方法提取出来的中文竟然是乱码,看来编码方式还需要转变下。

    希望能继续把分割文件这个问题解决吧

 

 

 

   刚刚把编码问题解决了,读文件的时候要加编码

StreamReader sr = new StreamReader(FileName,Encoding.GetEncoding("GB2312"));

 

分割文件的写是写好了,但是很占内存,我是2G的内存,基本上都达到780了,cpu反而不是很高。而且在运行过程中,winform一直处于死机状态,根本不能动。

    还有一个很大的问题就是我分割后的文件用UE打不开,是编码问题么,还需要继续研究

原创粉丝点击