在集群上支持数据库大数据量导出

来源:互联网 发布:chrome for mac 翻墙 编辑:程序博客网 时间:2024/05/18 09:28

 

80w行的数据导出

数据库表(经过程序处理)导出一般使用EXCEL文件,技术一般有POIJXLFastExcel。但是当文件过大(几十个字段,行数超过200,000)的时候,往往会出现内存溢出OutOfMemery,这个是应用无非承受的。

对于导出这么大量的数据,一般没有实时性的要求,也没有外观的要求。

业务部分的需求一般是:导出80W行数据,不管是什么,最后能变化成EXCEL即可。

解决方案:直接导出成TXT的格式,再由EXCEL打开,这样一般能满足业务的需求。

涉及的技术,压缩、并发等技术还要跟集群结合。

压缩:直接将txt压缩成RAR文件,没有什么难度。

并发:我们在后台起一个线程或者几个线程来运行一段程序,操作数据的任务表。(可以是单台机器操作)。

任务处理:直接在数据库建立任务表。

 

基本的结构如下所示:

交互图

  1. 用户的一个下载请求,传到这个服务器,服务器再传到第一台服务器。
  2. 第一台服务器向DB的任务表中插入一个条任务信息。
  3. 当第一台服务器启动的时候,启动一个线程,定时去查看DB中有没有任务。
  4. 如果有任务,则 处理,从底层BO中取得需要的数据。
  5. 直接写入文件file.txt中,再将压缩成file.rar文件
  6. 在页面展示一个下载中心,用户可以下载文件、也可以删除文件,甚至可以查看当然的下载任务的处理剩余时间。

 

file.rar必须挂在存储上,多台服务器共享。

 

 

压缩源码(核心部分):

NotepadRender: