润乾集算报表，集算器解决大数据交叉报表解决案例（方案）

来源：互联网发布：淘宝上的中药丰胸编辑：程序博客网时间：2024/06/15 01:29

软硬件环境

OS：win7

Cpu：8核

集算报表：1120安装版

Jvm：1G

数据库：oracle11g

有一个交叉汇总报表，其实格式很简单，行列各一个统计维度。但后台业务表的数据有175万条，且还要与其他表（大概在7w条左右）做join，如果由sql来处理，可以想象到会慢到什么程度，关键受各种条件影响，能否查出数据都是问题。

注：ACCORECEIVE表175w条数据

目前，测试birt需5分钟，借助各种中间表与视图。报表友商无法出表。

要求：能做出该报表在web展现，且重要的是速度要快，另外，数据（目前大概是5年数据）是实时增加的。

客户报表格式及目前所用sql：

报表格式：

Sql：

select LOCATIONS.loupan loupan,

LOCATIONS.LPORDERNUM,

nvl(ACCORECEIVE.RECEIVABLEAMOUNT, 0) yingshou,

chargeproct.Description CHARPNAME,

chargeproct.ordernum chordernum

from ACCORECEIVE,V_LOCATION_LP_LG_DY LOCATIONS,chargeproct

where ACCORECEIVE.Org_Id = LOCATIONS.Org_Id

and ACCORECEIVE.Sub_Org_Id = LOCATIONS.Sub_Org_Id

and ACCORECEIVE.Fk_Locationid = LOCATIONS.Locationid

and ACCORECEIVE.Fk_Chargeproctid = chargeproct.chargeproctid(+)

and ACCORECEIVE.Wf_Status not in('作废')

常规模式下，大数据要出交叉报表几乎很难，这里受sql效率慢、jvm等的影响，一次如果把所有数据全部取出则必然极大可能内存溢出。另外，大数据表再有join，即便能取，那取数速度上肯定也无法保证（sql join的效率低），上面sql中能体现出所有问题。

解决方案：

1、为避免一次性取数内存溢出，可采用集算器游标cursor取数； --cursor

2、去除不需要字段及join字段。分析后发现，客户实际不需要org_id、sub_org_id的关联；

3、取数后可根据客户所出报表对应做数据处理，这里可groups处理一次分组汇总；--替代报表表达式group

4、为摆脱sql join效率低问题，可将join放在集算器内处理，这里ACCORECEIVE与V_LOCATION_LP_LG_DY表（query即可，数据不大）分开取数； --switch连接

注：集算器中测试了两表sql中join，时间大概需5分钟。

5、结合客户报表格式及所用的数据库表，可将上面sql中chargeproct表放到报表sql取数，因其仅体现显示值作用，且仅几十条数据。

集算脚本：

注：代码有每一步的作用说明

润乾能出表且速度最快，客户联系人是非常满意的。对比：

1、友商：无法出表，包含不做join仅单查业务表数据。

2、 Birt：客户说4、5分钟出表，虽无法验证，但个人有点怀疑；

3、润乾：12s（多次测试）左右，（取数+报表展现）。 --因数据处理在集算器已完成，所以报表几乎无计算，报表计算及生成html（大概是20行+35列的单元格）基本不占用时间。

0 0