大數據交叉報表解決案例(方案)

軟硬件環境

OS:win7html

Cpu:8 核web

集算報表:1120 安裝版sql

Jvm:1G數據庫

數據庫:oracle11goracle

客戶沒法解決的問題:

有一個交叉彙總報表,其實格式很簡單,行列各一個統計維度。但後臺業務表的數據有 175 萬條,且還要與其餘表(大概在 7w 條左右)作 join,若是由 sql 來處理,能夠想象到會慢到什麼程度,關鍵受各類條件影響,可否查出數據都是問題。jvm

注:ACCORECEIVE 表 175w 條數據測試

目前,測試 birt 需 5 分鐘,藉助各類中間表與視圖。報表友商沒法出表。大數據

要求:能作出該報表在 web 展示,且重要的是速度要快,另外,數據(目前大概是 5 年數據)是實時增長的。ui

客戶報表格式及目前所用 sql:spa

報表格式:

Sql:

select LOCATIONS.loupan loupan,

       LOCATIONS.LPORDERNUM,

       nvl(ACCORECEIVE.RECEIVABLEAMOUNT, 0) yingshou,

       chargeproct.Description CHARPNAME,

       chargeproct.ordernum chordernum

  from ACCORECEIVE,V\_LOCATION\_LP\_LG\_DY LOCATIONS,chargeproct

   where ACCORECEIVE.Org\_Id = LOCATIONS.Org\_Id

   and ACCORECEIVE.Sub\_Org\_Id = LOCATIONS.Sub\_Org\_Id

   and ACCORECEIVE.Fk_Locationid = LOCATIONS.Locationid

   and ACCORECEIVE.Fk_Chargeproctid = chargeproct.chargeproctid(+)

   and ACCORECEIVE.Wf_Status not in('做廢')
 

select LOCATIONS.loupan loupan,        LOCATIONS.LPORDERNUM,        nvl(ACCORECEIVE.RECEIVABLEAMOUNT, 0) yingshou,        chargeproct.Description CHARPNAME,        chargeproct.ordernum chordernum   from ACCORECEIVE,V\_LOCATION\_LP\_LG\_DY LOCATIONS,chargeproct    where ACCORECEIVE.Org\_Id = LOCATIONS.Org\_Id    and ACCORECEIVE.Sub\_Org\_Id = LOCATIONS.Sub\_Org\_Id    and ACCORECEIVE.Fk_Locationid = LOCATIONS.Locationid    and ACCORECEIVE.Fk_Chargeproctid = chargeproct.chargeproctid(+)    and ACCORECEIVE.Wf_Status not in('做廢')

問題分析及解決方案

常規模式下,大數據要出交叉報表幾乎很難,這裏受 sql 效率慢、jvm 等的影響,一次若是把全部數據所有取出則必然極大可能內存溢出。另外,大數據表再有 join,即使能取,那取數速度上確定也沒法保證(sql join 的效率低),上面 sql 中能體現出全部問題。

解決方案:

一、爲避免一次性取數內存溢出,可採用集算器遊標 cursor 取數;  –cursor

二、去除不須要字段及 join 字段。分析後發現,客戶實際不須要 org_id、sub_org_id 的關聯;

三、取數後可根據客戶所出報表對應作數據處理,這裏可 groups 處理一次分組彙總;–替代報表表達式 group

四、爲擺脫 sql join 效率低問題,可將 join 放在集算器內處理,這裏 ACCORECEIVE 與 V_LOCATION_LP_LG_DY 表(query 便可,數據不大)分開取數;  –switch 鏈接

注:集算器中測試了兩表 sql 中 join,時間大概需 5 分鐘。

五、結合客戶報表格式及所用的數據庫表,可將上面 sql 中 chargeproct 表放到報表 sql 取數,因其僅體現顯示值做用,且僅幾十條數據。

集算腳本:

注:代碼有每一步的做用說明

結論

潤乾能出表且速度最快,客戶聯繫人是很是滿意的。對比:

一、友商:沒法出表,包含不作 join 僅單查業務表數據。

二、Birt:客戶說 四、5 分鐘出表,雖沒法驗證,但我的有點懷疑;

三、潤乾:12s(屢次測試)左右,(取數 + 報表展示)。–因數據處理在集算器已完成,因此報表幾乎無計算,報表計算及生成 html(大概是 20 行 +35 列的單元格)基本不佔用時間。

相關文章
相關標籤/搜索