OS:win7html
Cpu:8 核web
集算報表:1120 安裝版sql
Jvm:1G數據庫
數據庫:oracle11goracle
有一個交叉彙總報表,其實格式很簡單,行列各一個統計維度。但後臺業務表的數據有 175 萬條,且還要與其餘表(大概在 7w 條左右)作 join,若是由 sql 來處理,能夠想象到會慢到什麼程度,關鍵受各類條件影響,可否查出數據都是問題。jvm
注:ACCORECEIVE 表 175w 條數據測試
目前,測試 birt 需 5 分鐘,藉助各類中間表與視圖。報表友商沒法出表。大數據
要求:能作出該報表在 web 展示,且重要的是速度要快,另外,數據(目前大概是 5 年數據)是實時增長的。ui
客戶報表格式及目前所用 sql:spa
報表格式:
Sql:
select LOCATIONS.loupan loupan, LOCATIONS.LPORDERNUM, nvl(ACCORECEIVE.RECEIVABLEAMOUNT, 0) yingshou, chargeproct.Description CHARPNAME, chargeproct.ordernum chordernum from ACCORECEIVE,V\_LOCATION\_LP\_LG\_DY LOCATIONS,chargeproct where ACCORECEIVE.Org\_Id = LOCATIONS.Org\_Id and ACCORECEIVE.Sub\_Org\_Id = LOCATIONS.Sub\_Org\_Id and ACCORECEIVE.Fk_Locationid = LOCATIONS.Locationid and ACCORECEIVE.Fk_Chargeproctid = chargeproct.chargeproctid(+) and ACCORECEIVE.Wf_Status not in('做廢')
select LOCATIONS.loupan loupan, LOCATIONS.LPORDERNUM, nvl(ACCORECEIVE.RECEIVABLEAMOUNT, 0) yingshou, chargeproct.Description CHARPNAME, chargeproct.ordernum chordernum from ACCORECEIVE,V\_LOCATION\_LP\_LG\_DY LOCATIONS,chargeproct where ACCORECEIVE.Org\_Id = LOCATIONS.Org\_Id and ACCORECEIVE.Sub\_Org\_Id = LOCATIONS.Sub\_Org\_Id and ACCORECEIVE.Fk_Locationid = LOCATIONS.Locationid and ACCORECEIVE.Fk_Chargeproctid = chargeproct.chargeproctid(+) and ACCORECEIVE.Wf_Status not in('做廢')
常規模式下,大數據要出交叉報表幾乎很難,這裏受 sql 效率慢、jvm 等的影響,一次若是把全部數據所有取出則必然極大可能內存溢出。另外,大數據表再有 join,即使能取,那取數速度上確定也沒法保證(sql join 的效率低),上面 sql 中能體現出全部問題。
解決方案:
一、爲避免一次性取數內存溢出,可採用集算器遊標 cursor 取數; –cursor
二、去除不須要字段及 join 字段。分析後發現,客戶實際不須要 org_id、sub_org_id 的關聯;
三、取數後可根據客戶所出報表對應作數據處理,這裏可 groups 處理一次分組彙總;–替代報表表達式 group
四、爲擺脫 sql join 效率低問題,可將 join 放在集算器內處理,這裏 ACCORECEIVE 與 V_LOCATION_LP_LG_DY 表(query 便可,數據不大)分開取數; –switch 鏈接
注:集算器中測試了兩表 sql 中 join,時間大概需 5 分鐘。
五、結合客戶報表格式及所用的數據庫表,可將上面 sql 中 chargeproct 表放到報表 sql 取數,因其僅體現顯示值做用,且僅幾十條數據。
集算腳本:
注:代碼有每一步的做用說明
結論
–
潤乾能出表且速度最快,客戶聯繫人是很是滿意的。對比:
一、友商:沒法出表,包含不作 join 僅單查業務表數據。
二、Birt:客戶說 四、5 分鐘出表,雖沒法驗證,但我的有點懷疑;
三、潤乾:12s(屢次測試)左右,(取數 + 報表展示)。–因數據處理在集算器已完成,因此報表幾乎無計算,報表計算及生成 html(大概是 20 行 +35 列的單元格)基本不佔用時間。