工做中遇到千萬級單表數據查詢優化,博主第一時間想到表分區,特此記錄問題的解決過程,避免你們採坑。
數據庫表分區把一個大的物理表分紅若干個小的物理表,並使得這些小物理表在邏輯上能夠被當成一張表來使用。
PostgreSQL數據庫中對錶作分區,與11g以前的Oracle相似,須要手動建立分區表、索引等。經過繼承,好比按時間,每個月建立一個表分區,數據記錄到對應分區中。javascript
建立主表結構, 表名稱 three_height_data_value, 其中的時間字段名: gather_timejava
CREATE TABLE "public"."three_height_data_value" ( "data_id" varchar(64) COLLATE "pg_catalog"."default" NOT NULL, "data_time" timestamp(6) NOT NULL, "data_value" float8 NOT NULL );
建立存儲過程,使用動態SQL, 將大表分區的運維操做實現自動化。linux
CREATE OR REPLACE FUNCTION auto_insert_into_three_height_data_value() RETURNS trigger AS $BODY$ DECLARE time_column_name text ; -- 父表中用於分區的時間字段的名稱[必須首先初始化!!] curMM varchar(6); -- 'YYYYMM'字串,用作分區子表的後綴 isExist boolean; -- 分區子表,是否已存在 startTime text; endTime text; strSQL text; BEGIN -- 調用前,必須首先初始化(時間字段名):time_column_name [直接從調用參數中獲取!!] time_column_name := TG_ARGV[0]; -- 判斷對應分區表 是否已經存在? EXECUTE 'SELECT $1.'||time_column_name INTO strSQL USING NEW; curMM := to_char( strSQL::timestamp , 'YYYYMM' ); select count(*) INTO isExist from pg_class where relname = (TG_RELNAME||'_'||curMM); -- 若不存在, 則插入前需 先建立子分區 IF ( isExist = false ) THEN -- 建立子分區表 startTime := curMM||'01 00:00:00'; endTime := to_char( startTime::timestamp + interval '1 month', 'YYYY-MM-DD HH24:MI:SS'); strSQL := 'CREATE TABLE IF NOT EXISTS '||TG_RELNAME||'_'||curMM|| ' ( CHECK('||time_column_name||'>='''|| startTime ||''' AND ' ||time_column_name||'< '''|| endTime ||''' ) ) INHERITS ('||TG_RELNAME||') ;' ; EXECUTE strSQL; -- 建立索引 strSQL := 'CREATE INDEX '||TG_RELNAME||'_'||curMM||'_INDEX_'||time_column_name||' ON ' ||TG_RELNAME||'_'||curMM||' ('||time_column_name||');' ; EXECUTE strSQL; END IF; -- 插入數據到子分區! strSQL := 'INSERT INTO '||TG_RELNAME||'_'||curMM||' SELECT $1.*' ; EXECUTE strSQL USING NEW; RETURN NULL; END $BODY$ LANGUAGE plpgsql;
說明:
(1) 代碼中使用了 TG_ARGV[0] 來獲取調用時傳入的參數: 用於分區的時間字段名.web
(2) 代碼中,經過內置參數 TG_RELNAME 得到了父表的表名稱.sql
(3) 首先根據插入時間, 判斷對應分區表是否存在? 若存在, 直接插入對應分區子表數據庫
(4) 若分區表還不存在, 先建立分區子表和索引, 而後插入數據到所建的子表中.運維
以上代碼, 在PostgreSQL v9.4 中調試經過. 理論上, v8.4以上均支持.svg
CREATE TRIGGER insert_three_height_data_value_trigger BEFORE INSERT ON three_height_data_value FOR EACH ROW EXECUTE PROCEDURE auto_insert_into_three_height_data_value('data_time');
確保postgresql.conf中的constraint_exclusion配置項沒有被disable 。這一點很是重要,若是該參數項被disable,則基於分區表的查詢性能沒法獲得優化,甚至比不使用分區表直接使用索引性能更低。post
psql -d db1 -U userA
接着輸入密碼,進入數據庫後,輸入:性能
\i /pathA/xxx.sql
這種方式無需先登陸數據庫,直接用一個命令就能夠了
psql -d db1 -U userA -f /pathA/xxx.sql
–查詢指定分區表
SELECT nmsp_parent.nspname AS parent_schema , parent.relname AS parent , nmsp_child.nspname AS child , child.relname AS child_schema FROM pg_inherits JOIN pg_class parent ON pg_inherits.inhparent = parent.oid JOIN pg_class child ON pg_inherits.inhrelid = child.oid JOIN pg_namespace nmsp_parent ON nmsp_parent.oid = parent.relnamespace JOIN pg_namespace nmsp_child ON nmsp_child.oid = child.relnamespace WHERE parent.relname = 'plc_import_data_value';
查詢全部區表
SELECT nspname , relname ,COUNT(*) AS partition_num FROM pg_class c , pg_namespace n , pg_inherits i WHERE c.oid = i.inhparent AND c.relnamespace = n.oid AND c.relhassubclass AND c.relkind = 'r' GROUP BY 1,2 ORDER BY partition_num DESC;