Elasticsearch的數據就存儲在硬盤中。當咱們的訪問日誌很是大時,kabana繪製圖形的時候會很是緩慢。並且硬盤空間有限,不可能保存全部的日誌文件。若是咱們想獲取站點天天的重要數據信息,好比天天的訪問量並但願能圖像化的形式顯示該如何作呢?php
1、具體操做方法數據庫
獲取數據以前你要知道你想要什麼樣的數據。好比我想獲取每小時網站訪問的PV,在kibana中確定能獲取到json
這是在kibana中查詢的每小時的pv,而後咱們把他的查詢json複製出來vim
把上述json粘貼到test文件中 而後使用以下語句便可查詢上圖顯示的查詢結果數組
curl -POST 'http://192.168.10.49:9200/_search' -d '@test'ruby
{"took":940,"timed_out":false,"_shards":{"total":211,"successful":211,"failed":0},"hits"......curl
而後把返回的結果中的數據獲取存入data數組中,這是你能夠存入數據庫也能夠轉換成json直接插入eselasticsearch
這種方法主要是經過elasticsearch的查詢語句把數據查詢出來在傳參給其餘地方。你輸入固定的查詢json它返回的json數據也是固定格式的,這樣很方面就能從中挖掘出咱們想要的數據!ide
2、php代碼實現上述操做函數
class.php
<?php #從ES中導出數據 #兩個參數: #url爲從ES導出數據的訪問路徑,不一樣的數據路徑不同 #post_data爲json格式,是request body。 function export($url,$post_data){ $ch = curl_init (); curl_setopt ( $ch, CURLOPT_URL, $url ); curl_setopt ( $ch, CURLOPT_CUSTOMREQUEST,"POST"); curl_setopt ( $ch, CURLOPT_HEADER, 0 ); curl_setopt ( $ch, CURLOPT_RETURNTRANSFER, 1 ); curl_setopt ( $ch, CURLOPT_POSTFIELDS, $post_data); $arr=curl_exec($ch); curl_close($ch); return json_decode($arr,'assoc');; } #把數組數據導入ES #兩個參數: #$url爲導入數據的具體位置 如:http://IP:9200/索引/類型/ID(ID最好根據時間肯定,須要惟一ID) #post_data 導入ES的數據數組 function import($url,$post_data) { $json=json_encode($post_data); $ci = curl_init(); curl_setopt($ci, CURLOPT_PORT, 9200); curl_setopt($ci, CURLOPT_TIMEOUT, 2000); curl_setopt($ci, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ci, CURLOPT_FORBID_REUSE, 0); curl_setopt($ci, CURLOPT_CUSTOMREQUEST, 'PUT'); curl_setopt($ci, CURLOPT_URL, $url); curl_setopt($ci, CURLOPT_POSTFIELDS, $json); $response = curl_exec($ci); unset($post_data);//銷燬數組 unset($json);//銷燬數據 curl_close($ci); } ?>
vim access_info.php (index_name和type_name本身根據實際狀況命名)
<?php include("class.php"); #導出數據的ES路徑 $url="http://192.168.10.49:9200/_search"; #查詢數據的開始時間 $begin=date("Y-m-d",strtotime("-16 day")); #開始時間的格式轉換 $start_time=strtotime($begin." 00:00:00"); #查詢數據的結束時間及當時時間,並轉換時間格式 $end_time=strtotime(date("Y-m-d H:i:s",time())); #替換查詢json中開始及結束時間的,文件是./lib/下的同名txt文件 $post_data=str_replace('end_time',$end_time,str_replace('start_time',$start_time,file_get_contents('lib/'.str_replace('.php','.txt',basename($_SERVER['PHP_SELF'])).''))); #查詢ES中的數據,返回數組數據 $arr=export($url,$post_data); #從數組中獲取你想要的數據,而後在組合成一個新的數組 $array=$arr['aggregations']['2']['buckets']; foreach($array as $key => $value){ $data['@timestamp']=$value['key_as_string']; $data['request_PV']=$value['doc_count']; $data['request_IP']=$value['3']['value']; #Time爲導入ES中的ID,具備惟一性。(不一樣tpye的能夠相同) $Time=strtotime($data['@timestamp']); $urls="http://192.168.2.243:9200/index_name/tpye_name/$Time" #調用函數import導入數據 import($urls,$data); } ?>
下面這個文件是存放./lib文件下的,和執行的php文件必須同名。
vim lib/access_info.txt
{ "size": 0, "aggs": { "2": { "date_histogram": { "field": "@timestamp", "interval": "1h", "time_zone": "Asia/Shanghai" #保留時區獲取的信息會準確可是在kibana或ganafa顯示的時候會加8個小時 "min_doc_count": 1, "extended_bounds": { "min": start_time, #start_time會被換成具體的時間 "max": end_time } }, "aggs": { "3": { "cardinality": { "field": "geoip.ip" } } } } }, "highlight": { "pre_tags": [ "@kibana-highlighted-field@" ], "post_tags": [ "@/kibana-highlighted-field@" ], "fields": { "*": {} }, "require_field_match": false, "fragment_size": 2147483647 }, "query": { "filtered": { "query": { "query_string": { "query": "*", "analyze_wildcard": true } }, "filter": { "bool": { "must": [ { "range": { "@timestamp": { "gte": start_time, "lte": end_time, "format": "epoch_second" #由毫秒換成秒 } } } ], "must_not": [] } } } } }
根據上面的代碼,咱們能夠按期獲取ES中的重要數據。這樣獲取的數據只是結果數據,不是很精確,但能反應網站的趨勢,並且查詢很是快速!若是想要長時間保存重要的數據,可使用這個方法。並且數據也能夠存入數據庫。
以上是我的對能長期保存ES結果數據的作法,若是有更好的方法,但願能一塊兒討論!