摘要: OSS重磅推出OSS Select功能,能夠直接使用簡單的SQL語句,從OSS的文件中選取所須要的內容html
對象存儲OSS(Object Storage Service)具備海量、可靠、安全、高性能、低成本的特色。OSS提供標準、低頻、歸檔類型,覆蓋多種數據從熱到冷的存儲需求,單個文件的大小從1字節到48.8TB,能夠存儲的文件個數無限制。OSS已成爲互聯網、企業級數據應用的基礎設施。
一般,獲取對象存儲數據的通方式爲:獲取整個對象,或按指定的字節範圍來獲取數據。今天,咱們重磅推出OSS Select,直接使用簡單的SQL語句,從OSS的文件中選取所須要的內容。python
OSS Select(公測中)讓開發者能夠直接使用SQL語句,從OSS文件中選取須要的內容。
使用OSS Select,只獲取應用程序所需的查詢結果,並支持併發地分片查詢,會大幅提高程序的性能,一般狀況下能有400%的提高。
安全
# -*- coding: utf-8 -*- import os import oss2 def select_call_back(consumed_bytes, total_bytes = None): print('Consumed Bytes:' + str(consumed_bytes) + '\n') # 首先初始化AccessKeyId、AccessKeySecret、Endpoint等信息。 # 經過環境變量獲取,或者把諸如「<你的AccessKeyId>」替換成真實的AccessKeyId等。 # # 以杭州區域爲例,Endpoint能夠是: # http://oss-cn-hangzhou.aliyuncs.com # https://oss-cn-hangzhou.aliyuncs.com # 分別以HTTP、HTTPS協議訪問。 access_key_id = os.getenv('OSS_TEST_ACCESS_KEY_ID', '<你的AccessKeyId>') access_key_secret = os.getenv('OSS_TEST_ACCESS_KEY_SECRET', '<你的AccessKeySecret>') bucket_name = os.getenv('OSS_TEST_BUCKET', '<你的Bucket>') endpoint = os.getenv('OSS_TEST_ENDPOINT', '<你的訪問域名>') # 確認上面的參數都填寫正確了 for param in (access_key_id, access_key_secret, bucket_name, endpoint): assert '<' not in param, '請設置參數:' + param # 建立Bucket對象,全部Object相關的接口均可以經過Bucket對象來進行 bucket = oss2.Bucket(oss2.Auth(access_key_id, access_key_secret), endpoint, bucket_name) # csvfile = 'sample.csv' resultfilename = 'python_select.csv' csv_meta_params = {'FileHeaderInfo': 'None', 'RecordDelimiter': '\r\n'} # LineRange(可選參數):表示指定查詢行的範圍 select_csv_params = {'FileHeaderInfo': 'None', 'LineRange':(100,1000)} csv_header = bucket.get_csv_object_meta(key, csv_meta_params) # 將查詢結果輸出到文件 result = bucket.select_csv_object_to_file(csvfile, resultfile, "select _1, _3, _4 from ossobject where _4 > 40 and _1 like '%Tom%' ", select_call_back, input_format)
以上是一個簡單的python示例,使用SQL查詢OSS的對象,並將結果輸出到文件彙總。併發
除了將查詢結果輸出到文件,還能夠將查詢結果直接返回性能
result = bucket.select_csv_object(csvfile, "select * from ossobject where _4 > 40 and _1 like '%Tom%' ", select_call_back, select_csv_params) content_got = b'' for chunk in result: content_got += chunk print(content_got)
查詢結果:
測試
您能夠使用OSS Select來加速您的各種應用。OSS Select團隊,建立了一個Spark的示例,基於OSS Select,實現 Spark Data Source API。假設,您須要從大量的人員名單中,查詢符合條件的人員信息。好比查詢50歲以上,姓名中包含Tom的目標人員。阿里雲
數量 | 配置 | |
---|---|---|
master | 1 | 4core 8GB |
workers | 2 | 4core 8GB |
export SPARK_MASTER_IP=master export SPARK_WORKER_MEMORY=6g export SPARK_WORKER_CORES=3 export SPARK_WORKER_INSTANCES=1 export SPARK_EXECUTOR_CORES=1 export SPARK_EXECUTOR_MEMORY=2g
CSV數據量爲7GB。加密
原文連接spa