做者:智子AI
1月15日,全球著名的大數據搜索與實時處理公司Elastic公司CEO Shay Banon忽然發文宣佈,Elasticsearch和Kibana的其中一項開源許可協議將發生變動。
據悉,這次許可協議變動對大部分無償使用默認發行版的社區用戶沒有影響,主要限制的是雲服務提供商。
固然這並非Elastic第一次更改開源許可協議。專家介紹,Elastic曾在2018年就更改過一次開源許可協議。
一樣,在開源領域,數據庫軟件MongDB、Redis Lab、圖數據庫Neo4j等在2018年就修改過相關的開源許可協議,以改變其在數據庫商業化方面面臨的「吸血」困境。
這次Elastic修改開源軟件許可協議,必然會對使用Elasticsearch和Kibana的大量用戶生產重大影響,尤爲會對公有云上的用戶形成衝擊。如何規避影響,保證應用穩定持續運營是大量的中國用戶面臨的一個主要問題。
另外,在開源軟件獲得大量應用的狀況中,用戶不得不面對開源軟件協議修改帶來的巨大風險。算法
做爲目前世界上很是流行的數據搜索與實時分析引擎,Elasticsearch大名鼎鼎,單單2018年其下載量就超過了2.25億人次,全球衆多公司以某一種形式使用它。
Elasticsearch首個版本發佈於2012年。通過7年多的更新迭代,Elastic Stack生態已經日漸成熟,在國內擁有愈來愈多的用戶,應用Elasticsearch的開發人羣也不斷擴大。
開發者利用Elastic Stack開發出靈活的軟件,在搜索、日誌記錄、安全防禦、運維指標監控、數據庫加速等應用場景,以及在互聯網與軟件業、金融業等行業獲得普遍應用。
近些年來,雲服務提供商一直在使用開源產品,修改其代碼,開發託管(收費)服務解決方案版本。然而,修改後的代碼將沒法做爲開源代碼加以訪問。
同時雲服務商的商業行爲也妨礙了開源軟件公司商業化。在開源許可下,如何實現盈利,實現更健康的發展,則成爲開源軟件公司面臨的最大挑戰。
所以,Elasticsearch和Kibana在許可證方面進行了重大的更改,由開源Apache 2.0許可證,改成採用SSPL(服務器端公共許可證)。
早在2018年,MongoDB就改變了許可協議,採用了SSPL(服務器端公共許可證),以保護開源代碼,避免被雲服務提供商用來開發本身的SaaS/DBaaS產品。
毫無疑問,Elastic更改許可協議對用戶尤爲是雲上託管的應用必然形成巨大的衝擊。很多國家都把開源軟件修改許可協議,列爲軟件產業發展的一大風險,引起全球相關用戶的恐慌。
幸運的是,在國家政策的大力支持下,我國信創產業不斷髮展壯大。在大數據綜合搜索的國產化自主可控方面,國內已經推出了本身的產品。
中國大數據與AI基礎軟件的領導企業星環科技已經推出了徹底能夠替換Elasticsearch的大數據綜合搜索引擎——Transwarp New Search這一國際領先的大規模統計和搜索融合引擎,不但能夠完成用戶對全文搜索、關係的精確查詢及分析需求,並且還在半結構化數據檢索、時空數據檢索、語義檢索、模糊檢索等方面更勝一籌。
受國家自主可控政策的支持,以及星環科技技術的不斷突破,星環科技已經完成了大數據基礎軟件的徹底自主研發,將來將不會存在開源軟件Hadoop身影,其大數據基礎軟件產品在不一樣領域開始替換甲骨文、IBM等國外軟件。
超過2000多家不一樣行業的用戶,選擇使用星環科技自主研發的平臺構建大數據底層的基礎設施,爲各個行業賦予相關的業務能力,涉及金融、政府、能源、製造、交通、教育等。數據庫
星環科技自研的Transwarp New Search用於在企業內部構建大數據搜索引擎。New Search支持Word/Excel/PDF/CSV/互聯網數據/圖片/音影等非結構化數據格式的存儲和檢索,在PB級數據量上進行檢索時,可以秒級返回。
在開發接口方面,New Search提供了完整的SQL語法,支持並提供搜索語法SQL擴展,經過和星環科技的分析型數據庫Inceptor優化器有效結合,使開發者無需瞭解底層架構,就能夠開發出高效的搜索引擎。
與開源的大數據搜索引擎Elasticsearch(ES)相比,星環科技自研New Search具備更多的優點:
New Search提供分佈式計算引擎,能知足多表關聯和複雜聚合分析等場景需求,改變了開源的Elasticsearch聚合結果不許確的問題,提供精確聚合。
New Search支持標準SQL、SQL擴展搜索語義,以及Oracle、DB2L方言,配套星環本身的安全管控平臺Guardian 和大數據管理平臺Manager,方便安全管理和運維管理。
在全文檢索方面,New Search支持pdf/word/excel等經常使用格式文檔的存儲和搜索,提供中、維、藏、英、法、日、韓、德、西、葡等多種語言分詞器,支持文章類似度匹配、關鍵字提取、摘要提取等天然語言處理功能。
New Search時空數據庫模塊支持包括點、線、多邊形、集合類型在內的OGC定義的標準圖形類型,支持基於WMTS協議的瓦片服務,支持伴隨分析、軌跡類似度匹配等時空數據庫算法。
另外,New Search在大數據量、大集羣環境下的性能表現優異,相對於開源的Elasticsearch(ES)有了明顯的改善:
在硬件投入成本有限時,用戶但願要儘量提升資源利用率,所以集羣單節點支持實例量就顯得相當關重要。New Search單節點支持單實例 50TB,遠超過開源ES單節點單實例10TB。
當用戶的數據總量達到百TB-PB量級時,採用開源ES軟件當實例超過100個節點時,會出現連環失聯等穩定性問題。而星環科技的New Search產品爲大集羣專門調優參數,能大幅緩解節點失聯等問題,而採用最新一代的New Search,支持節點或實例達到200個以上節點時,依然能有更好的穩定性。
大數據搜索對高可用要求高,應能保證99%以上的SLA服務水平協議,在有節點異常狀況下可自動快速恢復,當須要人工運維介入時能提供工具快速診斷和修復集羣。開源ES軟件TB數量級節點重啓通常須要數小時,而星環科技的New Search,TB數量級節點重啓只需幾分鐘。 下圖所示爲NS在不一樣存量數據規模狀況下的重啓耗時,其中cold和hot的區別在因而否排除操做系統pageCache影響。安全
對於數據維度高,須要作多表關聯分的業務,星環科技的New Search一改開源ES不直接支持多表關聯操做的作法,知足一個查詢結果須要從兩個或兩個以上表中提取字段數據的多表關聯查詢的需求。
對於短平快查詢,開源ES支持最大併發量通常在700-800,且受GC影響,查詢性能有毛刺。而星環科技的New Search一代產品查詢流程優化,減小一次rpc,響應時間減小30%,並且經過offheap、automerge、cooling等技術減小heap佔用,受GC影響變小。
最新一代New Search,進行了線程池優化和lucene優化,內存佔用繼續減少1/3,受GC波動更小,既知足短平快查詢秒級需求,又能知足查詢高峯期高併發量。以下圖所示,單機存量數據爲4.5T的狀況下,New Search經過對堆外內存的高效使用,大幅度減小了堆內存的佔用,明顯下降了GC壓力。服務器
用戶的查詢主要針對最近N天內的數據,對再老的數據查詢頻度相對不高。面對這一需求,開源ES沒有對冷熱數據作特別處理,而星環科技的New Search對冷熱數據作了優化,提高了查詢性能。
當集羣規模很大,表格分片較多的狀況下,開源ES因爲其自身PP架構和平衡策略的侷限,會形成DDL操做延遲很是高,形成明顯的使用卡頓和集羣高負載。而New Search的中心式架構可以明顯優化這方面的性能, 測試對好比下圖。架構
當天天的增量數據增長時,用戶對入庫性能就會提出特別的要求。如何保證入庫數據的性能呢?開源ES的數據入庫性能隨着數據量增大會逐漸變小。星環科技的New Search一代產品優化存儲格式,性能提高10%-20%;而二代產品加入bloomfilter索引,將入庫性能隨着數據量增大的影響儘量減少,入庫性能繼續提升30%-70%。另外,支持bulkload功能,經過BulkLoad的方式快速導入海量數據 。
以下圖所示,是New Search在使用 TPC-DS標準數據進行批量寫入測試中的性能表現和ES的對比,單位爲單節點/MB/秒。併發
除了綜合搜索產品的技術、性能以外,星環科技在大數據基礎軟件方面,可圈可點的地方還可多,如星環科技被認爲是大數據領域產品線最豐富的企業,產品涉及大數據領域衆多應用需求和場景,在國內有更多成功的案例,也能爲中國用戶提供更好的本地化服務與支持等。運維
隨着開源軟件在全球範圍內不斷髮展壯大,開源軟件的影響日益擴大,併成爲軟件產業發展不可忽視的重要力量。開源軟件在全球的發展證實了這種模式不只是商業模式,並且也是研發模式、推廣模式、產業化的模式。
伴隨着衆多開源軟件的商業化,以及衆多開源軟件成功IPO,在巨大的利益誘惑下,開源軟件企業頻頻修改開源協議,形成的風險不但不防。一樣開源軟件也可能受到貿易摩擦、貿易制裁的影響。所以,在國家自主可控政策的支持下,發展自主研發、自主可控的大數據基礎軟件大勢所趨,以知足中國企業大數據應用的需求。分佈式
量級節點重啓只需幾分鐘。 下圖所示爲NS在不一樣存量數據規模狀況下的重啓耗時,其中cold和hot的區別在因而否排除操做系統pageCache影響。ide