撰寫這篇前言,咱們的心情一直很複雜,很難用某種詞彙來歸納。在內心升起的一句話是:「這是最好的時代,這是最壞的時代」。前端
也許多年之後,咱們回看 2020 年,會將其稱之爲:世界劇變之始。不少朋友在去年,甚至 「每一天都在親歷歷史,每一天都是活久見!」 新冠疫情與中美貿易戰,在同一年加重。而由於疫情和貿易戰,世界正在加速發生變化。git
在這樣的歷史大背景下,咱們在開源界,也發現瞭如下三個趨勢:程序員
從各類數據,以及咱們本身的感受都能發現:全球開源都出現一個大發展的趨勢。GitHub 的活躍代碼倉庫與活躍用戶數在高速增加(35.3% / 21.2%);Gitee 的代碼倉庫與用戶數在以更加驚人的速度增加(192% / 162%)。github
一方面,是開源這麼多年一直持續的上升勢頭。而另外一方面,則是咱們的一個猜想:疫情以來,愈來愈多的人開始遠程辦公,事實上促進了更多的人有機會 「斜槓化」,也就是在一臺電腦面前方便地切換多種身份,以異步的方式處理多種事務,從而增長了開發者參與開源的時間和機會。數據庫
固然,一樣因爲遠程辦公,虛擬世界在人類生活中的佔比,變得更大了。這樣是否更好,還會引起哪些問題?做爲站在隧道口的人類,實際上是猜不透的。apache
隨着愈來愈多中國開源項目的影響力不斷增長、木蘭協議的推出、開放原子基金會的成立,Gitee 的超高速增加,CODE China 的新發布,咱們已經能夠確信,2020 年是中國開源的崛起之年。接下來閱讀報告的朋友們,應該會看到不少確切的證據。編程
可是,另外一個值得注意的現象,也能夠從下面的數據裏看出來。在 GitHub 上最活躍的中國開源項目,與 Gitee 上最活躍的開源項目之間,徹底沒有重疊。vim
隨着 Gitee 的繼續高速發展,能夠大膽預測,從此會有愈來愈多的,高質量的中國開源項目,選擇在 Gitee 上開源。曾經有一位朋友提到的 「One World, Two Systems」,將會逐漸變成現實。後端
若是中國的開源,以一種與世界隔離的方式 「崛起」,這並非咱們但願看到的將來。瀏覽器
疫情爆發以來,衆多的開源人奉獻本身的時間、精力、技術和智慧,投入到一個一個的抗疫相關的開源項目之中,也所以誕生了諸多面向醫學、防疫、公益、救援的開源組織和開源項目。其中 wuhan2020 就是典型的表明。
所以,在 2020 年的中國開源年會籌辦期間,咱們絕不猶豫的選擇了 「開源向善(Open Source for Good)」 做爲年會的主題,也得到了衆多講師、參會者與贊助廠商的一致認同。
可是,接下來應該怎麼發展呢?爲了抗擊疫情而凝聚起來的人,創造的項目,積累的經驗,總結的教訓,應該如何 「整理、封裝、模塊化」,併爲了從此的各類意外,作好準備呢?這些都是值得長期思考並改進的領域。
做爲一份力圖完整、客觀、全面、豐富的報告,值得探討的問題固然不止上述這些,也歡迎朋友們閱讀下面的報告,並隨時與咱們交流。
—— 莊表偉,開源社理事長
2021 年 1 月 16 日
2016 年初,開源社發佈了《2015 年中國開源社區參會調查報告》,隨後的幾年中,持續發佈了開發者調查報告,旨在從多種維度呈現國內的開源發展狀況。今年咱們再次啓程,結合數據分析手段和調查報告等多種形式,繪製一份 2020 年中國開源世界的地圖。
這份問卷是每一年中國開源年報的重要一環,不基於調研的分析報告不過是紙上談兵。在往年的基礎上,咱們參考了其餘現存的主流開發者問卷內容,並加入了一些新的視角。基於 2020 年 COVID-19 這個不容忽視的大背景,這份調查問卷進一步將視角發散到開源世界的線上協做,以及開源可以爲世界帶來什麼等主題。
經過近 60 項左右問題的統計調查與分析,咱們但願可以還原出當前中國開源社區的真實現狀,從而爲開源的後來人提供權威的參考。
因爲疫情,今年的問卷所有經過線上的方式傳播,所以收集到的樣本量相比往年較少,但仍舊可以管中窺豹,觀察到中國開源世界的悄然變化。經過分析 2020 年的統計數據,並對比往年數據和其它一些公開發布的統計報告,咱們有以下一些重要發現:
參與者的年齡集中在 20-39 歲,受教育程度廣泛在本科及以上,其中男性佔比約爲 84%,女性爲 16%,與去年持平。
劉天棟:女性參與開源的比例這和過去 2 ~ 3 年的調查數據類似,可是和國際平均數據(約 10 ~ 12%)相比高。期盼將來國內能有更多女性參與開源,造成一道美麗的開源風景線。
陳陽:多元化一直是開源社區的口號,全球開源社區早在十幾年前就開始發起了 「鼓勵女性參與開源」 的號召;開源社在每年的中國開源年會 (COSCon) 上, 都有舉辦女性論壇的傳統。 2020 年的 COSCon 上, 咱們邀請到了開源社區中的女性領袖,以她們獨特能力和視角將整個社區連接起來。GitHub COO Erica Brescia,管理着超過 5 千萬程序員的社區;Stormy Peters,從 GNOME 基金會執行總監,到如今負責着微軟的開源辦公室;來自亞洲越南的 Hong Phuc Dang,從創辦 FOSSASIA 開始參與開源,目前出任着 OSI 的董事會 VP。女性參與開源的廣度和深度,正在按照咱們所指望的方向發展,讓這個世界變得有趣和多元化。
參與者中還未參加工做的人數最多,佔比約 36%,其次則是從業時間爲 3-5 年、6-10 年的參與者佔比分別爲 19%、15%,從業時間在 10 年以上的約 2 成。
在參與者中,有近七成參與者從事互聯網開發 / 軟件開發領域,其次則是教育 / 學術 / 科研領域的參與者,佔比約 15%,金融銀行、媒體廣告娛樂等領域也在積極參與開源。
參與者中學生和開發者佔絕大多數,相比於 2019 年,學生佔比大大增長,約 37%,開發者佔比約 36%。
參與者所從事的技術方向之後端開發爲主,佔比約 31%,其次是 Web 前端、AI 以及大數據分析方向,佔比分別爲 10%、9%、9%,非技術人員以及其餘行業的從業者佔比均爲 7%,說明開源已經愈來愈受到社會各界的關注。
陳陽:開源早期的時候, 開源 = Linux。 做爲當時開源項目的主戰場,Linux 操做系統、桌面辦公軟件(GNOME、OpenOffice)和瀏覽器(Mozilla)掀起了第一波開源的浪潮;近年來隨着互聯網的興起,開源的項目和技術愈來愈百花齊放,從數據庫到中間件,從前端到後端,從編程語言到編譯器,從物聯網到微服務,從大數據到人工智能,開源的技術和項目愈來愈豐富和多樣化。
有近三成參與者接觸開源的時間在 1-2 年,近八成參與者接觸開源時間在一年以上。
陳陽:開源社區人員很是穩定, 有一種相似你們庭的凝聚力。 十幾年前的開源圈子, 活躍於一小羣早期的開源人之間。我觀察到身邊的開源人士大多數都是超過 10 年以上的,而且將來也會持續投入開源。 2020 年數據顯示有 3 成新參與者,從另一個角度也印證了開源運動在發展多年以後,呈現出一種出圈的狀態。
約有 44% 的參與者每週在開源上的時間投入不足 5 小時,每週對開源投入時間在 5-20 個小時的參與者約有 40%。
吳晟:較低的職業開源開發者(一週超過 20 小時的貢獻者)比例,顯示出中國企業對於開源項目,依然主要停留在用戶層面。多數開源貢獻者依然使用業務時間或者工做間隙進行有限的貢獻和參與。
絕大多數參與者每一年只會參加幾回線上 / 線下的開源活動,每月參加一到兩次線上 / 線下開源活動的參與者佔比約兩成。線下的開源活動大多以沙龍、講座等爲主,線上的開源活動以在線會議、郵件列表討論、PR 活動等爲主。
81% 的參與者認爲開源活動對促進和推進開源社區相當重要。
高陽:咱們鼓勵開發者積極參與到開源活動中來,尤爲鼓勵你們積極參與線下活動。線下的見面、溝通有助於創建起人與人之間的信任,對於社區的繁榮、人與人之間更高效的協做有重要意義。
關於開展線上仍是線下的開源活動 / 會議,參與者們各抒己見,線下活動能夠面對面地溝通交流,交流更有效率,氛圍更好,能夠有更多走出去看看,結交新朋友的機會,而線上活動則更加安全、便捷,不受時間、地域等限制,成本低廉,且會議內容能夠錄像,方便會後複查,固然,線下錄像也是愈來愈廣泛。
2020 年是十分特殊的一年,COVID-19 這場世界性的疫情給各行各業都帶來了不一樣程度的衝擊,82% 的參與者認爲,疫情對於參加開源社區的活動產生了影響,但也具備推進做用。
劉天棟:新冠疫情的衝擊,加速了更多遠程上班的族羣參與了開源活動。以開源社在 2020 年 10 月 24-25 日舉辦的「第五屆中國開源年會 + Apache 中國路演」爲例,有超過百萬人次在線參與,這是過去線下活動參與人數的千倍的成長,同時也有比往年更多的國際與國內的開源大咖在線分享。雖然此次大會也同步在五個城市舉辦了線下聚會,可是咱們能夠預期將來線上會議將成爲常態。
能夠看到,不少人蔘與開源並不追求物質回報,有三成參與者沒有開源收入,但依然熱衷於開源工做,同時,咱們還能夠注意到有 12% 的參與者表示企業會支付工資支持員工全職 / 部分參與開源,有 23% 的參與者表示學校科研項目或社團投入方面有在支持參與開源,可見如今企業和學校都開始逐漸關注並重視開源。
吳晟:可以得到開源收入比例和開源參與時間超過 20 小時的比例高度一致,很好的顯示出商業價值在開源貢獻強度上的顯著變化。雖然,貢獻時間和收入並不表明開源貢獻和開源項目的質量,但高質量的項目須要必定的商業支持才能獲得良性循環。
陳陽:有 12% 的參與者從開源中得到兼職或全職收入, 開源佈道師, 開源運營經理, 開源開發者等都是 2020 年的熱門職業,這說明開源的生態正在進一步完善, 企業開始進行開源人才儲備,開源的商業邏輯正在明晰。
遠程辦公是當下很是重要的一種辦公方式,在參與者中,有八成認爲遠程辦公是重要的,而且有接近九成的參與者有過遠程辦公的經歷。
高陽:遠程辦公會變成一種常態化的辦公和協做方式融入到咱們的工做和生活中,開源運動和分佈式、遠程協同原本就是自然融合的。
有 32% 的參與者第一次接觸的開源產品爲互聯網產品,緊隨其後的即是操做系統相關的產品與開發工具,調查結果與以往基本一致,說明互聯網產品和操做系統相關產品仍然是你們瞭解和接觸開源的最初窗口。
相比於 2019 年,開發工具在今年成爲你們最但願可以開源的產品類型第一名,緊接着的是操做系統,數據庫產品與中間件產品也是不少人但願可以開源的產品類型。
在參與者眼中,GitHub 對於開源軟件的貢獻最大,其次是 Google,而在國內企業中,Alibaba、Huawei 和 Baidu 分別佔據前三名。
對於開源項目是否繼承了 RPA,即機器人流程自動化工具,有四成參與者表示一部分項目集成了 RPA,16% 的參與者表示幾乎全部項目都有集成 RPA,同時也有 24% 的參與者表示歷來沒有在開源項目中集成過 RPA。
開放透明的代碼和知識共享,以及開源的精神理念成爲開源最吸引參與者的因素,而軟件的購買成本卻並非主要的因素。
Linux 以巨大優點,成爲參與者最喜好的開源產品,MySQL 緊隨其後,Apache 和容器界的黑馬 Docker 分別位列第3、第四。
絕大多數參與者在社區都參與代碼或文檔撰寫的工做,測試、本地化以及活動組織也是不少人在社區會參與的工做。
開源產品的前景展望中,互聯網產品以 34% 的比例成爲參與者最看好的開源產品發展方向。人工智能和開發工具異軍突起,成爲如今開源產品中的風口和熱點。
在社區的交流方式中,微信和郵件列表目前最爲廣泛,QQ 也是國內重要的即時交流工具。新銳的交流工具比例上升:Slack 和 Zoom 也是值得關注的現象。
吳晟:微信、QQ 羣的高強度使用,仍然顯示出開源圈子缺乏國際化社交和協做能力的一向性短板。一樣反映出中文依然是絕大部分的開源參與者惟一熱衷的交流方式。
有近九成的參與者認爲在開源社區中,社區的價值大於或等同於代碼,由於圍繞代碼而生的社區,會讓代碼變得更加優秀。
高陽:很高興看到你們對於社區價值的認同,在咱們看來,一個健康的社區遠比優秀的代碼更重要,只有健康、多樣和友好的社區才能推進項目可持續發展,正如一句話說的 「一我的走的很快, 一羣人走得很遠」。
開源社區中,20-30 歲的貢獻者是主要組成部分,佔比超過六成。
吳晟:開源參與者中年輕研發者較多,一方面反映了中國對於開源的參與時間較晚,學生作爲可塑性較高的羣體,更容易跟隨最近的開源熱度,選擇參與到開源。缺乏 35-40 歲以上的開發者,正面反應了中國資深工程師的缺少。緣起中國的開源項目的大規模崛起,將十分依賴此部分人的比例提高。
有近七成的參與者表示不會有不安全感,但同時也仍有 25% 的參與者表示會有此類擔心,開源軟件的安全問題仍然值得咱們關注。
紅薯:開源軟件因爲其機制的關係,經過開源社區不斷地發現問題並維護,其安全問題可能並非開發者們的主要關注點。其實除了技術方面的安全問題,開源合規性等許可證方面的安全問題一樣須要開發者們重視,許可證衝突問題所帶來的法律風險影響很是大且很難被發現,尤爲是對於企業來講,檢查所使用的開源軟件合規性,其重要性不亞於其技術安全。
參與者們一致認爲中國成立開源基金會是很是有意義的,能夠推廣開源的理念,開源文化教育,社區建設,創建開源生態體系,利於開源項目早起的孵化和扶持,幫助中國開源社區進行資源的整合和優化,也有助於接軌國際開源社區。
蔣濤:在全球科技競爭和中國開源核心技術發展態勢下,從開源生態制高點着眼,建設和發展中國開源基金會意義重大。經過中國開源基金會的發展壯大,不斷鼓勵國內巨頭科技企業和社會力量協力共建開源創新生態環境;同時,經過學習借鑑更完善的基金會運行模式、組織機制和法律制度,建設可持續發展的中國開源創新力量。此外,在當前全球開源商業模式愈來愈成熟的市場環境下,建設開源基金會,還能夠引導國內外基金和投資機構孵化支持開源,培育中國開源『獨角獸』,最終造成資本、企業、開發人員爲主體、共享共惠的中國開源商業生態體系。
高陽:2020 年中國首個開源基金會開放原子面世,這對於在本土推進開源教育的普及以及開源生態的總體繁榮有重要意義。咱們期待看到開放原子能夠成爲開源的鏈接器,鏈接國際開源社區、連接國內外優質資源,幫助開源項目成長與成功。
開發語言呈現多超多強的狀態,前三甲分別爲 Java、JavaScript 和 Python,排名與去年基本保持一致。
王偉:編程語言是你們喜聞樂見的話題,排名方面沒有太大的變化。值得一提的是 SQL 語言,這個平時存在感貌似不是很強,但實用性卻很是強。實際上,本報告中的 GitHub 數據篇中的基礎數據所有都是用 SQL 跑出來的,是一項開發者必備的重要基礎技能。
在線文檔編輯工具中,石墨文檔是目前中國開源社區常用的工具,wiki 也依然是很是多參與者使用的協做工具。
VS Code 今年仍然是最受歡迎的編輯器,緊隨其後的是 vim 以及 notepad++。
毫無疑問的是,Git 一枝獨秀,具備絕對性優點。SVN、TFS、CVS 目前仍有很多參與者在使用。
數據庫使用狀況中,不出意外地,MySQL 以絕對優點遙遙領先,MongoDB 與 PostgreSQL 跟隨其後。
操做系統的使用中,Windows、Linux、MacOS X 三分天下。
騰訊會議是目前參與者們使用最多的會議工具,其次則是 Zoom、釘釘。
目前,絕大多數的參與者都沒有使用過聊天運維工具來進行項目的自動化管理,而對於使用過該類工具的參與者來講,Hubot 是他們使用最多的 ChatOps 工具。
若是要開源本身的項目,87% 參與者都表示將會在 GitHub 來開源本身的項目,其次則是 Gitee 和 Gitlab。
蔣濤:隨着開源規模和商業化的快速發展,開源平臺做爲開源項目和開發者生態的重要基礎及支撐體系,將來將承載更多的服務和應用場景,也將發展出各自特點。2020 年新發布的 CODE China,做爲獨立第三方開源平臺,將重點圍繞 AIOT,爲更多開源項目和開發者提供運營支持和生態服務。
知乎和 CSDN 目前是最受參與者們青睞的兩個技術論壇,其次則是 StackOverflow,開源中國與博客園也受到不少參與者的喜好。
本次問卷在傳播和收集過程當中多有坎坷,最終呈現的不過是開源世界的小小一隅,但意義重大。見微知著,不難察覺到中國的開源結構已經在發生變化,開源的星星之火正在燎原,勢不可當。但願這份報告可以拋磚引玉,吸引更多的社區和開發者加入。
該報告的問卷問題, 報告文檔均發佈在代碼託管平臺,開源社官方網站和合做夥伴網站平臺,基於 Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) 許可證協議分享。對於問卷的問題設計和報告內容有任何建議和想法,歡迎您在代碼託管平臺上提交 Patch, 對報告進行補充和貢獻。 您的一小步,整個中國開源社區的一大步。
此報告問卷篇做出貢獻的開源社中國開源年度報告小組成員:夏小雅,寧澤欣;社區合做夥伴:X-lab,Gitee,微軟 Reactor。感謝特邀的開源領域的專家,更要特別感謝積極參與咱們調研的每一位朋友。
本部份內容採用 GitHub 全域事件日誌進行統計分析(2020 年共計 8.74 億條),相較 2019 年的 5.46 億條增加約 60%。並對分析出的部分項目進行人工標註,挑選出中國的我的開發者和企業組織,同時構建了科學合理的數學模型進行分析。
在開發者活躍度與項目活躍度的定義下,本次統計獲得 2020 年總活躍項目數量約 5,373 萬個,相較 2019 年的約 3,972 萬增加約 35.3%;2020 年 GitHub 總開發者數爲 5,600 多萬,總活躍開發者數量約 1,446 萬,相較 2019 年的約 1,19 萬增長了約 21.2%。
指標名稱 | 含義 |
---|---|
language | 項目開發使用的主要語言 |
activity | 項目活躍度(經過加權計算獲得) |
developer_count | 在活躍度定義下參與該項目的開發者人數 |
issue_comment | 項目全部 Issue 和 PR 在 2020 年得到的評論總數 |
open_issue | 項目 2020 年新增的 issue 數量 |
open_pull | 項目 2020 年新增的 PR(pull request)數量 |
pull_review_comment | 項目 2020 年全部 PR 下的 Review 評論數 |
merge_pull | 項目 2020 年被合併的 PR 數量 |
pull_commits | 項目經過 PR 合入的 commit 數量 |
pull_additions | 項目經過 PR 合入增長的代碼行數 |
pull_deletions | 項目經過 PR 合入刪除的代碼行數 |
活躍度最高的項目是來自谷歌的前端跨平臺開發框架 flutter/flutter,此外,源於谷歌的深度學習框架 tensorflow/tensorflow,容器編排系統 kubernetes/kubernetes 也分別位於第 5 名和第 6 名,這說明了谷歌在開源上的努力和影響力得到了業內的承認。
微軟的跨平臺代碼編輯器 microsoft/vscode 和微軟使用開源的方式來建設其 Azure 雲平臺的項目 MicrosoftDocs/azure-docs 分別位於第二名和第三名,代表微軟在開源上的努力得到了程序員的承認。
microsoft/vscode 和 DefinitelyTyped/DefinitelyTyped 均使用 TypeScript 做爲主要的編程語言,這可能與 TypeScript 的受歡迎程度急劇攀升有關。
Top50 列表中,從項目活躍度來看,第 1 名與第 50 名的項目活躍度相差超過 10 倍,說明中國開源項目之間的差距較大。
從這個列表中,咱們發現,阿里在開源領域中的成績顯著。Top10 項目中上榜的項目有 4 個,除了螞蟻金服採用 React 封裝的一套組件庫 ant-design/ant-design,基於 Ant Design 框架搭建的中後臺管理控制檯的腳手架 ant-design/ant-design-pro 和致力於配置和管理微服務的特性集 alibaba/nacos 外,餓了麼(已被阿里收購)的開源項目 ElmFE/element 做爲前端組件,表現也十分突出。
PingCAP 在開源領域的表現也是很是地亮眼。Top50 項目中上榜的項目有 6 個,包括由其自主設計、研發的開源分佈式關係型數據庫 pingcap/tidb,分佈式事務型的鍵值數據庫 tikv/tikv,文檔項目 pingcap/docs-cn、pingcap/docs 等,代表 PingCAP 很重視項目文檔的建設。值得關注的項目是 pingcap/tidb,該項目的 issue_comment,open_issue,pull_review_comment,merge_pull 等屬性是 50 個項目中最高的,達到驚人的 52,871 和 10,981,相對比之下,issue_comment 屬性下排名第二的 ant-design/ant-design 只有它的 61.5% 左右。而其 480 的開發者參與數量,與其餘前端項目相較甚遠,但卻有着如此高的活躍度,也能夠看出其社區的活躍程度。
百度在人工智能領域的表現很是不錯,其深度學習平臺 PaddlePaddle 佔據了 6 個項目,分別是核心框架 Paddle 以及相關工具庫、擴展版本和模型庫 Models;此外開放自動駕駛平臺 ApolloAuto/apollo 也榜上有名。
中國的 Top50 項目列表中,包括阿里的 Ant-Design 組件庫,京東基於 React 前端框架的開發框架 taro,由餓了麼(已被阿里收購)前端團隊開源的 Vue UI 組件庫 Element 等等,這說明在國內,前端羣體在開源社區更爲活躍;另外前端代碼通常也不太涉密,所以公司在心態上更開放一些。不過這其中也有一點須要引發注意,上榜的前端項目組件庫居多,可是缺乏核心項目。
屬於人工智能領域的項目 PaddlePaddle/Paddle、apache/incubator-tvm、Tencent/ncnn、alibaba/MNN 均在中國 Top50 項目列表中佔據一席之地,這說明了國內各大公司都在大力發展人工智能領域。
各大開源項目的背後,基本都有科技公司的支持,咱們計算出了科技公司所維護的開源項目在 2020 年的活躍狀況,結果以下表所示:
在國內企業的開源數據中,咱們看到阿里巴巴在除 pull_review_comment 指標外以外各項指標得分均排名第一,單項得分上,Repo_count 和 Developer_count 是其餘公司之和,Open_issue 的數量也比其餘公司高出了一個數量級。
AI 是百度開源最鮮明的競爭力,好比國內開源開放的深度學習平臺 PaddlePaddle 和自動駕駛平臺 Apollo。騰訊 Tencent 在 GitHub 上發佈的 192 個 repo,項目範圍主要彙集在雲原生、大數據、AI、移動開發和 Web 開發五個技術領域。華爲在開源領域的投入有目共睹,但從 GitHub 上的數據未能充分展示其實力,中美宏觀貿易戰的影響在此略見一斑。WeBank 微衆銀行做爲新興的互聯網金融公司,已開源 27 個項目,44 個 repo,覆蓋人工智能、區塊鏈、雲計算和大數據等領域,也是公司早期就創建開源辦公室的金融公司。滴滴開源勢頭很猛,成立開源委員會,不只積極參與業界開源項目,還在 GitHub 上積極開放出 38 個 repo。Deepin 的桌面環境 DDE 受到國內外用戶喜好,軟件生態除了自研還在其應用商店中收錄了上千款桌面應用,做爲國內民間出品的 Linux 操做系統,仍是可圈可點的。
PingCAP 在 2020 年下半年宣佈完成 2.7 億美圓的 D 輪融資,創造了全球數據庫歷史新的里程碑,一樣,PingCAP 今天在開源方面的表現也是很是亮眼,已經超越百度躍居排行榜第二位。其中,pull_review_comment 的數量更是超過了阿里,但開發者的數量卻不足阿里的 1/10,可見 PingCAP 的開源社區很是的活躍。
有讚的排名上升得很是快,這可能得益於其開源項目 youzan/vant 的優秀表現,該項目是輕量級的移動 UI 組件。
值得注意的是 Bilibili、douban 和掘金等以用戶生產內容(User Generate Content)爲主的新興社交媒體企業也在積極使用開源技術。
能夠看出,中國開源領軍企業近年來均在不斷加大開源社區生態的投入和建設,互聯網、操做系統、社交網站、金融、雲計算和電商等各個領域的企業都積極參與,呈現出百花齊放的開源盛況。
Apache 軟件基金會(ASF)成⽴於 1999 年,基金會致力於幫助獨立個體和組織去理解開源是如何在一個激烈競爭的市場中發揮優點的。其重點不是生產軟件,而是指導生產軟件的社區。Apache 之道對於開源社區的持久發展具備顯著的優點:咱們維護的一切都是開源的,全部的用戶均可以從中受益。Apache 目前有 14 個源於中國的頂級項目,還有 7 個孵化器項目正在努力成爲頂級項目。
2020 年,Apache 軟件基金會源自中國地區活躍的開源項目共有 21 個,其中,有 9 個項目入圍中國開源項目排行榜 Top50。
Apache 軟件基金會下屬的中國開源項目中,最活躍的項目是 apache/shardingsphere,Apache ShardingSphere 是一套開源的分佈式數據庫中間件解決方案組成的生態圈,它由 JDBC、Proxy 和 Sidecar(規劃中)這 3 款產品組成,該項目已於 2020 年 4 月 16 日成爲 Apache 基金會的頂級項目。
apache/incubator-echarts 和 apache/skywalking 的表現也很是活躍,分別居中國開源排行榜第 十、12 名。Apache ECharts 是一個免費的,功能強大的圖表和可視化庫;SkyWalking 是一個觀測平臺和 APM 工具,它能夠選擇性的與 Service Mesh 協同工做,爲微服務、雲原生和基於容器的應用提供自動的指標,目前爲阿里、華爲、騰訊等國內大廠提供監測服務。ECharts 和 SkyWalking 一樣也是 Apach 軟件基金會的頂級項目。
從這些數據,咱們看到,Apache 做爲世界上最活躍的基金會之一,對中國開源社區的貢獻是巨大的。一方面,Apache 做爲頂級基金會,其優秀的開源項目和和諧的社區氛圍吸引着愈來愈多的中國開源項目加入其中;另外一方面,愈來愈多中國開源項目的參與也爲 Apache 社區中加入了愈來愈多的中國色彩,期待中國開源項目早日衝入世界開源項目 Top10!
陳陽: 從時間這個維度,咱們看到中國開源從早期的跟隨者、參與者,逐漸變成影響者和創做者, 中國開源的力量正在崛起。中國開始涌現出大量開源項目的創做者,中國企業的開源項目開始捐獻給基金會孵化,中國開始定義本身的開源許可證協議(木蘭寬鬆協議)並被 OSI 接受,中國開始成立中國的開源基金會(開放原子基金會),這些都是中國開源開始成熟的很重要的標誌。
劉天棟:2015 年開源社與 ASF 聯合舉辦 Apache 中國路演 ,當時在 ASF 裏,源自中國的開源項目只有 3 個(Ebay 中國研究院的 Kylin、Eagle、Griffin),而在 6 年時間內,就成長到了 21 個(其中由 ASF 孵化器畢業成爲頂級項目達到了 14 個)。篳路藍縷,酸甜苦辣點滴在心頭。立足中國、貢獻全球的願景正在路途中!
很高興看到 PaddlePaddle(飛槳)在 2020 年延續了 2019 年在中國活躍項目排行榜上高度活躍。
深度學習框架是人工智能開源生態的核心,技術複雜度很是高,同時須要結合應用用慢工持續打磨。飛槳做爲我國最先開源、功能最爲完備的深度學習平臺,一直秉持開放透明的理念進行開源開發。飛槳結合 AI 產業發展須要,在框架總體設計以及全流程開發工具方面保持了前瞻性總體設計,保持對工程質量的極致追求,並經過社區機制進行質量的有效保障,憑藉項目質量在廣大 AI 開發者中造成了良好的口碑。
飛槳一直很是關注開發者對社區的貢獻和認同感。飛槳目前除了已經有 5,000 多位開源開發者經過 PR 或者提 issue 的方式作貢獻以外,還鼓勵更多開發者經過攻略、社羣交流等其餘方式參與貢獻。全部開發者在使用過程當中的問題都會獲得社區的快速響應,也都歸入到新版本的發佈中來,經過這樣持續閉環的打磨,項目質量獲得保障和持續提高,更好地知足廣大 AI 開發者的使用需求,也讓廣大開發者造成了更強的社區認同感。
深度學習框架在 AI 技術棧中處於承上啓下的位置,向下對接芯片,向上承接應用,與芯片普遍適配、深度融合優化相當重要。所以飛槳跟硬件廠商創建了緊密合做關係,不少芯片廠商直接在飛槳社區貢獻代碼,爲飛槳生態發展作了大量貢獻。飛槳也持續與各大開源組織、AI 社區深度合做,並獲得啓智(OpenI)社區的支持成爲其中重要一員。經過 PaddlePaddle Developer Experts(PPDE)、SIG 等組織形式,推進與開發者的深刻交流互動,與社區開發者共同成長。
Apache SkyWalking 今年呈現爆發式的發展,語言探針覆蓋了全部主流編程語言,Java、.NetCore、Golang、PHP、NodeJS、Python、C++、LUA for Nginx 全面鋪開。Star 數量、貢獻者數量、PR 數量等常見社區活躍度指標,都相比 2019 年翻了一倍。
SkyWalking 用戶廠家覆蓋國內幾乎全部的大廠,正在造成本身的標準體系。各大雲廠商,阿里雲和騰訊雲的雲 APM 服務都全面支持 SkyWalking 傳輸協議。同時,SkyWalking 也完成了和 OpenTelemetry、Prometheus、OpenCensus 等主要監控生態的無縫對接。
今年的 SkyWalking 社區和暑期 2020 活動的合做十分紅功,孵化了 2 位在線研究生成爲正式 Committer。活動中這兩位學生的表現,展示了學生團體在頂級項目中的潛力。這是相對於 2019 年,全新的面貌。也展示了系統性的學生孵化計劃的價值和意義。但願在從此,咱們能看到包括已經發布的暑期 2021 以外,更多更好的學生定向孵化和合做計劃。
在全球化的過程當中,在 Apache 廠商中立的框架下,SkyWalking 項目在跨地域、跨時區異步多元化的協做模式中順利前行。SkyWalking 項目已經成爲多家國內外公司(亞洲、歐洲、北美)的商業化項目的核心組件,更多的職業開發者加入了項目。爲項目生態帶來了巨大的活性和迭代速度。SkyWalking 在按照本身的節奏,和國內外的商業化廠商、我的開發者、公司二次開發團隊一塊兒,迅速地成熟和壯大。
TiDB 今年社區運營的重點能夠分爲:用戶、開發者兩塊。從業務角度來看,能夠分爲項目打磨和完善,人才的培養和生態建設,用戶場景的挖掘和業務成功推動。因此,運營一個好的開源社區,最重要的是以人爲中心,與他們共同成長。
對於 TiDB 社區來講,過去的一年發展還算迅速,去年 TiDB 4.0 版本正式推出了 TiFlash 列式引擎。在 Real-time HTAP 的道路上邁出了堅實的一步。從咱們的數據上來看,接近 1/3 的 4.0 集羣用上了 TiFlash。說明直接在 TP 的數據上做實時的數據洞察是廣泛的需求。
其中能夠感覺到國內的開源氛圍及開發者的活躍度也在逐步提高,咱們從 2019 年末的 500+ contributor 到 2020 年末數字已經達到了 1,200+,你們對於開源項目的參與度與理解也愈來愈深,愈來愈多的開發者在 TiDB 社區匯聚,經過 TiDB 鏈接行業上下游,共享創新成果。從 TiDB 的運營角度來看,開源社區的繁榮首先有一些基本的原則:透明、公開、分享等等,舉個例子:咱們的全部討論的文檔、發展方向、投票、選舉這些都是公開的、透明的,全部社區的貢獻者均可以參與進來;其次,咱們也制定了一些基礎的社區治理的規則、架構,在基礎設施方面也作了一些自動化的 Bot 服務,幫助更多的開發者在社區得到更好的體驗和感覺;最後再經過一些公開透明的激勵和反饋,吸引更多的開發者可以積極地參與進來。
Apache 軟件基金會(ASF)成⽴於 1999 年,是⼀個依據 501(c)(3) 在美國成⽴的非營利性公共慈善組織。基金會致力於:
Apache 軟件基金會的使命是爲公共利益而提供軟件。基金會幫助獨立個體和組織去理解開源是如何在一個激烈競爭的市場中發揮優點的。其重點不是生產軟件,而是指導生產軟件的社區。被稱爲 「Apache 之道」 的精英管理流程,超過 800 位我的會員和 7,000 位提交者成功合做開發了免費的企業級軟件,使全球數百萬用戶受益。Apache 是 全部人的 Apache。
「Apache 之道」 是 ASF 制定的一套行爲或慣例,初 步經過專一於穩定的治理並鼓勵新的貢獻者來促進長期成功的項目。全部的 Apache 項目都必須遵循如下基本原則:
咱們計算了全部源自中國的共計 21 個 ASF 項目倉庫的活動狀況,數據以下。
咱們統計了全部源自中國的 ASF 項目倉庫的工做時間狀況,併爲每一個倉庫繪製了工做時間分佈圖。在此,咱們選擇三個工做時間分佈有明顯特徵的項目進行簡單分析。
在上述三個項目中,carbondata 明顯不在 UTC+8 時區,而在 UTC+四、5 時區,這是由於其主要維護者 Ravindra Pesala 是印度人,與時區匹配;teaclave 的時間分佈則徹底是美國時間,中國白天幾乎都是靜默期,雖然是百度捐獻的項目,但其維護者 Mingshen Sun 其實位於美國西海岸,而非國內;相比而言,hadoop-ozone 明顯是全球化作的最好的一個項目。
CNCF 全稱爲雲原生計算基金會(Cloud Native Computing Foundation),是 Linux 基金會(Linux Foundation)的一部分。CNCF 託管着全球技術基礎架構的關鍵組件,聚集了全球頂級開發商、最終用戶和供應商。
CNCF 對項目提案流程制定了治理政策,提案流程適用於現有要加入 CNCF 的項目和在 CNCF 內造成的新項目。
CNCF 託管已畢業,正在孵化和沙盒中的項目。儘管 CNCF 爲全部項目提供了一套共享服務,但並未爲沙盒項目提供實質性的營銷服務,由於它們是屬於早期階段的項目,須要輕型中立,項目才能天然生長。與孵化和畢業的項目同行相比,沙盒項目的項目服務優先級較低。
咱們計算了全部 CNCF 已畢業和正在孵化的項目倉庫的活動狀況,數據以下。
咱們統計了 CNCF 項目倉庫的工做時間狀況,爲每一個倉庫繪製而成的圖表以下。
上述三個項目的開發者工做時間分佈圖,都具備明顯的時區彙集性。其中,kubernetes 的開發者大部分位於 UTC-5 時區附近,即美洲地區,而 thanos 的開發者中則大部分是歐洲的開發者,kubeedge 的開發者則以亞太地區開發者爲主。在 kubeedgede 的工做時間分佈中,咱們能夠發現,開發者們有午休的習慣,在 UTC 時間 4-5 點,當地時間 12-13 點左右,開發者的工做量銳減。
LF AI & Data 是 Linux Foundation 下的一個綜合型基金會,支持人工智能、機器學習、深度學習和數據方面的開源創新。建立 LF AI & Data 的目的是支持開源人工智能、機器學習、深度學習和數據,並建立一個可持續的開源人工智能生態系統,使得可以使用開源技術輕鬆地建立人工智能和數據產品與服務。它除了一些扶持性服務,還包括成員資格和資金管理、生態系統發展、法律支持、公關 / 營銷 / 溝通、活動支持和合規掃描,以及爲多樣化和蓬勃發展的社區中的開放發展項目提供支持。
目前,已經從 LF AI & Data 基金會畢業的項目有 Acumos、Angel-ML、Egeria、Horovod、ONNX。
正在孵化的項目有 Adlik、Adversarial Robustness Toolkit、AI Explainability 360 Toolkit、AI Fairness 360 Toolkit、Amundsen、DataPractices、DELTA、Elastic Deep Learning (EDL)、Feast、ForestFlow、JanusGraph、Ludwig、Marquez、Milvus、NNStreamer、OpenDS4All、Pyro、SOAJS、sparklyr 等。
要想進入 LF AI & Data 基金會,須要一個提案。對於試圖進入 LF AI & Data 基金會的現有項目,以及將在 LF AI & Data 基金會內造成的新項目,項目提案過程都是相同的。
項目必須經過 GitHub 提出,並向 info@lfaidata.foundation 發送主題爲 「PROPOSAL [項目名稱]」 的電子郵件來通知 LF AI & Data 成員。
提交項目提案書後,批准過程分爲四個步驟。
咱們計算了全部 LF AI & Data 的項目倉庫的活動狀況,數據以下:
咱們統計了 LF AI & Data 項目倉庫的工做時間狀況,爲每一個倉庫繪製了圖表。在此,咱們選擇 3 個項目進行分析。
能夠發現,三個項目的開發者工做時間分佈狀況是存在差別的。milvus-io/milvus 開發者在週一~週六都處於活躍狀態,工做時間主要分佈在 UTC+8 時區,代表該項目的開發者以亞洲開發者居多;odpi/egeria 的開發者主要集中在 UTC+0 時區,即大多數爲歐洲的開發者,但 0 時不管週末仍是工做日,都有大量事件產生,幾乎能夠確定這個項目使用了自動化協做機器人,並且不少定時任務是在 0 時執行的;nnstreamer/nnstreamer 開發者的工做時間主要集中在週一~週五,位於 UTC+8 時區,代表該項目的開發者以亞洲開發者居多,且開發者週末是雙休的。
Wuhan2020 是 COVID-19 疫情期間出現的較大規模自組織的表明,也是典型的技術型自組織社區之一。Wuhan2020 成立不到 3 個月,就以開放源代碼的方式在互聯網上開展志願服務和合做。在線志願者合做創建了 5 個網頁 / 網站,在 GitHub 上創建了 23 個代碼庫,並收集了 4,394 項各類與抗擊新冠疫情有關的一手及二手信息。
據自組織機構的不徹底統計,截至 2020 年 5 月 20 日,Wuhan2020 的 5 個頁面 / 網站的點擊量超過 30 萬次。其容許公開讀取使用的數據信息集合促成了牛津劍橋校友援助會提供的武漢社區及周邊地市醫院和社區數據對接,硅谷的 Gliding Eagle 團隊及美國一家全球醫療信息服務平臺的醫療物資援助等案例達成。至此,Wuhan2020 已成爲抗擊新冠肺炎疫情迄今爲止少數幾個宣佈常態化並完成永久性組織結構建設的自組織表明之一。
截至 2020 年 5 月 20 日,Wuhan2020 開源社區經過統計參與者的郵箱肯定的參與人數爲 4,095 人。隨後,經過志願者郵箱發放志願者證書,共有 1,942 人領取了 Wuhan2020 志願者證書。
【社區所有郵箱種類,總數 4,095】
【已領取志願者證書的郵箱種類,總數 1,942】
能夠經過郵箱種類,結合其餘數據,粗略估計社區成員的職業以及年齡比例。好比:教育郵箱是參與 Wuhan2020 的老師所使用的,QQ 郵箱使用者多爲 95 後。
另外發現有 16 個阿里郵箱,5 個流利說郵箱,4 個京東郵箱,以及石墨,普華永道等,這些是企業人員使用的郵箱。
Wuhan2020 項目初期收集了志願者的職業以及學歷信息共計 1,606 條,根據收集的志願者信息,以這部分志願者爲樣本,進行成員分析。
))
【社區成員職業分析】
上面兩張圖的區別在於,橫座標的職業順序不一樣,此設計的目的是爲了區別有多個職業身份的社區成員。使用左圖中某一職業類別減去右圖中某一職業類別即爲多個身份的成員個數。
【在讀學生學歷細分,總數 853】
因爲在填寫職業的時候,更多的人填寫是學生,因此只能對填寫了除學生以外的具體學歷者進行分析,只做爲抽樣,並不必定具備表明性。
能夠進一步,經過社區成員的學歷進行細分,包括已經畢業的。
【社區成員學歷,總數 1,606】
經過上圖能夠看到社區成員的學歷最多的仍是本科學歷,能夠結合以前的社區成員的職業信息,以及郵箱信息,能夠推斷出,Wuhan2020 開源社區參與者中,大多數是 95-05 年齡段的學生。使用 Gmail 郵箱的有至關一部分來自於海外,這部分紅員領取志願者證書的比例相對較少等。
【社區成員擅長領域餅狀圖,總數 1,606】
從社區成員擅長領域的分析結果來看,社區成員在選擇本身所擅長領域時,更多地會選擇宣傳或者設計類的領域,這也解釋了爲何 Wuhan2020 宣傳組成員嚴重過剩,並且能有不少宣傳組成員在活動結束後仍然留在社區當中。這固然也跟數據來源大多來自於微信而不是 Slack 有關,在 GitHub 和 Slack 當中的更多的是程序員或工程師,會直接參與到項目當中,而不會填寫表單。
本部分全部內容的數據、分析方法與分析結果由 X-lab 開放實驗室所支持,內容撰寫方面作出貢獻的小組成員包括:王皓月、朱香寧,「案例分析 —— Wuhan2020」 部分爲 Wuhan2020 開源社區執行長李揚撰寫。感謝特邀的開源領域的專家,更要特別感謝積極參與咱們調研的每一位朋友。