GitHub 乾貨 | 各大數據競賽 Top 解決方案開源彙總

AI 科技評論編者按:如今,愈來愈多的企業、高校以及學術組織機構經過舉辦各類類型的數據競賽來「物色」數據科學領域的優秀人才,並藉此激勵他們爲某一數據領域或應用場景找到具備突破性意義的方案,也爲以後的數據研究者留下有價值的經驗。html

Smilexuhc 在 GitHub 社區對各大數據競賽名列前茅的解決方案進行了整理,包括純數據競賽、天然語言處理(NLP)領域數據賽事的 Top 解決方案。對這些賽事感興趣的小夥伴能夠一塊兒來看一下這篇乾貨滿滿的彙總貼:git

純數據競賽

1.2018 科大訊飛 AI 營銷算法大賽github

本次大賽要求參賽者基於提供的訊飛 AI 營銷雲的海量廣告投放數據,經過人工智能技術構建來預測模型預估用戶的廣告點擊機率。比賽提供了 5 類數據,包括基礎廣告投放數據、廣告素材信息、媒體信息、用戶信息和上下文信息,總共爲 1001650 初賽數據 和 1998350 條複賽數據(複賽訓練數據爲:初賽數據+複賽數據)。算法

Rank1:https://zhuanlan.zhihu.com/p/47807544安全

2.2018 IJCAI 阿里媽媽搜索廣告轉化預測微信

本次比賽要求參賽者以阿里電商廣告爲研究對象,基於提供的淘寶平臺的海量真實交易數據,經過人工智能技術構建來預測模型預估用戶的購買意向。本次比賽爲參賽者提供了 5 類數據,包括基礎數據、廣告商品信息、用戶信息、上下文信息和店鋪信息。用於初賽的數據包含了若干天的樣本;最後一天的數據用於結果評測,對選手不公佈;其他日期的數據做爲訓練數據,提供給參賽選手。session

3.2018 騰訊廣告算法大賽

本次算法大賽的題目源自一個基於真實業務場景的廣告技術產品——騰訊社交廣告 Lookalike 類似人羣拓展。本題目要求參賽者基於提供的幾百個種子人羣、海量候選人羣對應的用戶特徵,以及種子人羣對應的廣告特徵,構建算法準確標定測試集中的用戶是否屬於相應的種子包。

出於業務數據安全保證的考慮,比賽所提供的全部數據均爲脫敏處理後的數據。整個數據集分爲訓練集和測試集:訓練集中標定了人羣中屬於種子包的用戶與不屬於種子包的用戶(即正負樣本),測試集將檢測參賽選手的算法可否準確標定測試集中的用戶是否屬於相應的種子包,訓練集和測試集所對應的種子包徹底一致。初賽和複賽所提供的種子包除量級有所不一樣外,其餘的設置均相同。

4.2018 高校大數據挑戰賽—快手活躍用戶預測 

本次大賽要求參賽者基於脫敏和採樣後的數據信息,預測將來一段時間活躍的用戶。參賽隊伍須要設計相應的算法進行數據分析和處理,比賽結果按照指定的評價指標使用在線評測數據進行評測和排名。大賽提供的數據爲脫敏和採樣後用戶行爲數據,日期信息進行統一編號,第一天編號爲 01,次日爲 02,以此類推,全部文件中列使用 tab 分割。

5.2018JDATA 用戶購買時間預測

本次大賽要求參賽者基於給定的近 3 個月購買過目標商品的用戶以及他們在前一年的瀏覽、購買、評價等數據信息,自行設計數據處理相關操做、訓練模型,從而預測將來 1 個月內最有可能購買目標品類的用戶,並預測他們在考察時間段內的首次購買日期。數據主要包括用戶基本信息、SKU 基本信息、用戶行爲信息、用戶下單信息及評價信息。

Rank9:https://zhuanlan.zhihu.com/p/45141799

6.2018 DF 風機葉片開裂預警

本次大賽要求參賽者基於風機 SCADA 實時數據,經過機器學習、深度學習、統計分析等方法創建葉片開裂早期故障檢測模型,對葉片開裂故障進行提早告警。比賽提供的數據集包括訓練集和測試集:訓練集一共有 25 類風機共 4 萬個樣本,測試集沒有風機編號,共 8 萬個樣本。

Rank2:https://github.com/SY575/DF-Early-warning-of-the-wind-power-system

7.2018 DF 光伏發電量預測

本次大賽要求參賽者在分析光伏發電原理的基礎上,論證輻照度、光伏板工做溫度等影響光伏輸出功率的因素,經過實時監測的光伏板運行狀態參數和睦象參數創建預測模型,預估光伏電站瞬時發電量,並根據光伏電站 DCS 系統提供的實際發電量數據進行對比分析,驗證模型的實際應用價值。

比賽提供訓練集 9000 個點,測試集 8000 個,包括光伏板運行狀態參數(太陽能電池板背板溫度、其組成的光伏陣列的電壓和電流)和睦象參數(太陽能輻照度、環境溫溼度、風速、風向等)。

Rank1:https://zhuanlan.zhihu.com/p/44755488?utm_source=qq&utm_medium=social&utm_oi=623925402599559168 (這一方案也可查看微信文章:《XGBoost+LightGBM+LSTM:一次機器學習比賽中的高分模型方案》https://mp.weixin.qq.com/s/Yix0xVp2SiqaAcuS6Q049g

8.AI 全球挑戰者大賽—違約用戶風險預測

本次大賽要求參賽者基於立刻金融平臺提供的近 7 萬貸款用戶的基自己份信息、消費行爲、銀行還款等數據信息,創建準確的風險控制模型,來預測用戶是否會逾期還款。

Rank1:https://github.com/chenkkkk/User-loan-risk-prediction

9.2016 融 360-用戶貸款風險預測

本次大賽要求參賽者基於由融 360 與平臺上的金融機構合做的提供近 7 萬貸款用戶的基自己份信息、消費行爲、銀行還款等數據信息,創建準確的風險控制模型,來預測用戶是否會逾期還款。

Rank7:https://github.com/hczheng/Rong360

10.2016 CCF-020 優惠券使用預測

本次大賽要求參賽者基於給定的用戶在 2016 年 1 月 1 日至 2016 年 6 月 30 日之間真實線上線下消費行爲,預測用戶在 2016 年 7 月領取優惠券後 15 天之內是否覈銷。比賽評測指標採用 AUC,先對每一個優惠券單獨計算覈銷預測的 AUC 值,再對全部優惠券的 AUC 值求平均做爲最終的評價標準。

Rank1: https://github.com/wepe/O2O-Coupon-Usage-Forecast

11.2016 CCF-農產品價格預測

本次大賽要求參賽者基於 2016 年 6 月之前的農產品價格數據,預測 7 月的農產品價格。本題目初賽基於全國各農場品交易市場的價格數據,複賽則加上天氣等多源數據。

Rank2: https://github.com/xing89qs/CCF_Product 

12.2016 CCF-客戶用電異常

國家電網經過對用戶及所屬變壓器進行異常監測,並經過現場檢修人員根據異常狀況對用戶進行抽檢,並反饋檢查結果,如發現爲竊電用戶,將反饋竊電用戶信息。本賽題要求參賽者經過提供的相關數據與檢查人員檢查結果,創建竊電檢測模型,識別用戶竊電行爲。

Rank4: https://github.com/AbnerYang/2016CCF-StateGrid

13.2016 CCF-搜狗的用戶畫像比賽

本題目初賽時要求參賽者基於給出的 2 萬用戶的百萬級搜索詞,以及通過調查獲得的真實性別、年齡段、學歷這一訓練集,經過機器學習、數據挖掘技術構建分類算法對另外 2 萬人羣的搜索關鍵詞進行分析,並給出其性別、年齡段、學歷等用戶屬性信息。複賽時,訓練集與測試集規模均擴展至 10 萬用戶。

14.2016 CCF-聯通的用戶軌跡

精準營銷是互聯網營銷和廣告營銷的新方向,特別是在用戶身處特定的地點、商戶,如何根據用戶畫像進行商戶和用戶的匹配,並將相應的優惠和廣告信息經過不一樣渠道進行推送,成爲了不少互聯網和非互聯網企業的新發展方向。本賽題以其中一個營銷場景爲例,要求參賽者基於提供的用戶位置信息、商戶分類與位置信息等數據,完成用戶畫像的刻畫並進行商戶匹配。

RankX: https://github.com/xuguanggen/2016CCF-unicom

15.2016 CCF-Human or Robots

僅 2016 上半年,AdMaster 反做弊解決方案認定平均天天能有高達 28% 的虛假流量,即由機器人模擬和黑 IP 等手段致使的非人惡意流量。本賽題要求參賽者經過用戶行爲日誌,自動檢測出這些虛假流量。

Rank6: https://github.com/pickou/ccf_human_or_robot

16.菜鳥-需求預測與分倉規劃

本賽題要求參賽者以歷史一年海量買家和賣家的數據爲依據,預測某商品在將來二週全國和區域性需求量。參賽者須要用數據挖掘技術和方法精準刻畫商品需求的變更規律,對將來的全國和區域性需求量進行預測,同時考慮到將來的不肯定性對物流成本的影響,作到全局的最優化。比賽提供商品從 2014年 10 月 10 日到 2015 年 12 月 27 日的全國和區域分倉數據。

Rank6: https://github.com/wepe/CaiNiao-DemandForecast-StoragePlaning 

Rank10: https://github.com/xing89qs/TianChi_CaiNiao_Season2

天然語言處理(NLP)

1.2018 DC 達觀-文本智能處理挑戰 

這次比賽要求參賽者基於達觀數據提供的一批長文本數據和分類信息,結合當下最早進的 NLP 和人工智能技術,深刻分析文本內在結構和語義信息,構建文本分類模型,實現精準分類。比賽提供的數據包含訓練數據集和測試數據集 2 個 csv 文件。

2. 智能客服問題類似度算法設計——第三屆魔鏡杯大賽

本次大賽要求參賽者基於拍拍貸提供的智能客服聊天機器人真實數據,以天然語言處理和文本挖掘技術爲主要探索對象,利用這些資源開發一種提升智能客服的識別能力和服務質量的算法。

3.2018JD Dialog Challenge 任務導向型對話系統挑戰賽

本次大賽要求參賽者基於京東用戶與京東人工客服真實對話數據(脫敏後)以及給定的對話數據進行分析,構建端到端的任務驅動型多輪對話系統,輸出知足用戶需求的答案——該答案須要能正確、完整且高效地解決問題,爲用戶帶來簡單、省心、智能的購物諮詢體驗。

Rank3: https://github.com/zengbin93/jddc_solution_4th

4.2018CIKM AnalytiCup – 阿里小蜜機器人跨語言短文本匹配算法競賽

本次大賽關注短文本匹配在語言適應的問題,源語言爲英語,目標語言爲西班牙語。比賽要求參賽者創建跨語言短文本匹配模型,來提高智能客服機器人的能力。

另外,Smilexuhc 還爲你們提供了兩篇經驗文章,你們感興趣的話能夠一併收藏向前輩們取取經。

經驗文章

Via:https://github.com/Smilexuhc/Data-Competition-TopSolution

此前,雷鋒網(公衆號:雷鋒網) AI 科技評論也對一些數據競賽進行了報道,感興趣的同窗能夠前往閱讀往期報道:

京東 AI Fashion-Challenge 挑戰賽冠軍方案詳解(風格識別+時尚單品搜索):https://www.leiphone.com/news/201809/LBNzpCx58L98oK7M.html

ICPR 圖像識別與檢測挑戰賽冠軍方案出爐,基於偏旁部首來識別 Duang 字:https://www.leiphone.com/news/201808/CkFtca7oz5h2oCp8.html

KDD Cup 2018 冠軍「 first floor to eat latiao」:爲何取這個隊名?由於你們都愛辣條:https://www.leiphone.com/news/201808/srcNcc3AWQTTJl4z.html

「2018 機器閱讀理解技術競賽」落下帷幕,看奇點機智如何從 800 多支隊伍中殺出重圍:https://www.leiphone.com/news/201805/zB0caxkxv73YF8F9.html

看阿里 AliOS 神燈團隊在推薦系統上的獨門祕籍:https://www.leiphone.com/news/201804/du0koPNyTZwLSb7x.html

專訪訊飛病竈分割比賽優勝團隊,年內會將該算法投入實用:https://www.leiphone.com/news/201803/B5qXDGkp5JUrJYWQ.html

Kaggle 大神 Eureka 的高手進階之路:https://www.leiphone.com/news/201803/QtcJFW9OoDI8CMWA.html

亞馬遜 Alexa Prize 比賽冠軍團隊專訪:聊天機器人的突破與創新:https://www.leiphone.com/news/201801/ySAXM1p2Qhy20vts.html

KDD Cup 2017雙料冠軍是如何煉成的?咱們向Convolution團隊討教了他們的「成功方法論」:https://www.leiphone.com/news/201708/KVadVGXYYIudv6lr.html

圖鴨科技 CVPR 2018 圖像壓縮挑戰賽奪冠,獲獎論文全解讀:https://www.leiphone.com/news/201806/sFpN5c4zd0Z0fw32.html 雷鋒網雷鋒網

雷鋒網原創文章,未經受權禁止轉載。詳情見轉載須知

相關文章
相關標籤/搜索