【sklearn第三講】常見機器學習算法應用場景實例六十則

本文整理了60個機器學習算法應用場景實例,含分類算法應用場景20個、迴歸算法應用場景20個、聚類算法應用場景10個以及關聯規則應用場景10個。包含了天池、DataCastle、DataFountain中全部競賽場景。算法

 

目錄數據庫


1 分類算法應用場景實例安全

  1.1 O2O優惠券使用預測網絡

  1.2 市民出行選乘公交預測機器學習

  1.3待測微生物種類判別工具

  1.4 基於運營商數據的我的徵信評估學習

  1.5 商品圖片分類測試

  1.6 廣告點擊行爲預測大數據

  1.7 基於文本內容的垃圾短信識別優化

  1.8 中文句子類別精準分析

  1.9 P2P網絡借貸平臺的經營風險量化分析

  1.10 國家電網客戶用電異常行爲分析

  1.11 自動駕駛場景中的交通標誌檢測

  1.12 大數據精準營銷中搜狗用戶畫像挖掘

  1.13 基於視角的領域情感分析

  1.14 監控場景下的行人精細化識別

  1.15 用戶評分預測

  1.16 貓狗識別大戰

  1.17 微額借款用戶人品預測

  1.18 驗證碼識別

  1.19 客戶流失率預測

  1.20 汽車4S店郵件營銷方案

2  迴歸算法應用場景實例

  2.1 機場客流量分佈預測

  2.2 音樂流行趨勢預測

  2.3 需求預測與倉儲規劃方案

  2.4 新浪微博互動量預測

  2.5 貨幣基金資金流入流出預測

  2.6 電影票房預測

  2.7 農產品價格預測分析

  2.8 基於多源數據的青藏高原湖泊面積預測

  2.9 微博傳播規模和傳播深度預測

  2.10 鮑魚年齡預測

  2.11 學生成績排名預測

  2.12 網約車出行流量預測

  2.13 紅酒品質評分

  2.14搜索引擎的搜索量和股價波動

  2.15 中國人口增加分析

  2.16 農村居民收入增加預測

  2.17 房地產銷售影響因素分析

  2.18 股價走勢預測

  2.19 全國綜合運輸總量預測

  2.20 地震預報

3   聚類算法應用場景實例

  3.1 基於用戶位置信息的商業選址

  3.2 中文地址標準化處理

  3.3 國家電網用戶畫像

  3.4 非人惡意流量識別

  3.5 求職信息完善

  3.6 搜索引擎查詢聚類以進行流量推薦

  3.7 生物種羣固有結構認知

  3.8 保險投保者分組

  3.9 網站關鍵詞來源聚類整和

  3.10 圖像分割

4  關聯規則應用場景實例

  4.1 穿衣搭配推薦

  4.2 互聯網情緒指標和生豬價格的關聯關係挖掘和預測

  4.3 依據用戶軌跡的商戶精準營銷

  4.4 地點推薦系統

  4.5 氣象關聯分析

  4.6 交通事故成因分析

  4.7 基於興趣的實時新聞推薦

  4.8 銀行金融客戶交叉銷售分析

  4.9 電子商務搭配購買推薦

  4.10 銀行營銷方案推薦

 

1 分類算法應用場景實例

1.1 O2O優惠券使用預測

        以優惠券盤活老用戶或吸引新客戶進店消費是O2O的一種重要營銷方式。然而隨機投放的優惠券對多數用戶形成無心義的干擾。對商家而言,濫發的優惠券可能下降品牌聲譽,同時難以估算營銷成本。個性化投放是提升優惠券覈銷率的重要技術,它可讓具備必定偏好的消費者獲得真正的實惠,同時賦予商家更強的營銷能力。

        現有O2O場景相關的豐富數據,但願經過分析建模,精準預測用戶是否會在規定時間內使用相應優惠券。

1.2 市民出行選乘公交預測

        基於海量公交數據記錄,但願挖掘市民在公共交通中的行爲模式。以市民出行公交線路選乘預測爲方向,指望經過分析廣東省部分公交線路的歷史公交卡交易數據,挖掘固定人羣在公共交通中的行爲模式,分析推測乘客的出行習慣和偏好,從而創建模型預測人們在將來一週內將會搭乘哪些公交線路,爲廣大乘客提供信息對稱、安全溫馨的出行環境,用數據引領將來城市智慧出行。

1.3待測微生物種類判別

        DNA是多數生物的遺傳物質,DNA上的鹼基(A,T,C和G)就儲藏了遺傳信息,不一樣物種的DNA序列在序列長度和鹼基組成上差別顯著。因此咱們可以經過DNA序列的比較分析,來判斷DNA序列是來自哪些物種。因爲測序技術限制,咱們只能獲得必定長度的DNA序列片斷。經過DNA序列片斷與已知的微生物DNA序列進行比較,能夠肯定DNA片斷的來源微生物,進而肯定待測微生物種類。

        指望在相關數據基礎上,創建分析方法,在計算資源消耗盡可能小的狀況下,儘量快地給出準確的結果,以知足臨牀診斷需求。

1.4 基於運營商數據的我的徵信評估

        運營商做爲網絡服務供應商,積累了大量的用戶基本信息及行爲特徵數據,如終端數據、套餐消費數據、通訊數據等等。實名制政策保證了運營商用戶數據能與用戶真實身份匹配,並真實客觀的反映用戶行爲。普遍覆蓋的網絡基礎設施提供了積累大量實時數據的條件,這些用戶數據實時反饋着用戶的各個維度的信息及特徵。

        在我國,我的徵信評估主要經過引用央行我的徵信報告,但對於不少用戶沒有創建我的信用記錄的用戶,金融機構想要了解他們的信用記錄成本又較高,傳統徵信評估手段難以知足目前多種多樣的新興需求。金融業務不一樣於其餘大數據業務,對數據的真實性、可信度和時效性要求較高,而這正是運營商數據的價值所在。

        指望利用運營商用戶數據,提供完善的我的徵信評估。

1.5 商品圖片分類

        京東含有數以百萬計的商品圖片,「拍照購」「找同款」等應用必須對用戶提供的商品圖片進行分類。同時,提取商品圖像特徵,能夠提供給推薦、廣告等系統,提升推薦/廣告的效果。

但願經過對圖像數據進行學習,以達到對圖像進行分類劃分的目的。

1.6 廣告點擊行爲預測

        用戶在上網瀏覽過程當中,可能產生廣告曝光或點擊行爲。對廣告點擊進行預測,能夠指導廣告主進行定向廣告投放和優化,使廣告投入產生最大回報。

        但願基於100萬名隨機用戶在六個月的時間範圍內廣告曝光和點擊日誌,包括廣告監測點數據,預測每一個用戶在8天內是否會在各監測點上發生點擊行爲。

1.7 基於文本內容的垃圾短信識別

        垃圾短信已日益成爲困擾運營商和手機用戶的難題,嚴重影響到人們正常生活、侵害到運營商的社會形象以及危害着社會穩定。而不法分子運用科技手段不斷更新垃圾短信形式且傳播途徑很是普遍,傳統的基於策略、關鍵詞等過濾的效果有限,不少垃圾短信「逃脫」過濾,繼續到達手機終端。

        但願基於短信文本內容,結合機器學習算法、大數據分析挖掘來智能地識別垃圾短信及其變種。

1.8 中文句子類別精準分析

        精確的語義分析是大數據必備技術,在分析句子時,不一樣句子類別即便用相似的關鍵詞,表達的含義仍有很大差異,特別是在情感判斷中。

        但願經過新聞以及微博等文本數據,對其句子類別進行判斷。

1.9 P2P網絡借貸平臺的經營風險量化分析

        P2P網絡借貸即點對點信貸,其風險狀況始終觸碰着投資人的神經。據網貸之家統計,截止今年9月份,出現問題的網貸平臺一共有1008家,而僅僅今年就有641家平臺出現問題,這說明了隨着我國p2p行業的迅猛發展,P2P平臺的風險預測已經成爲一個相當重要的問題。P2P平臺的風險主要是在運營過程當中產生的,與運營數據有着密不可分的關係。P2P平臺的風險預測並不是無線索可尋,像借款期限和年化收益率等指標,就對P2P平臺的風險預測有很重要的參考意義。

        但願經過互聯網數據,構建出P2P網貸平臺的經營風險模型,從而可以比較準確的預測P2P網貸平臺的經營風險,促進我國P2P行業向正規化方向發展。

1.10 國家電網客戶用電異常行爲分析

        社會經濟的發展使得社會用電量逐年增長,受利益驅使,竊電現象也日益嚴重。竊電行爲不只給供電企業形成了重大經濟損失,也嚴重影響了正常的供用電秩序。根據國家電網公司統計,近年因竊電致使的損失達上千萬元。近年來,竊電方式也由野蠻竊電發展到設備智能化、手段專業化、行爲隱蔽化、實施規模化的高科技竊電,給反竊電工做進一步增長了很大的難度。隨着電力系統升級,智能電力設備的普及,國家電網公司能夠實時收集海量的用戶用電行爲數據、電力設備監測數據,所以,國家電網公司但願經過大數據分析技術,科學的開展防竊電監測分析,以提升反竊電工做效率,下降竊電行爲分析的時間及成本。

        但願基於國家電網公司提供的關於用戶用電量、電能錶停走、電流失流、計量們打開燈計量異常狀況、竊電行爲等相關數據,以及通過現場電工人員現場確認的竊電用戶清單,但願參賽者利用大數據分析算法與技術,發現竊電用戶的行爲特徵,造成竊電用戶行爲畫像,準確識別竊電用戶,以幫助系統更快速、準確地識別竊電用戶,提升竊電監測效率,下降竊電損失。

1.11 自動駕駛場景中的交通標誌檢測

        在自動駕駛場景中,交通標誌的檢測和識別對行車周圍環境的理解起着相當重要的做用。例如經過檢測識別限速標誌來控制當前車輛的速度等;另外一方面,將交通標誌嵌入到高精度地圖中,對定位導航也起到關鍵的輔助做用。交通標誌的檢測是一項很是有挑戰的任務,精確的檢測對後續識別,輔助定位導航起着決定性的做用。交通標誌的種類衆多,大小、角度不依,自己就很難作到精確檢測,而且在真實的行車環境中,受到天氣、光照等因素的影響,使得交通標誌的檢測更加困難。

        但願機遇徹底真實場景下的圖片數據用於訓練和測試,訓練可以實際應用在自動駕駛中的識別模型。

1.12 大數據精準營銷中搜狗用戶畫像挖掘

        「物以類聚,人以羣分」這句古語不只揭示了物與人的自組織趨向,更隱含了「聚類」和「人羣」之間的內在聯繫。在現代數字廣告投放系統中,以物擬人,以物窺人,纔是比任何大數據都要更大的前提。在現代廣告投放系統中,多層級成體系的用戶畫像構建算法是實現精準廣告投放的基礎技術之一。其中,基於人口屬性的廣告定向技術是廣泛適用於品牌展現廣告和精準競價廣告的關鍵性技術。在搜索競價廣告系統中,用戶經過在搜索引擎輸入具體的查詢詞來獲取相關信息。所以,用戶的歷史查詢詞與用戶的基本屬性及潛在需求有密切的關係。

        但願基於用戶歷史一個月的查詢詞與用戶的人口屬性標籤(包括性別、年齡、學歷)作爲訓練數據,經過機器學習、數據挖掘技術構建分類算法來對新增用戶的人口屬性進行斷定。

1.13 基於視角的領域情感分析

        情感分析是網絡輿情分析中必不可少的技術,基於視角的領域情感分析更是情感分析應用於特定領域的關鍵技術。在對句子進行情感分析時,站在不一樣的視角,同一個句子的情感傾向判斷結果將有所差異。

        給定一個句子,若是該句子中包含「視角」詞語,則應針對這一視角進行情感分析;若是句子中包含多個「視角」詞語,則應對不一樣的視角進行單獨的情感分析;若是句子中不包含視角,則不作情感判別處理。

1.14 監控場景下的行人精細化識別

        隨着平安中國、平安城市的提出,視頻監控被普遍應用於各類領域,這給維護社會治安帶來了便捷;但同時也帶來了一個問題,即海量的視頻監控流使得發生突發事故後,須要耗費大量的人力物力去搜索有效信息。行人做爲視頻監控中的重要目標之一,若能對其進行有效的外觀識別,不只能提升視頻監控工做人員的工做效率,對視頻的檢索、行人行爲解析也具備重要意義。

        但願基於監控場景下多張帶有標註信息的行人圖像,在定位(頭部、上身、下身、腳、帽子、包)的基礎上研究行人精細化識別算法,自動識別出行人圖像中行人的屬性特徵。標註的行人屬性包括性別、頭髮長度和上下身衣着、鞋子及包的種類和顏色,並提供圖像中行人頭部、上身、下身、腳、帽子、包位置的標註。

1.15 用戶評分預測

        個性化推薦已經成爲各大電子商務網站的必備服務。準確的推薦不只能夠提升商家的產品銷量,更能爲顧客提供優質快速的購物體驗。推薦系統發展至今,已經有許多很是優秀的推薦算法,從各類不一樣的角度來爲電子商務大廈添磚加瓦。迄今爲止,已經有很多研究代表,用戶在短時間時間內會瀏覽類似的商品,但其興趣可能會隨時間發生些許變化。

        但願經過訓練帶有時間標記的用戶打分行爲,準確地預測這些用戶對其餘商品的打分。

1.16 貓狗識別大戰

        有人說,貓與狗上千年曆史的敵對狀態,主要是因爲在長期進化過程當中迫於對生存資源進行爭奪而形成的殘酷競爭致使的;也有人說,是他們天生的交流方式不一樣致使的;今天貓狗大戰開始了,爲了不被這些傢伙拆房的危險,各位智慧的人類,請速來隔離高冷貓和憨厚狗。

        但願從訓練集裏創建一個模型去識別測試集裏的小狗來。

1.17 微額借款用戶人品預測

        互聯網金融近年來異常火熱,大量的資本和人才涌入這個領域發掘富藏價值。金融領域不管是投資理財仍是借貸放款,風險控制永遠是業務的核心基礎。而在全部的互聯網金融產品中,微額借款(借款金額500元~1000元)因其主要服務對象的特殊性,被公認爲是風險最高的細分領域。

        但願經過數據挖掘來分析」小額微貸「申請借款用戶的信用情況,以分析其是否逾期。

1.18 驗證碼識別

        使用各種驗證碼的訓練集進行學習、編碼與測試,造成驗證碼算法模型。

1.19 客戶流失率預測

        我國的移動通訊行業通過了前幾年的高速發展,近一段時間的發展速度逐漸緩慢下來。註冊用戶經常處於一種動態變化的狀態,即不斷有老客戶離網,又不斷有新客戶入網。大量的低消費客戶和大量老客戶的離網使得移動通訊公司沒法快速向前發展。

但願創建客戶流失模型,對新老客戶進行分類。

1.20 汽車4S店郵件營銷方案

        直郵營銷是直效行銷的一種,是把傳統郵件直接發送給消費者的營銷方式涉及的行業主要是大型商場、大賣場、商業連鎖店鋪、專賣店等。一家汽車4S店,公司擁有完備的客戶歷史消費數據庫,現公司準備舉辦一次高端品牌汽車的促銷活動,爲配合此次促銷活動,公司計劃爲潛在客戶寄去一份精美的汽車銷售材料並附帶一份小禮品。因爲資源有限,公司僅有1000份材料和禮品的預算額度。

        但願根據與此次促銷活動相似的已經舉辦過的促銷活動的歷史消費數據,用過機器學習算法獲得一個分類器,對新客戶進行分類,生成正類客戶的客戶列表,向他們寄出材料和禮品。

2迴歸算法應用場景實例

2.1 機場客流量分佈預測

        爲了有效利用機場資源,機場正利用大數據技術,提高生產運營的效率。機場內須要不斷提高運行效率的資源有航站樓內的各種燈光電梯設施設備、值機櫃臺、商鋪、廣告位、安檢通道、登機口,航站樓外的停機位、廊橋、車輛(擺渡車、清潔車、物流車、能源車),要想提高這些資源的利用率首先須要知道將來一段時間將會有多少旅客或航班會使用這些資源,其次須要精準的調度系統來調配這些資源和安排服務人員,幫助機場提高資源利用效率,保障機場安全與服務提高。

        以海量機場WiFi數據及安檢登機值機數據,但願經過數據算法實現機場航站樓客流分析與預測。

2.2 音樂流行趨勢預測

        通過7年的發展與沉澱,目前某音樂平臺擁有數百萬的曲庫資源,天天千萬的用戶活躍在平臺上,擁有數億人次的用戶試聽、收藏等行爲。在原創藝人和做品方面,更是擁有數萬的獨立音樂人,每個月上傳上萬個原創做品,造成超過幾十萬首曲目的原創做品庫,如此龐大的數據資源庫對於音樂流行趨勢的把握有着極爲重要的指引做用。

        以某音樂平臺用戶的歷史播放數據爲基礎,指望經過對藝人的試聽量的預測,挖掘出即將成爲潮流的藝人,從而實現對一個時間段內音樂流行趨勢的準確把控。

2.3 需求預測與倉儲規劃方案

        擁有海量的買家和賣家交易數據的狀況下,利用數據挖掘技術,咱們能對將來的商品需求量進行準確地預測,從而幫助商家自動化不少供應鏈過程當中的決策。這些以大數據驅動的供應鏈可以幫助商家大幅下降運營成本,更精確的需求預測,可以大大地優化運營成本,下降收貨時效,提高整個社會的供應鏈物流效率,朝智能化的供應鏈平臺方向更加邁進一步。高質量的商品需求預測是供應鏈管理的基礎和核心功能。

        以歷史一年海量買家和賣家的數據爲依據,但願預測某商品在將來二週全國和區域性需求量。用數據挖掘技術和方法精準刻畫商品需求的變更規律,對將來的全國和區域性需求量進行預測,同時考慮到將來的不肯定性對物流成本的影響,作到全局的最優化。

2.4 新浪微博互動量預測

        新浪微博做爲中國最大的社交媒體平臺,旨在幫助用戶發佈的公開內容提供快速傳播互動的通道,提高內容和用戶的影響力。但願可以最快找到有價值微博的方法,而後應用於平臺的內容分發控制策略,對於有價值的內容能夠增長曝光量,提升內容的傳播互動量。對於一條原創博文而言,轉發、評論、贊等互動行爲可以體現出用戶對於博文內容的興趣程度,也是對博文進行分發控制的重要參考指標。

        但願根據抽樣用戶的原創博文在發表一天後的轉發、評論、贊總數,創建博文的互動模型,並預測用戶後續博文在發表一天後的互動狀況。

2.5 貨幣基金資金流入流出預測

        某金融服務機構擁有大量會員而且業務場景中天天都涉及大量的資金流入和流出,面對如此龐大的用戶羣,資金管理壓力會很是大。在既保證資金流動性風險最小,又知足平常業務運轉的狀況下,精準地預測資金的流入流出狀況變得尤其重要。

        指望可以經過用戶基本信息數據、用戶申購贖回數據、收益率表和銀行間拆借利率等信息,對用戶的申購贖回數據的把握,精準預測將來每日的資金流入流出狀況。

2.6 電影票房預測

        中國是全球第二大電影市場,同時也是增加最快的市場之一;隨着市場的成熟,影響電影票房的因素也愈來愈多,包括題材、內容、導演、演員、編輯、發行方等等。所以對電影製做公司而言,依靠主觀經驗製做一部高票房的電影也愈來愈困難,而隨着大數據技術的發展,藉助大數據分析對電影市場進行分析,指導電影製做成爲可能。 

但願依據歷史票房數據、影評數據、輿情數據等互聯網公衆數據,對電影票房進行預測。

2.7 農產品價格預測分析

        農產品價格受市場影響的程度特別大,特別是受農產品的供求關係影響較大,同時價格自己又受天然條件、社會和經濟條件的影響,特別是國際市場的影響。從價格自己來看,受供求、季節等發生波動,受外界各類影響比較多,這就形成了價格預測的困難。但從長期看,農產品價格隨着時間的推移仍然呈現必定規律性。價格預測是大數據的精華所在,經過大量的歷史數據分析,預測將來的價格走勢,爲決策者提供更有力的數據支持。

        但願經過分析價格歷史數據,對要求預測的農產品接下來固定時間的價格進行預測。並儘量多的使用與價格有影響的其餘數據以提升預測的準確率。

2.8 基於多源數據的青藏高原湖泊面積預測

        全球氣候變化對青藏高原的湖泊水儲量有很大影響,所以精確的估計青藏高原湖泊面積變化對於研究氣候變化變得很重要。海量多源異構數據和大數據處理與挖掘技術給湖泊面積變化研究帶來新的解決思路;如何經過多源數據對青藏高原的湖泊面積進行預測,將大數據技術應用到全球氣候變化研究中來成爲一項新的挑戰。

        但願經過研究青藏高原湖泊面積變化的多種影響因素,構建青藏高原湖泊面積預測模型。

2.9 微博傳播規模和傳播深度預測

        近些年,一些研究代表,一條微博發出之後,只須要觀察其在以後一小段時間內的轉發狀況,它的傳播規模即可以被預測。可是不一樣類型的微博會有不一樣的傳播方式,好比明星曬一張生活狀態就能獲得衆多粉絲的熱捧,具備較大的傳播廣度,可是每每在傳播深度上稍顯不足;相比之下,一些被普遍討論的新聞類微博每每具備較深的傳播深度。也有統計結果顯示,一些謠言每每會獲得大規模的傳播,闢謠類的消息反而得不到普遍關注。不只如此,咱們在熱門微博中能看到很多正能量的信息,同時也能看到一些話題被持正反兩種不一樣意見的人掀起討論熱潮。簡而言之,微博初期的傳播速度、用戶關係、信息類型、內容情感等特徵都是影響微博傳播規模和深度的重要影響因素。

        但願基於大約1-3萬條微博及其它們的轉發微博,結合微博用戶的關注關係、微博的內容類型和情感分析以及初期的傳播模式,來預測微博的傳播規模和傳播深度。

2.10 鮑魚年齡預測

        鮑魚,在現代漢語中有多種含義。最經常使用的是指一種原始的海洋貝類,屬於單殼軟體動物,其只有半面外殼,殼堅厚、扁而寬,鮑魚是中國傳統的名貴食材,位居四大海味之首。直至現今,在人民大會堂舉行的屢次國宴及大型宴會中,鮑魚常常榜上有名,成爲中國經典國宴菜之一。被人們稱爲「海洋的耳朵」。和古代「用鹽醃製的魚」是兩種東西。鮑魚的優劣與年齡相關。通常來講,咱們能夠數鮑魚的生長紋來肯定鮑魚的年齡,但數生長紋也是一件挺麻煩的事情。

        但願利用與鮑魚年齡有關的因素來預測鮑魚的年齡。

2.11 學生成績排名預測

        學生的校園行爲數據,能夠挖掘用戶做息規律、興趣愛好等,精準地預測學生之間的相對排名。經過對這些平常行爲的建模來預測學生的學業成績,能夠實現提早預警學生的異常狀況,並進行適當的干預,於是對學生的培養、管理工做將會起到極其重要的做用。從某高校的某個學院隨機抽取必定比例學生,提供這些學生在三個學期的圖書館進出記錄、一卡通消費記錄、圖書館借閱記錄、以及綜合成績的相對排名。這一部分數據將做爲訓練數據。咱們從另外的某學院隨機抽取必定比例的學生,而後提供他們在三個學期的圖書館進出記錄、一卡通消費記錄、圖書借閱記錄、以及前兩個學期的成績排名。

        但願經過藉助大數據相關的挖掘技術和基礎算法,預測第三學期的成績排名。

2.12 網約車出行流量預測

        在出行問題上,中國市場人數多、人口密度大,整體的出行頻率遠高於其餘國家,這種狀況在大城市尤其明顯。然而,截止目前中國擁有汽車的人口只有不到10%,這也意味着在中國人們的出行更加依賴於出租車、公共交通等市場提供的服務。另外一方面,滴滴出行佔領了國內絕大部分的網絡呼叫出行市場,面對着巨大的數據量以及與日俱增的數據處理需求。截止目前,滴滴出行平臺每日需處理1100萬訂單,須要分析的數據量達到50TB,路徑規劃服務請求超過90億。面對如此龐雜的數據,咱們須要經過不斷升級、完善與創新背後的雲計算與大數據技術,從而保證數據分析及相關應用的穩定,實現高頻出行下的運力均衡。供需預測就是其中的一個關鍵問題。供需預測的目標是準確預測出給定地理區域在將來某個時間段的出行需求量及需求知足量。調研發現,同一地區不一樣時間段的訂單密度是不同的,例如大型居住區在早高峯時段的出行需求比較旺盛,而商務區則在晚高峯時段的出行需求比較旺盛。

        但願能預測到在將來的一段時間內某些地區的出行需求量比較大,以提早對營運車輛提供一些引導,指向性地提升部分地區的運力,從而提高乘客的總體出行體驗。

2.13 紅酒品質評分

        紅酒口感的好壞,受不少因素的影響,例如年份、產地、氣候、釀造的工藝等等。經過一些化學屬性特徵就可以很好地判斷紅酒的品質。經過監測紅酒中化學成分的含量,能夠控制紅酒的品質和口感。

        但願基於紅酒的化學特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等,構建機器學習模型,對紅酒品質進行評分。

2.14搜索引擎的搜索量和股價波動

        上市公司在互聯網中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。該理論認爲,公司在搜索引擎中的搜索量,表明了該股票被投資者關注的程度。所以,當一隻股票的搜索頻數增長時,說明投資者對該股票的關注度提高,從而使得該股票更容易被我的投資者購買,進一步地致使股票價格上升,帶來正向的股票收益。

2.15 中國人口增加分析

        中國從1971年開始全面開展了計劃生育,使中國總和生育率很快從1970年的5.8降到1980年2.24,接近世代更替水平。此後,人口天然增加率很大程度上與經濟的發展等各方面的因素相聯繫,與經濟生活息息相關。影響中國人口天然增加率的因素有不少,如經濟總體增加、居民消費水平、文化程度、人口分佈,以及非農業與農業人口的比率等。

        但願經過歷史數據分析,對將來人口增加率進行預測。

2.16 農村居民收入增加預測

         「三農」問題的核心是農村居民收入問題。改革開放以來,農村經濟蓬勃發展,農村居民收入有了較大幅度的增加,但與城鎮居民的收入相比,卻表現出增加緩慢、差距愈來愈大的趨勢。

        但願對影響我國農村居民收入的因素進行分析,再運用實證方法對農民的經濟統計數據進行分析,獲得了影響農村居民純收入的模型。爲預測農村居民的收入增加趨勢提供工具,爲農村地區的政策措施提供參考建議。

2.17 房地產銷售影響因素分析

        改革開放以來,我國的經濟日新月異對城市商品房的價格產生了巨大影響,特別是進入21世紀後,伴隨着商品房價格日益增加,出現了房地產投資過熱。在這種房價居高不下的形勢下,國內外諸多專家學者認爲我國的房地產市場已經出現價格泡沫,在房地產業對我國國民經濟發展起着積極做用的大環境下,這種價格泡沫勢必會對我國的經濟發展形成重大影響。

        年人均收入、新增住房面積及上一年商品房價格等因素對房地產銷售有影響,指望利用歷史數據分析測度其對商品房價格的影響,找出了引發房地產價格波動的主要因素當年年人均收入,根據實證結論提出了控制房價的建議。

2.18 股價走勢預測

        隨着經濟社會的發展,以及人們投資意識的加強,人們愈來愈多的參與到股票市場的經濟活動中,股票投資也已經成爲人們生活的一個重要組成部分。然而在股票市場中,衆多的指標、衆多的信息,很難找出對股價更爲關鍵的因素;其次股市結構極爲複雜,影響因素具備多樣性、相關性。這致使了很難找出股市內在的模式。

        但願在儘量全面的收集股市信息的基礎上,創建股價預測模。

2.19 全國綜合運輸總量預測

        以全國同期國民經濟主要產品產量,如原煤、原油、生鐵、鋼材、水泥、木材、糧食的歷史數據,創建數據挖掘模型,對全國綜合運輸總運量進行預測。

2.20 地震預報

        根據歷史全球大地震的時空圖,找出與中國大陸大地震有關的14個相關區,對這些相關區逐一鑑別,選取較優的9個,再根據這9個相關區發生的大震來預測中國大陸在將來一年內會不會有大震發生。

3聚類算法應用場景實例

3.1 基於用戶位置信息的商業選址

        隨着信息技術的快速發展,移動設備和移動互聯網已經普及到千家萬戶。在用戶使用移動網絡時,會天然的留下用戶的位置信息。隨着近年來GIS地理信息技術的不斷完善普及,結合用戶位置和GIS地理信息將帶來創新應用。如百度與萬達進行合做,經過定位用戶的位置,結合萬達的商戶信息,向用戶推送位置營銷服務,提高商戶效益。

但願經過大量移動設備用戶的位置信息,爲某連鎖餐飲機構提供新店選址。

3.2 中文地址標準化處理

        地址是一個涵蓋豐富信息的變量,但長期以來因爲中文處理的複雜性、國內中文地址命名的不規範性,使地址中蘊含的豐富信息不能被深度分析挖掘。經過對地址進行標準化的處理,使基於地址的多維度量化挖掘分析成爲可能,爲不一樣場景模式下的電子商務應用挖掘提供了更加豐富的方法和手段,所以具備重要的現實意義。

3.3 國家電網用戶畫像

        隨着電力體制改革向縱深推動,售電側逐步向社會資本放開,當下的粗放式經營和統一式客戶服務內容及模式,難以應對日益增加的個性化、精準化客戶服務體驗要求。如何充分利用現有數據資源,深刻挖掘客戶潛在需求,改善供電服務質量,加強客戶黏性,對公司將來發展相當重要。

        對電力服務具備較強敏感度的客戶對於電費計量、供電質量、電力營銷等各方面服務的質量及方式上每每具有更高的要求,成爲各級電力公司關注的重點客戶。通過多年的發展與沉澱,目前國家電網積累了全網4億多客戶檔案數據和海量供電服務信息,以及公司營銷、電網生產等數據,能夠有效的支撐海量電力數據分析。

        所以,國家電網公司但願經過大數據分析技術,科學的開展電力敏感客戶分析,以準確地識別敏感客戶,並量化敏感程度,進而支撐有針對性的精細化客戶服務策略,控制電力服務人工成本、提高企業公衆形象。

3.4 非人惡意流量識別

        2016年第一季度Facebook發文稱,其Atlas DSP平臺半年的流量質量測試結果顯示,由機器人模擬和黑IP等手段致使的非人惡意流量高達75% . 僅2016上半年,AdMaster反做弊解決方案認定平均天天能有高達 28% 的做弊流量。低質量虛假流量的問題一直存在,這也是過去十年間數字營銷行業一直在博弈的問題。基於AdMaster海量監測數據,50%以上的項目均存在做弊嫌疑;不一樣項目中,做弊流量佔廣告投放5%到95%不等;其中垂直類和網盟類媒體的做弊流量佔比最高;PC端做弊流量比例顯著高於移動端和智能電視平臺。廣告監測行爲數據被愈來愈多地用於建模和作決策,例如繪製用戶畫像,跨設備識別對應用戶等。做弊行爲,惡意曝光,網絡爬蟲,誤導點擊,甚至是在用戶徹底無感知的狀況下被控制訪問等產生的不禁用戶主觀發出的行爲給數據帶來了巨大的噪聲,給模型訓練形成了很大影響。

        但願基於給定的數據,創建一個模型來識別和標記做弊流量,去除數據的噪聲,從而更好的使用數據,使得廣告主的利益最大化。

3.5 求職信息完善

        有大約10萬分優質簡歷,其中部分簡歷包含完整的字段,部分簡歷在學歷、公司規模、薪水、職位名稱等字段有些置空項。但願對數據進行學習、編碼與測試,挖掘出職位路徑的走向與規律,造成算法模型,再對數據中置空的信息進行預測。

3.6 搜索引擎查詢聚類以進行流量推薦

        在搜索引擎中, 不少網民的查詢意圖的比較相似的,對這些查詢進行聚類,一方面可使用類內部的詞進行關鍵詞推薦;另外一方面, 若是聚類過程實現自動化,則也有助於新話題的發現;同時還有助於減小存儲空間等。

3.7 生物種羣固有結構認知

        對動植物分類和對基因進行分類,獲取對種羣固有結構的認識。

3.8 保險投保者分組

        經過一個高的平均消費來鑑定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑑定一個城市的房產分組。

3.9 網站關鍵詞來源聚類整和

        以領域特徵明顯的詞和短語做爲聚類對象,在分類系統的大規模層級分類語料庫中,利用文本分類的特徵提取算法進行詞語的領域聚類,經過控制詞語頻率的影響,分別獲取領域通用詞和領域專類詞。

3.10 圖像分割

        圖像分割普遍應用於醫學、交通、軍事等領域。圖像分割就是把圖像分紅若干個特定的、具備獨特性質的區域並提出感興趣目標的技術和過程。它是由圖像處理到圖像分析的關鍵步驟。聚類算法先將圖像空間中的像素用對應的特徵空間點表示,根據它們在特徵空間的彙集對特徵空間進行分割,而後將它們映射回原圖像空間,獲得分割結果。

4關聯規則應用場景實例

4.1 穿衣搭配推薦

        穿衣搭配是服飾鞋包導購中很是重要的課題,基於搭配專家和達人生成的搭配組合數據,百萬級別的商品的文本和圖像數據,以及用戶的行爲數據。期待能從以上行爲、文本和圖像數據中挖掘穿衣搭配模型,爲用戶提供個性化、優質的、專業的穿衣搭配方案,預測給定商品的搭配商品集合。

4.2 互聯網情緒指標和生豬價格的關聯關係挖掘和預測

        生豬是畜牧業的第一大產業,其價格波動的社會反響很是敏感。生豬價格變更的主要緣由在於受市場供求關係的影響。然而專家和媒體對於生豬市場前景的判斷、疫情的報道,是否會對養殖戶和消費者的情緒有所影響?情緒上的變化是否會對這些人羣的行爲產生必定影響,從而影響生豬市場的供求關係?互聯網做爲網民發聲的第一平臺,在網民情緒的捕捉上具備自然的優點。本次賽題但願參賽者能夠基於海量提供的數據,挖掘出互聯網情緒指標與生豬價格之間的關聯關係,從而造成基於互聯網數據的生豬價格預測模型,挖掘互聯網情緒指標與生豬價格之間的關聯關係和預測。

4.3 依據用戶軌跡的商戶精準營銷

        隨着用戶訪問移動互聯網的與日俱增,隨着移動終端的大力發展,愈來愈多的用戶選擇使用移動終端訪問網絡,根據用戶訪問網絡偏好,也造成了至關豐富的用戶網絡標籤和畫像等。如何根據用戶的畫像對用戶進行精準營銷成爲了不少互聯網和非互聯網企業的新發展方向。如何利用已有的用戶畫像對用戶進行分類,並針對不一樣分類進行業務推薦,特別是在用戶身處特定的地點、商戶,如何根據用戶畫像進行商戶和用戶的匹配,並將相應的優惠和廣告信息經過不一樣渠道進行推送。

        但願根據商戶位置及分類數據、用戶標籤畫像數據提取用戶標籤和商戶分類的關聯關係,而後根據用戶在某一段時間內的位置數據,判斷用戶進入該商戶地位範圍300米內,則對用戶推送符合該用戶畫像的商戶位置和其餘優惠信息。

4.4 地點推薦系統

        隨着移動社交網路的興起,用戶的移動數據獲得了大量的累積,使得這些移動數據可以基於地點推薦技術幫助人們熟悉周遭環境,提高地點的影響力等。

        但願利用用戶的簽到記錄和地點的位置、類別等信息,爲每一個用戶推薦50個感興趣的地點。

4.5 氣象關聯分析

        在社會經濟生活中,很多行業,如農業、交通業、建築業、旅遊業、銷售業、保險業等,無一例外與天氣的變化息息相關。隨着各行各業對氣象信息的需求愈來愈大,社會各方對氣象數據服務的個性化和精細化要求也在不斷提高,如何開發氣象數據在不一樣領域的應用,更好的支持大衆創業、萬衆創新,服務民計民生,是氣象大數據面臨的迫切需求。 

        爲了更深刻地挖掘氣象資源的價值,但願基於共計60年的中國地面歷史氣象數據,推進氣象數據與其餘各行各業數據的有效結合,尋求氣象要素之間、以及氣象與其它事物之間的相互關係,讓氣象數據發揮更多元化的價值。

4.6 交通事故成因分析

        隨着時代發展,便捷交通對社會產生巨大貢獻的同時,各種交通事故也嚴重地影響了人們生命財產安全和社會經濟發展。爲了更深刻挖掘交通事故的潛在誘因,帶動公衆關注交通安全,貴陽市交通管理局開放交通事故數據及多維度參考數據,但願經過對事故類型、事故人員、事故車輛、事故天氣、駕照信息、駕駛人員犯罪記錄數據以及其餘和交通事故有關的數據進行深度挖掘,造成交通事故成因分析方案。

4.7 基於興趣的實時新聞推薦

        隨着近年來互聯網的飛速發展,個性化推薦已成爲各大主流網站的一項必不可少服務。提供各種新聞的門戶網站是互聯網上的傳統服務,可是與當今蓬勃發展的電子商務網站相比,新聞的個性化推薦服務水平仍存在較大差距。一個互聯網用戶可能不會在線購物,可是絕大部分的互聯網用戶都會在線閱讀新聞。所以資訊類網站的用戶覆蓋面更廣,若是可以更好的挖掘用戶的潛在興趣並進行相應的新聞推薦,就可以產生更大的社會和經濟價值。初步研究發現,同一個用戶瀏覽的不一樣新聞的內容之間會存在必定的類似性和關聯,物理世界徹底不相關的用戶也有可能擁有相似的新聞瀏覽興趣。此外,用戶瀏覽新聞的興趣也會隨着時間變化,這給推薦系統帶來了新的機會和挑戰。

        所以,但願經過對帶有時間標記的用戶瀏覽行爲和新聞文本內容進行分析,挖掘用戶的新聞瀏覽模式和變化規律,設計及時準確的推薦系統預測用戶將來可能感興趣的新聞。

4.8 銀行金融客戶交叉銷售分析

        某商業銀行試圖經過對我的客戶購買本銀行金融產品的數據進行分析,從而發現交叉銷售的機會。

4.9 電子商務搭配購買推薦

        電子購物網站使用關聯規則中規則進行挖掘,而後設置用戶有意要一塊兒購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另一種商品的廣告。

4.10 銀行營銷方案推薦

        關聯規則挖掘技術已經被普遍應用在金融行業企業中,它能夠成功預測銀行客戶需求。一旦得到了這些信息,銀行就能夠改善自身營銷。如各銀行在本身的ATM機上就捆綁了顧客可能感興趣的本行產品信息,供使用本行ATM機的用戶瞭解。若是數據庫中顯示,某個高信用限額的客戶更換了地址,這個客戶頗有可能新近購買了一棟更大的住宅,所以會有可能須要更高信用限額,更高端的新信用卡,或者須要一個住房改善貸款,這些產品均可以經過信用卡帳單郵寄給客戶。當客戶打電話諮詢的時候,數據庫能夠有力地幫助電話銷售表明。銷售表明的電腦屏幕上能夠顯示出客戶的特色,同時也能夠顯示出顧客會對什麼產品感興趣。

相關文章
相關標籤/搜索