各企事業單位: python
R是一套完整的數據處理、計算和製圖軟件系統,R是一種數學計算的環境,它能夠提供一些集成的統計工具,但更大量的是它提供各類數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合須要的新的統計計算方法。在R網站上提供了統計及各個有關應用領域幾乎全部最新的成果和代碼公開的軟件包。截至2016年3月,CRAN庫中的R包已經超過8000個。爲提高相關科技工做者的技術水平,雪晴數據網(www.xueqing.tv)特舉辦「R數據分析與數據挖掘核心技術與應用」研討會。特邀貴單位有關人員參加會議研討。算法
【研討目標】本次研討會採起深刻淺出的方法,先以簡單的案例引入R數據分析的基本原理,隨後重點講解多種經常使用單元的功能和特性,以及有R數據分析與數據的實用技術和處理方法,緊密結合應用實例,針對工做中存在的疑難問題進行分析講解和專題討論,有效提高參會者解決複雜問題的能力。會議具體內容詳見附件。 數據庫
【會議對象】各省市、自治區從事金融、醫療、保險、生態、衛生、計量、統計、銀行、通訊、環境、基金、等金融衍生品行業與數據分析統計相關的企事業單位技術骨幹、科研院所研究人員和大專院校相關專業教學人員及在校研究生、碩士、博士等相關人員,以及廣大R愛好者。 【時間地點】 編程
時間:2016年4月15日報到,4月16日——4月17日上課 網絡
地點:北京市海淀區大鐘寺13號院華傑大廈B座&C座負一層,清創孵化器 數據結構
【會議費用】機器學習
2016年4月5日以前報名的享受優惠價:1999元/人模塊化
4月6日~16日報名的,註冊費2199元/人函數
以上費用包含培訓費、教材費、午飯費,住宿費等其餘費用自理。(注:自行攜帶電腦筆記本) 工具
主辦方:繪辰科技(北京)有限公司
附件1:
「R數據分析與數據挖掘案例實戰」研討會事宜
1、研討會形式
本次討論會採起「線上+線下」的方式,4月15日以前,會有五次在線課程,免費向公衆開放,咱們會在課上介紹R語言的基礎知識。收費學員能夠得到直播課程的視頻,並參加4月16~17的線下討論會,線下討論會以後,咱們還會組織線上答疑以及北京、上海、深圳、廣州四城市的線下答疑活動。具體安排請見附件3。
2、主講老師
陳堰平,曾擔任新華社國家金融信息中心指數研究院研發部負責人,現爲雪晴數據網(www.xueqing.tv)創始人,主要從事統計諮詢、數據挖掘、開發基於R語言的數據分析工具,曾給惠普中國研發中心、花旗銀行、東方航空、中國電信作過培訓和諮詢。如今同時也是統計之都管理團隊成員,中國R語言會議理事會成員,曾獲CQF國際數量金融認證,譯做有《R語言編程藝術》《實用數據分析》,目前還參加其餘幾本R語言圖書的編寫和翻譯。
談和,中國傳媒大學,傳播研究方法碩士研究生,主要學習數據挖掘和傳播研究。目前的研究興趣在交互式數據可視化和社會媒體研究中的天然語言處理。同時,談和一直關注於媒介和市場研究交叉領域的發展,以前有在華通明略(MillwardBrown)、央視索福瑞(CSM)以及聚勝萬合(MediaV)實習的經歷,主要的工做是將一些新型的研究技術,如眼動儀(Eyes Tracking)和麪部表情分析(Facial Expression Recognition)等應用於客戶研究。同時,談和仍是中國傳媒大學數據可視化興趣小組的組織者和授課者之一,負責教授信息圖設計製做和可視化編程的技能。
楊虎,中央財經大學信息學院講師,畢業於中國人民大學統計學院,獲統計學博士學位,曾在丹麥奧胡斯大學公共衛生學院訪問研究,主要研究領域:商務數據統計建模、指標體系構建、高維統計模型、生物統計。
3、聯繫方式
聯繫人: 趙龍
手 機: 185-1174-5982
E_mail: zhaolong@xueqing.tv
「R數據分析與數據挖掘核心技術與應用」研討會內容
1、線上基礎課程
1. R語言的介紹及基礎語法:如何學習R,R的數據結構,控制語句等
2. 讀寫數據:從文件、網絡、數據庫等數據源讀取數據,保存數據到文件、數據庫
3. 數據整理入門:數據的變換、重塑、拆分合並以及彙總
4. 數據可視化:基礎繪圖系統、lattice、ggplot2等介紹
5. 基礎數據分析:描述統計、線性迴歸
2、現場主題討論
第一天 |
零售行業銷售分析 |
針對一份跨國大型超市的訂單數據,從產品、客戶、地區等維度來分析銷售額和利潤,也能夠時間的維度縱向分析銷售趨勢。 涉及的知識點: · dplyr包:數據整理、篩選、彙總 · ggplot2:數據可視化 · 探索性數據分析:交叉表 · 預測性分析:利用指數平滑等方法預測銷售量 · knitr:自動化報表 · REmap:將數據顯示在地圖上 |
航空公司客戶價值分析 |
本案例藉助航空公司客戶數據,採用數據挖掘技術,對客戶進行分羣,分析比較不一樣客戶羣的客戶價值,對不一樣客戶羣提供個性化的客戶服務,制定相應的營銷策略。預測潛在的流逝客戶,保留住老客戶,提升航班上座率。 涉及的知識點: · Kmeans聚類 · RFM模型 · 主成分分析 · Logistic模型 |
|
前列腺癌腫瘤尺寸的預測 |
LASSO算法是機器學習領域最經常使用的算法之一。建模過程須要尋找對因變量最具備強解釋力的自變量集合,也就是經過自變量選擇(指標選擇、字段選擇)來提升模型的解釋性和預測精度。指標選擇在統計建模過程當中是極其重要的問題。LASSO算法則是一種可以實現指標集合精簡的估計方法。 本案例針對一份前列腺癌患者的數據,來創建預測腫瘤尺寸的模型,經過這個案例,咱們能夠學到使用LASSO算法進行變量選擇和模型預測。 |
|
次日 |
在線廣播的推薦 |
本案例針對某在線廣播網站的用戶行爲數據作分析,使用關聯規則(有的地方也叫購物籃分析)的方法,能夠構建一個音樂推薦系統,向用戶推薦可能感興趣的歌曲。 這種方法一樣能夠用在零售行業的商品推薦以及其餘行業。 |
流式數據分析
主講:談和 |
要讓數據分析要變得敏捷,則須要對分析組件進行模塊化。KNIME不只讓您可以進行不少複雜的數據分析,並且能根據所需將分析模塊組合成工做流(work flow)。更重要的是,KNIME能夠將R語言、python語言整合其中,讓您的代碼「即插即用」。 在此次專題中,咱們將帶着您用KNIME拼出一條社會化媒體聆聽(Social Media Listening):從抓取數據,到文本分詞,到最終輸出報告的一條完整的工做流。讓您從此能夠實現一鍵分析生成報告 |
|
產業經濟中的指標預測分析—以水泥產業爲例
主講:楊虎 |
本案例以建築材料行業的水泥宏觀數據爲例,介紹水泥短時間、中期、長期產能的預測,內容以下: · 介紹行業背景、預測目標及數據特色; · 以水泥的產能爲例,利用平穩時間序列模型、非平穩時間序列模型預測水泥的短時間、中期產能; · 結合經濟發展、房地產、基礎設施建設等指標,預測水泥的長期產能; · 介紹數據分析和統計建模的基本過程。 涉及知識點: · 時間序列分析:移動平均、指數平滑、季節模型、ARIMA模型等 · 數據挖掘方法:迴歸、支持向量機等 |