餘凱算法 百度深度學習研究院(IDL) 常務副院長,南京大學和北郵兼職教授,中科院計算所客座研究員,國家「千人計劃」專家、中關村高端領軍人才及北京市海外高層次人才。 餘凱先生前後畢業於南京大學和慕尼黑大學,畢業後曾在微軟、西門子和NEC工做。曾任斯坦福大學計算機系Adjunct Faculty。 他 至今發表數十篇論文,論文共計被引用5000餘次,曾榮獲ICML-2013的最佳論文獎銀獎,並曾在PASCAL VOC, ImageNet等競賽中獲國際第一。2013年,他領導的百度語音團隊榮獲「2013百度最高獎」,其團隊開發的基於圖像技術的「百度魔圖PK大咖」成 爲2013年最火爆的移動圖片應用產品之一。近年來,他領導的團隊使得深度學習在互聯網廣告業務和網頁搜索排序得到突破性進展。 |
Deep Learning Unfolds Big Data Era Abstract: Dr. Kai YU, Head of Institute of Deep Learning (IDL) at Baidu, will speak about Baidu’s recent efforts in developing cutting-edge technologies in the areas of deep learning and broader artificial intelligence. By leveraging big data aided by massive parallel computation, enthusiastic IDL researchers have led to significant improvements to Baidu's core business, such as search, ads, speech recognition and computer vision. More importantly, these technologies have been shaping up a foundation for imaginative long-term innovation. |
王漢生 統計學博士,北京大學教授、博士生導師,現任北京大學商務智能研究中心主任和北京大學光華管理學院商務統計與經濟計量系主任。 先 後畢業於北京大學數學科學學院機率統計系(1998),美國威斯康星大學麥迪遜分校(2001)。現爲國際統計研究員、美國統計學會、美國數理統計研究 員;英國皇家統計協會以及泛華統計學會會員。同時也是Computational Statistics & Data Analysis (2008—如今),Statistics and its Interface (2010—如今),Journal of Business and Economic Statistics(2012至今)和Journal of the American Statistical Association (2011至今)的副主編。至今已發表英文學術論文五十餘篇,中文論文近二十篇。同時曾合著英文專著一本,獨立完成中文教材一本。關注的理論研究領域包 括:高維數據分析、變量選擇、數據降維、極值理論以及半參數模型等;關注的應用研究爲:搜索引擎營銷和社會關係網絡等。 |
A Statistical Model for Social Network Labeling Abstract: We consider here a social network from which one observes not only network structure(i.e., nodes and edges) but also a set of labels (or tags, keywords) for each node (or user). These labels are self-created and closely related to the user's career status, life style,personal interests, and many others. Thus, they are of great interest for online marketing. To model their joint behavior with network structure, a statistical model is developed.The model is based on the classical p1 model but allows the reciprocation parameter to belabel dependent. For both dense and sparse networks, we obtain maximum likelihood estimators, which are statistically efficient but computationally expensive. To alleviate the computational cost, a novel conditional maximum likelihood estimator is proposed for large scaled sparse network. The asymptotic properties of these estimators are investigated.Simulation studies are conducted and a real Sina Weibo dataset is analyzed. |
David Smith David Smith是Revolution Analytics公司的Chief Community Officer。他領導着該公司的開源解決方案團隊。藉助他的數據科學背景,他天天都在Revolution的博客網站上撰寫R語言在預測性分析中應用的 文章。 他被福布斯雜誌評爲「大數據」主題中十大最有影響力人物之一。他是R語言的培訓手冊「An Introduction to R」的做者之一,而且是ESS項目(Emacs Speaks Statistics,Emacs與R相互的插件)的最初開發者之一。在加入Revolution Analytics以前,David是Insightful公司負責S-PLUS產品管理的董事之一。他的twitter帳號是@revodavid |
How the growth of R helps data-driven organizations succeed Abstract: Adoption of the R language has grown rapidly in the last few years, and is ranked as the number-one data science language in several surveys. This accelerating R adoption curve has been driven by the Big Data revolution, and the fact that so many data scientists — having learned R at university — are actively unlocking the secrets hidden in these new, vast data troves. In more than 6 years of writing for the Revolutions blog, I’ve discovered hundreds of applications of R in business, in government, and in the non-profit sector. Sometimes the use of R is obvious, and sometimes it takes a little bit of detective work to learn how R is operating behind the scenes. In this talk, I’ll begin by presenting some recent statistics on the growth of R. Then I’ll recount some of my favourite applications of R, and show how R is behind some amazing innovations in today’s world. |
Hadley Wickham RStudio公司的首席科學家,同時也是美國Rice大學的助理教授。他開發了著名的ggplot2和plyr包. |
R packages: principles and best practices R packages have a reputation for being complex, unwieldly beasts that need decades of study to master. In this talk, I'll show you that you when you have the right tools, R packages are easy; so easy, in fact, that they should be your default whenever you combine code, data or documentation. Packages are great just for yourself, and they're also great if you want to share. Sharing a package requires a little more work so that it works everywhere (not just on your computer), but the right mindset and the right tools make easy and a small additional time investment makes it possible for you to share you work with the world through github or CRAN. You might think that you'll never need a package because you only use R to do data analysis. But many data analysis are complex, and can't be solved with a few lines of R code. Instead, you need to write functions to capture common solutions to repeated problems. As soon as you start writing functions, it's a good idea to learn a little bit about packages so that you can make functions that are well-documented and well-tested. |
周明 微 軟亞洲研究院天然語言計算組首席研究員,中國計算機學會通信動態欄目主編。哈工大、南開大學等高校博導、清華-微軟聯合實驗室聯合主任。周明 先生於1991年在哈工大得到博士學位,1991年到1999年在清華大學計算機系任博士後和副研究員。1999年加盟微軟亞洲研究院,隨後開始擔任計算 語言計算組的負責人(曾短時間兼任過語音組的主任)。他是中國第一個中-英機器翻譯系統CEMT-I、中-日機器翻譯系統J-北京的發明人。查看詳情
此 外,他領導團隊開發了微軟對聯、微軟中日文輸入法、英語寫做助手、微軟聊天機器人、必應詞典、英庫問答、微博搜索、微軟中-英翻譯等系統,其團隊爲必應 搜索、Office、SQL、Windows及微軟語音翻譯系統等產品作出重要貢獻。其與中科院計算所合做的基於Kinect的手語的識別和翻譯也聲名不 菲。他曾任首屆亞洲信息檢索大會(AIRS2004)程序委員會主席、中國計算機學會天然語言處理和中文計算大會(NLP&CC)程序委員會主席 (2012年首屆大會)和大會主席(2013年),並曾屢次擔任ACL、SIGIR、EMNLP、IJCAI、COLING等國際學術會議的領域主席。
|
計算機對聯和詩詞 摘 要:對聯和詩詞是中國的重要文化遺產。對聯和詩詞有嚴格的對仗、平仄、韻律等要求,並講究意境的精妙。用計算機自動產生對聯和詩詞是人工 智能的一項難題,並且在學術界的研究也很少見。本研究創造性地把對聯和詩詞生成看做是一種特殊的機器翻譯過程。咱們提出了一個基於短語的機器翻譯的解碼方 法。對用戶輸入的上聯,系統產生下聯的多個候選。而後一組基於對聯要求的語言學規則懲罰不符合對聯要求的候選。最後,經過一個Ranking機制綜合利用 多屬性進行從新排序。基於這個方法,咱們開發了微軟對聯繫統(http://duilian.msra.cn)。查看詳情
在 對聯研究基礎上,咱們進一步擴展到對詩詞的自動生成研究,咱們目前以絕句爲例進行了初步研究。目前的場景是用戶給出幾個關鍵詞,用於 描述本身的意圖,而後系統生成一首絕句。系統首先經過語言模型生成絕句的第一句。而後,採用統計機器翻譯的方法逐句生成如下三句。在生成第N句的時候,考 慮了之前生成的N-1句以免詞語的重複、遵循對仗和平仄,並保證意義的連貫。經過初步的實驗驗證了本方法的有效性。
|
陳景祥 中華R軟件研發暨應用協會(www.carra.org.tw)祕書長,淡江大學副教授。 |
R-Web:大數據分析及導引雲平臺 R 語言項目(R-Project) 通過多年的發展,目前已經是各國統計專業人士最常使用的分析工具。近兩年來,隨着大數據觀念的普及,R語言在數據科學的應用上也逐漸受到各個應用領域專家的 關注,並已經成爲主要的分析工具,雖然R自己包含了完整的程序語言功能以及衆多的包(package),可是數據分析與應用人員未必都具備R的編程能力, 所以開發一個只需鼠標點選便可完成分析任務的用戶圖形接口(GUI) 就扮演了至關重要的角色。 在R中本來就已經有若干圖形界面的包可供選用,例如 R-Commander、Rattle,以及可供製做圖形接口的 JGR、PMG、gWidgets 等等,可是這些套件都各有缺點,在中文接口與計算結果的呈現也未必理想。 R-Web 是第一個針對中文所開發的大數據分析及導引雲平臺,用戶僅需使用計算機或行動裝置的瀏覽器便可進行數據分析。R-Web 除了數據處理與通常統計分析以外,另外還包含數據挖掘、時間數列、廣義線性模式(GLM)、存活分析、以及結構方程模式(SEM)等多樣的分析方法,對於 初學者或對分析方法不熟悉的使用者而言,R-Web 也提供了分析目標導引系統,讓用戶能夠經由問與答方式來找到適用的統計分析方法,提升分析效率及增長分析知識。 |
胡浩 胡 浩,現任微量網絡科技CEO(互聯網證券金融領域的國家高新技術企業),畢業於中國人民大學,獲統計學碩士和金融工程博士學位,曾擔任中信證 券首席金融工程分析師、多家大型資產管理機構量化投資負責人。 胡浩博士長期從事數量金融研究,曾帶領中信證券金融工程團隊在《新財富》最佳分析師評選、中國證券業協會、深圳證券交易所徵文大賽等活動中屢次獲獎。胡浩 博士致力於以大數據分析爲基礎、結合金融理論和投資者行爲分析解釋資本市場現象,構建A股市場量化投資策略體系。他目前主導的「微量網」項目是互聯網證券 金融的領導品牌,搭建了投資策略提供者和策略使用者之間的「雲交易」平臺。 |
雲計算時代的量化投資 隨 着資本市場的發展,量化投資逐漸爲國人所熟悉,但看起來,彷佛只有專業人士才能進行量化投資,其實否則,量化投資的核心在於你是否具備 「模式」投資的思惟,而數據存儲、模型測算、IT執行等在雲計算時代再也不成爲一個難題。換句話說,若是你從量化的角度思考資本市場而且找到了某些規律性的 東西,那麼在雲計算時代,在外部系統的幫助下你也能夠成爲一個高效的量化投資者。 |
景亮 現 任量邦科技策略研發總監,畢業於中國科學技術大學(物理學學士),美國印第安納大學布魯明頓分校(物理學碩士),美國德克薩斯大學聖安東尼奧 分校(應用統計學博士)。曾任美國德克薩斯大學統計諮詢中心高級分析師,具備多年統計學行業應用經驗和豐富的量化金融投資研究實踐經驗。 |
程序化交易策略開發與R R 做爲最流行的統計分析和數據可視化編程語言有其獨特的優點和普遍的使用者基礎,策略編寫語言做爲程序化交易策略開發中最核心的部分直接決 定着開發的效率和策略的質量,如何把R融入程序化策略開發之中、充分挖掘其優點是一個值得深刻研究的問題。量邦科技做爲國內頂尖的量化投資平臺開發商在這 一領域作出了必定的嘗試:1)咱們在程序化交易策略研發平臺上,把R植入做爲開發交易信號的編程語言;2)上游無縫接入行情數據,下游對接信號彙總和策略 表現分析模塊。如此一來,R語言愛好者能夠直接使用R語言開發程序化交易策略 |
廖逸竹 Zoe Liao 臺 灣大學工商管理系畢業。 現爲優酷土豆集團數據分析部的高級經理, 負責以商業決策爲導向的相關分析, 包括用戶多屏行爲、視頻內容特色、用戶與內容關連等相關議題。曾在臺灣的管理諮詢公司、商業銀行、及雅虎臺灣從事商業分析, 關注領域爲客戶區隔、測試設計、風險預測模型、及客戶價值極大化分析。 |
玩轉三億視頻 - 數據分析在視頻產業的應用 每 日有1.2億互聯網用戶與優酷土豆互動, 藉由對觀衆觀看行爲、影片搜索、評論互動等行爲的解析, 得以瞭解不一樣類型影片的觀衆羣、跨屏幕播放行爲差別、影片關鍵情結點、內容偏好、UGC播放的重要影響因子等議題, 進而將所獲信息及知識轉化爲對公司、內容及產品運營的正面影響。數據分析對網絡視頻的影響正如火如荼發生, 玩轉優酷土豆三億個視頻, 且聽咱們如何化數據爲故事, 化故事爲行動! |
張尚軒(Vivian Zhang) SupStat Inc(分公司爲北京數博思達信息技術有限公司) 首席技術官和聯合創始人。她負責美國市場的業務拓展和多邊合做,並將美國大數據的軟硬件解決方案帶入中國市場。她在美國得到計算機/統計學雙碩士學位,曾 在布朗大學統計研究中心、斯隆凱特琳癌症中心、紐約石溪大學醫療中心等機構工做,參與多個重要的研究課題,並在影響因子第一名的JASA統計學雜誌發表最 新學術文章。 她創立了紐約公開數據Meetup,專一於利用公開數據教授通常民衆和技術人員數據分析方法,爲社會創造透明高效的運做秩 序,爲企業提供最優質 最好的數據源來發展業務。在不到一年以內,她爲技術和數據社區提供了80餘場免費的教學講座。 她亦是紐約數據科學學院的創始人,在紐約曼哈頓地區提供大數據專題教學,涵蓋大量流行的數據分析和可視化編程工具(R, Python, Hadoop, D3.js, Processing, Location data query等),幫助企業培訓優質的大數據人才。 |
大數據的新方向:公開同享趨勢下的新數據產業 分享美國政府公開數據的進展狀況,以紐約,芝加哥,舊金山等主要城市爲例,以具體的例子來展現政府是如何與通常民衆溝通訊息,鼓勵創新和監督。以紐約爲例,分享各種數據公開以前的幾個步驟和須要的條件。 分享美國公司公開數據的使用狀況,以Oscar Health Care, On Deck Capital, Engima.io爲例,企業是如何從公開數據中受益獲利以及發展出不同凡響的競爭力。 分享美國的公司之間又是如何經過分享數據,創造新的價值和便利。以醫療體系爲例,醫生之間,醫院之間,醫療體系之間實現了快速電子醫療檔案的傳遞,可攜帶設備公司與醫療體系之間便捷的數據傳遞同享。 最後分享公開數據一些有趣的小數據產品,例如利用雲圖精確預測下一分鐘是否下雨的移動應用產品,例如氣象報告來賣天氣保險產品等。和公開數據的比賽,例如紐約Big Apps比賽,每一年一次鼓勵全世界的開發者來比賽,把公開數據的價值釋放出來。 |
張家齊 Chia-Chi Chang 家 齊是一位熱愛分析資料的工程師,熱愛分析資料,創建模型,討論數學。由於,早年喜歡做期貨與選擇權的程式交易,而縱觀 Open Source 的軟體中提供最多,跟投資策略分析相關資源的,大概就是 R 語言了。此外,在當時的臺灣 Open Source 社羣中,大多數也都集中在網站技術的討論,鮮少有資料相關的社羣與活動!所以,在 2012 年時,就找了高中學長 Wush,一塊兒共同創辦了 Taiwan R User Group 社羣,以及相關的聚會!很是高興能夠有機會和社羣的許多朋友們,一塊兒組織聚會,一塊兒討論,一塊兒成長。 |
Hacking Models With R 在 這個「大資料」時代崛起的「掏資料潮」中,Data Mining 等相關的技術被應用的越來越廣泛,也越來越深入。不過,在真實的生活應用中,許多傳統的 Modeling 技術,還是經常會遇到許多困難與挑戰。所以,學會如何改寫 Model 來因應環境的需求,就成為了資料分析人員很重要的技能之一。在這場演講中,我將會介紹「R 中許多典型的資料模型」、「原始模型遇到的問題」、「模型背後的最佳化問題」、「如何改寫模型並改寫其 Solver」 |
吳齊軒 Wush Wu Wush Wu 是臺大電機所的博士生,並且和宇匯知識科技合做,研發網路廣告的推薦引擎。R 是Wush最熟悉的工具,平時工做幾乎都使用R 來完成,包括利用R 爬資料、跑實驗、分析數據到撰寫報告和論文。也由於對R 的喜愛,因此和家齊於2012年創立Taiwan R User Group。實務經驗上,目前Wush利用Open Source R 、Rcpp和pbdMPI創建了分散式的學習系統來創建推薦模型,目前正在商轉中。在瞭解業界的環境和挑戰之後,目前則嘗試將整個分析的流程系統化及自動 化,創建一套能夠持續改善推薦模型的SOP,更指望將所謂「讓數據說話」的思維落實到企業決策中,解決其餘的實際問題。由於碩士畢業於統計所,因此 Wush對於統計模型上的技術較為熟悉,目前也正和老師在撰寫Recurrent Data Analsys的分析套件。 |
Large Scale Learning with R 在 資料爆炸的時代,運用大數據挖掘與探索商機是現在相當熱門的議題。但事實上要駕馭大數據卻不是件容易的事情,尤爲在創建模型的部份,若在工具 上沒能跨過門檻,就很難在有限時間產生資料的價值。這次Wush將分享運用R、Rcpp和pbdMPI所開發的高效能的大數據運算平臺,包含完成對超過1 億筆資料,僅花費1小時的建模經驗,以及跨過分析門檻與挖掘知識的過程。Wush除了介紹影響R運算速度的問題,以及實際克服問題的過程,同時也會分享如 何運用系統化的概念創造資料價值的故事。 |
丘祐瑋 David Chiu 丘 祐瑋 (David Chiu) 是碩源資訊 (numerinfo.com) 共同創辦人,TW.R Officer,也曾經是趨勢科技的工程師。David 是一位致力於提供 Data as a Service 的創業者與資料科學家,熟悉使用 Hadoop 進行巨量資料處理,暨長時間專注使用各式 Data Mining 技術從事資料分析;為臺灣 Python 及 R 社羣的忠實聽眾,喜愛參與社團交流與分享,但願能多瞭解如何使用 Python & R 讓資料分析更簡單上手。目前正在替 Packt 撰寫 Machine Learning With R Cookbook 及編評Bioinformaics With R Cookbook。 |
Big Data Analysis With RHadoop 談 到海量資料,一般你們腦海中聯想到的就是使用Hadoop 的 MapReduce 和HDFS,可是撰寫MapReduce,則就必須要學會撰寫Java 或透過Thrift 接口才能撰寫。但R是否有辦法運行在Hadoop 上呢 ? 而使用R + Hadoop,是否就真的能結合R強大的分析功能,分析海量資料呢 ? 本次講題將介紹如何撰寫R的MapReduce 程式,並實際示範如何使用RHadoop 進行海量資料分析。更重要的是,這次將探討使用RHadoop 是否為海量資料分析找到一盞明燈? 或者只是另外一套實做方法而已? |
王亮博 Liang Bo Wang 臺大生醫電資所在學碩士。喜歡寫 R、Python、統計與生物資訊。目前為 Taiwan R Users Group 工做人員及 Taipei.py 常客。 |
Interactive Visualization in R 近 年來各種網路服務誕生,從要求畫圖好看,到要能與使用者互動。對於常見的圖表而言,現在已有套件如 D3.js、ECharts 能提供解決方案。而 ggplot2 的強大功能已經為 R 使用者提供簡潔又高質量的圖表解決方案。如何將 ggplot2 的圖表加入互動的元素,其中一個解決方案使用 gridSVG 做接口。本講題將以 gridSVG 為出發點,介紹 grid 框架、SVG 互動語法,並示範如何於 R 中接合 D3.js 來實現互動圖表。 |
鄭義 美國愛荷華大學財務博士、 CFA,專長為權益金融商品設計、投資組合理論與金融資訊系統開發,現任臺灣中山大學副教授,曾任臺灣期貨交易所商品 研發小組委員、保德信投信投資研究部副總經理、復華投信新金融商品部副總經理與資深諮詢顧問、寶來證券新金融商品部專案諮詢顧問等,具豐富的產官學經驗。 |
基金評選平臺之創建 本團隊運用 R 語言,將多個基金指標融合為單一綜合指標,並藉此挑選較佳的基金產品,提供消費者簡易且有效的基金評選平臺,此外有鑒於退休規劃之需求日益提高,本平臺亦推薦數種嚴控風險的投資組合,作為長期投資之參考。 |
郭韋廷 Willy Kuo Pandas (Python用來作Data Analysis的套件之一)的源碼貢獻者之一。Stackoverflow上Pandas的Top Answer之一。 |
Data Analysis in R and Python 近 幾年Python發展出了許多Data Analysis的套件,越來越多人開始使用Python作Data相關的服務。相較專門用來作Data Analysis的語言,Python更易整合各式各樣的資源,介接Database、作個簡單的Web Dashboard、開API跟其餘程式介接…這個Talk會介紹如何用Python來作Data Analysis,還有一些R和Python的比較。 |
靳志輝 先 後畢業於北京大學計算機系計算語言所(碩士),日本東京大學(統計天然語言方向博士)。目前,在騰訊科技北京有限公司工做,擔任研究員。曾參 與騰訊效果廣告平臺的研發工做,工做範疇主要涉及統計天然語言處理和大規模機器學習,以及把這些技術工具應用於騰訊海量的用戶行爲分析和廣告定向中 |
廣告定向中的用戶分析 騰訊擁有有龐大的互聯網用戶和流量,如何挖掘這些海量的用戶的行爲數據以支持騰訊廣告業務中的精準定向是騰訊互聯網業務中的一個難題。 在嘗試精準廣告定向的過程當中,咱們有幾個任務須要解決: 查看詳情
- 如何使用高效的機器學習算法對海量的用戶行爲數據進行語義挖掘?
- 如何利用騰訊特有的社交行爲數據挖掘用戶的意圖和興趣?
- 直接產生興趣數據的用戶相對較少,而類似的用戶可能會有類似的興趣, 可否經過類似用戶計算,預測用戶的興趣?
本次演講主要分享一下騰訊廣點通廣告定向團隊在以上問題上作了一些積極的嘗試所獲得的一些初步成果。
|
林薈 先 後畢業於北京師範大學數學科學學院(本科),美國愛荷華州立大學統計系(博士)。2009-2013年曾爲愛荷華州立大學獸醫學院和商學院提 供統計諮詢服務;2013年5月起任杜邦先鋒全球總部市場部統計師,主要工做是領導創建商業預測模型、分析消費者行爲數據和提供統計諮詢。 |
數據分析在傳統行業商業決策中的應用 在大數據成爲熱點、電商高度發展的今天,數據分析在傳統行業(如農業)商業決策中扮演的角色變化彷佛被遺忘在舞臺清冷的角落。本次演講不打算攪和大數據這杯混水,而是立足於小樣本建模分析在傳統商業決策中的應用。 查看詳情
固然,這是另一杯機遇和挑戰並存的混水。具體說來主要討論以下幾點:
- 商業數據分析在傳統行業的和電商鄰域扮演的角色有什麼不一樣?
- 數據分析如何幫助商業決策?
- 幾個須要注意的問題
- 模擬應用案例:用Group Lasso邏輯迴歸構建評分系統
- 機遇和挑戰
|
劉思喆 現 就任於京東商城網站智能和商業化部推薦團隊,主要負責用戶行爲,商品特徵建模等內容。8年來,一直追求爲服務企業提供高效、完備的數據解決方案,尤爲在統 計分析、預測分析、數據可視化、機器學習、文本挖掘、社交網絡等領域。 在加入京東商城前,供職於亞信聯創BOC、神州數碼思特奇DSS,主要爲電信運營商提供數據挖掘及業務諮詢等顧問服務。查看詳情
10年R語言使用經驗,R語言企業級應用的踐行者,中國R語言會議、數據科學沙龍聯合發起人,中國最大的統計社區-統計之都常務理事,06年至今一直擔任R語言版版主。
2005年畢業於中國人民大學統計學院,《153分鐘學會R》的做者,《R in a nutshell》譯者。
|
R語言在電商領域的應用 1.R語言應用的架構 2.經常使用的技術方案介紹 3.幾個電商應用案例 |
肖楠 中南大學數學與統計學院統計學系在讀博士,統計之都論壇R語言版版主。《R語言實戰》、《ggplot2:數據分析與圖形藝術》、《R數據可視化手冊》等書籍譯者;protr、Rcpi等R包做者。關注領域爲統計機器學習、化學信息學與生物信息學、定量與系統藥理學。 |
Integrated Pipeline for Systems Pharmacology in R/Bioconductor Multiscale molecular representation and modeling is a fundemental problem in systems pharmacology research. We developed R/Bioconductor packages and web apps emphasizing the comprehensive integration of bioinformatics and chemoinformatics into a molecular informatics platform for drug discovery. We will share the experience and pitfalls during the package development process. |
李艦 現 就任於 Mango Solutions (China),擔任首席顧問,負責數據分析相關的諮詢項目及公司產品中分析模塊的開發。開源社區中Rweibo、Rwordseg、tmcn 等R包的做者。中國R語言會議(上海會場)的組織者。《數據科學中的R語言》一書的做者(即將由西安交大出版社出版)。郵 箱:lijian.pku@gmail.com。 |
R與Office的整合 R 是最強大且便利的統計分析工具,Office是最爲人熟知而隨處可得的辦公軟件,若是一個分析人員的工做電腦上只能裝兩個軟件的話,相信不少 人會選擇Office和R。關於Office與R的整合,網絡上存在不少很好的資源,好比RExcel、R2PPT、ReporteRs等。這些工具到底 有哪些妙用?他們的實現機制究竟是什麼?如何使用纔是最有效率的方式?本次報告將會對這些問題進行解答。 在行業中,大部分的分析報告都是基於Office產生,尤爲是PPT的報告,在可重複研究日趨火爆的今天,關於Office的自動化報告的方案並不常見。 在本次報告中,演講者還將會介紹一個本身編寫的R包,能夠經過DCOM的方式對Office中的對象進行自如地操做,並能自動解析PPT的各模塊,以一個 自動化報告的需求爲例,介紹基於模板自動生成報告的流程。 |
楊環 楊環,現就任於Mango Solutions (China),擔任諮詢顧問。畢業於廈門大學和倫敦政治經濟學院。郵箱huan.a.young@gmail.com. |
R在新葯研發中的應用 一 款新葯的平均研發時間達到十年之久,耗資一般10億美圓之巨,整個研發過程當中的任何決策都相當重要。尤爲在最近幾年,不少大藥廠紛紛遭遇專利 保護到期的困境,而新葯研發的進度也愈來愈緩慢。在這樣特殊的時期,在FDA的引導和各大藥廠的實踐下,新葯研發中的建模和模擬成了藥廠擺脫困境的良藥, 而這個領域最受歡迎的工具就是R。 演講者將會結合Mango Solutions爲各大藥廠提供服務的經驗,介紹新葯研發尤爲是建模和模擬的流程,展現各種統計模型和數學方法在新葯研發中的應用以及系統和工具的實 踐,尤爲是R在其中所起到的關鍵做用。 |
Hadley Wickham RStudio公司的首席科學家,同時也是美國Rice大學的助理教授。他開發了著名的ggplot2和plyr包. |
ggvis sneak peek I'll give you a sneak peek at ggvis, the successor to ggplot2. Like ggplot2, ggvis allows you to describe visualisations declaratively. Unlike ggplot2, ggvis graphics are fundamentally of the web: they're built using html, js, and css. More importantly, ggvis graphics are fundamentally reactive. You can bind plot parameters to sliders and dropdowns, and visualise streaming data as it comes in. |
周揚 現就任於AdMaster數據研究院,主要負責數據分析、建模及其展現。R、Javascript兩棲碼農,數據可視化愛好者,recharts圖形包重要參與者。 |
它山之石能夠攻玉:recharts圖形包 數 據可視化做爲理解數據的重要媒介,讓光禿禿的數據充滿了活力和魅力。Echarts是國內優秀數據可視化團隊設計與實現的基於瀏覽器的圖形庫 (js庫),已經得到普遍的使用和好評。然而R做爲一個統計分析、數據建模和圖形可視化的重要工具,因爲其原生圖形設備在動態可交互圖形方面提供的支持有 限,須要藉助於瀏覽器做爲數據展現平臺實現圖形的動態可交互。所以,recharts基於將Echarts圖形庫引入R平臺,爲R用戶羣提供動態可交互圖 形的一個選擇。而且經過與knitr、Shiny、slidify等優秀R包的鏈接實現了豐富和精彩的應用。 |
邱怡軒 畢 業於中國人民大學統計學院(碩士),目前爲普渡大學統計系在讀博士,統計之都理事會成員。感興趣的領域包括統計建模與計算,R語言相關技術 等,參與翻譯了《R語言編程藝術》《ggplot2:數據分析與圖形藝術》《R數據可視化手冊》等書籍,是R2SWF,showtext,rARPACK 等R程序包的做者。我的主頁yixuan.cos.name/cn。 |
R中大規模矩陣的奇異值分解與矩陣補全 奇 異值分解(SVD)及與其相關的特徵值分解是統計模型中重要的代數運算工具,在傳統的統計方法,如迴歸分析、主成分分析中有普遍的使用。R中 提供了svd()和eigen()等函數來完成相應的運算,然而當矩陣的維度較大時,其計算量一般會變得難以承擔。對於一些特定的問題,咱們只須要求解一 部分的特徵值(例如最大的k個),這能夠經過rARPACK軟件包中的相關函數來實現。本演講將首先介紹rARPACK軟件包的基本用法,並提供它與R中 其餘工具的性能比較。演講的第二部分是SVD的一項有趣的應用,稱爲矩陣補全(Matrix completion),它與推薦系統、圖片修復等具備緊密的聯繫。演講中將以一個恢復受損圖片的例子來介紹矩陣補全的基本原理和實現過程。 |
James Wicker James Wicker graduated with a Bachelor’s Degree in Physics from New College Florida in 1997. He went to graduate school at the University of Tennessee – Knoxville and earned a Master's Degree in Statistics in 2003 and a Ph.D. in Physics in 2006. His Ph.D. dissertation focused on developing new methods in regression and cluster analysis and applying them to analysis of physical systems. In 2007, he came to National Astronomical Observatories, Chinese Academy of Sciences in Beijing as a postdoctoral researcher. In 2009, he became an editor for the research journal Research in Astronomy and Astrophysics, which is also based at National Astronomical Observatories, Chinese Academy of Sciences. He is still doing research on developing new methods of statistical analysis, especially related to mixture modeling. |
Multi-Cluster Detection A major challenge in mixture model analysis is determining the number of clusters present in a data set. I propose a new method to compute univariate mixture models that combines the advantages of both genetic algorithms and information scoring. Information scoring overcomes handicaps that are inherent in hypothesis testing, and as applied to mixture modeling, information scoring can overcome these ambiguities. I implement a restricted log-likelihood maximization procedure into a genetic algorithm that can accurately identify the number of clusters present in a univariate mixture model analysis situation. Repeated trials on simulated data sets demonstrate the accuracy and reliability of this method, and application to real data sets uncovers hidden structure in the underlying probability density functions. |
寇強 寇強,微博:@Gossip_useR,華南統計科學研究中心成員,信息學博士在讀,研究方向爲串聯質譜的數據分析和軟件開發。 |
突破R內存瓶頸的若干技術 R的內存計算一直被人詬病,除去利用近年興起的Hadoop以外,R衆多的擴展包爲解決R的內存瓶頸提供了各類思路,包括hashing、硬盤緩存、保存重複計算結果、利用數據庫後臺等等。這裏整理比較一下各類相關技術,提供若干性能測試,並加上一些我的的使用體會。 |
張曄 中 山大學數學與計算數學學院計算數學專業在讀碩士,華南統計科學中心研究人員。合做翻譯Financial risk modelling and portfolio optimalization with R, Data mining with Rattle and R, Rcpp: Seamless R and C++ Integration 等圖書。研究方向爲生物統計。近期研究方向爲生物調控網絡。關注的技術點爲Rcpp和R 語言下的並行計算。 |
以統計學科研人員的角度看R語言開發 科研工做需 要將層出不窮的想法付諸實踐,並在實驗中不斷修正想法。對於統計科學的研究人員來講,R語言靈活高效,貼近統計學家的思惟,同時又是一門正在發 展的編程語言。演講者將會結合自身的研究工做,討論一下科研工做中的R語言開發。 一方面,統計方法的算法描述每每是簡單明瞭的,另外一方面,統計科研中的編程工做並不簡單。這是由於從算法描述到代碼實現之間充滿了大量的細節。主要的開發 困難在於數據結構和接口的設計。而這須要軟件工程的思惟。 要求一個統計學研究人員掌握計算機專業的專業知識略顯苛刻,咱們更推崇一種「統計學家提供原型,程序員進行優化改造」的工做範式。但爲了可重複的研究,編 寫良好的R程序依然是很是重要的技能。R提供了簡單實用的面向對象系統(S3和S4)和一個強大的C++語言接口(Rcpp),爲咱們的研究提供了極大的 便利。 |
牟官訊 畢業於上海石油化工專科學校數據處理專業(計算機應用方向),多年的電信行業基礎軟件經驗,過去曾從事電信級的應用和軟件開發。現收集國內A股高頻交易數據,從中進行用戶行爲的研究,投資開發了交易數據分析平臺,從歷史交易數據中發掘有價值的交易機會。 |
開發的血和淚,交易的冰與火 開發高效率計算的代碼技巧;如何提高算法代碼的通用性;如何從歷史交易數據中實時構建動態貝葉斯網絡進行預測。 |
歐陽鶴 畢 業於復旦大學廣告系。曾就任於路易威登零售、顧客零售營銷部門。目前在奢侈品閃購網站魅力惠從事網站數據分析工做。谷歌分析認證網站分析師。 受統計之都的影響於2012年開始自學R語言。參加過2012年與2013年的上海R語言會議。興趣:信息圖表設計,可重複性研究與自動化報告。 |
小而美的數據產品 讀 大學時我從電氣工程與自動化轉專業到了廣告系。朋友說,是從Hard模式跳到了Soft模式。工做後,我從零售與營銷轉到了數據分析。有人說,Soft調 回了Hard。其實,文理相長。數據分析工做能夠是技術與藝術的完美結合。 - 數據產品:以「產品經理」和用戶的角度去思考 - 小而美:有效的信息溝通,"不要炫的,要有效的」 - 前輩的金玉良言,Edward Tufte, Stephen Few - 應用案例:魅力惠是以閃購活動的形式來組織銷售。每一個活動持續1到2周。又快又輕又好的活動銷售報告是頻繁而核心的業務需求。 Ubuntu+R+Git布環境, shiny搭骨架, RMySQL讀寫數據,plyr與reshape2清理數據,ggplot2與ggmap繪圖,knitr轉換成報告網頁,Google Analytics監測應用訪問及使用。 |
任坤 廈門大學王亞南經濟研究院金融碩士生,研究興趣爲計算統計和金融量化交易。 |
構建高效率的數據流水線:在R中使用管道操做 在 數據驅動的統計計算和數據分析中,對數據使用一連串指令來作處理與可視化是很常見的狀況。可是因爲傳統的函數寫法致使後調用的函數須要先寫出 來,因此一連串指令經常是多層嵌套、很長的表達式,既難閱讀也難以維護。講者編寫的pipeR擴展包借鑑了F#語言中的管道操做符背後的思想,定義了三種 適合R中使用的管道操做,能夠方便地構建流水線式的數據處理過程,能夠和dplyr等擴展包一塊兒使用,大幅簡化數據操做過程,使之變得清晰、易讀、可維 護。 |
張丹 R語言資深用戶,《R的極客理想》做 者,系統架構師,曾開發多種不一樣類型的系統及應用,目前在量化投資領域創業中。張丹在其我的博客 (http://blog.fens.me)原創了大量關於 R語言和Hadoop大數據技術的文章。2013年,他的RHadoop系列文章,在統計之都發表。他仍是Dataguru培訓講師,教授課程 《Hadoop應用開發實戰案例》、《Mahout機器學習平臺》。 |
R語言與金融大數據應用 基於Hadoop存儲證券的日內交易數據,經過RHive鏈接R語言與Hive,創建相關性算法模型,在歷史數據中回測,構建投資決策組合,並生成可視化結果用於展現。 |
Ge Jiang Current phd student at University of Notre Dame, my major is Quantitative Psy-chology and minor is Applied Computational Mathematics and Statistics?my research interests lied in psychometrics and factor analysis and I kind of enjoy the pleasure of being a ’ma nong’ and want to apply these statistical methods more inside psychology field. |
Combining R with Psychology—–An illustration with SEM R is an advanced softwares that have been adopted and created many disciplines, including biostatistics, econometrics, psychometrics, and social statistics. In quantitative psychology, it plays a crucial role in conducting simulation and testing hypotheses. This topic mainly presents how R is adopted in SEM to test model fit and developing new test statistics. |