大牛雲集的中國計算機大會:大會日程表:http://cncc.ccf.org.cn/cn/news/schedule_emptyhtml
早上的論壇能夠在愛奇藝下載視頻ios
下午的分論壇是多個同時進行的,我也只去了一部分,這裏先按時間順序寫本身的一些收穫,以後會從另外的角度作一個總結。git
若是以爲個人整理對你有幫助,歡迎star這個項目github
10-26 am
丘成桐 現代幾何在計算機科學中的應用
- 從幾何學的角度找到優化問題(如GAN)的等價形式,經過解決等價問題加速優化過程
沈向洋 理解天然語言 概述,對話和理解
- 天然語言:機器學習(表述)->機器智能(對話)->機器意識(意境)
- 圖像表述:微軟有一個Image Caption的api能夠用
- 檢測,分割,識別只是基礎任務,對圖像進行理解是之後的熱點
- 小冰:LSTM端到端,話題引導,有意識的腦補
李飛飛 A Quest for Visual Intelligence: Exploration Beyond Objects
- 在圖像識別,分類,分割,檢測以外,還有更多的東西能夠作
- 圖像理解,場景理解,問答,場景檢索,思惟導圖生成
- 上一點也適用於視頻
湯道生 讓AI服務於人
- 騰訊的AI產品
- 微信語音轉文字
- QQ視頻掛件,QQ掃碼轉文字
- 每天P圖:美顏美妝
- QQ音樂:個性化推薦
- 企鵝FM:文字轉語音
- 全民K歌:伴奏分離
- 騰訊在方面已經有不錯的工具,能夠集成到咱們想要作的東西中
- 能夠作的問題:
馬維英 人工智能和新一代信息與內容平臺
10-27 pm 深度學習與醫療影像分論壇
疾病預警
圖像處理
- 多模態處理
- 分割 配準 可視化
- 分割:亮度,邊界,噪聲
- 區域分割(二維)、曲面分割(三維)
- 識別(定位),邊界尋優
- Graph Cut,Graph Search,將圖像轉爲圖進行分割
- 外觀模型
- 多模態PET-CT
- 結構的信息和功能信息合起來進行分割
- 對準兩個模型(結構和功能)的圖像,對兩個模型的預測結果進行約束(好比但願兩個模型的輸出相近)
- 主動外部模型
- 雙模型交互迭代優化
- 基於能量函數作Graph Cut
- 曲面分割
- 對曲面作分層
- 建模成三維的圖結構,對邊權和點權作最大流最小割
- 異常區域分割
- 特徵用深度學習的方法提取,距離度量用傳統方法
- 分割
- 欠分割,過度割的解決
- 位置約束
- 亮度加強,PCI
- 局部位置約束
- 過度割(多邊形近似->特徵點標記->瓶頸檢測(聚類)->像素與邊緣的平均幾何距離約束)
- 邊緣匹配
- 識別
基於貝葉斯的視覺信息編解碼
- 視覺信息->人腦->神經活動(編碼)(反之解碼,解碼也可能解碼爲語義信息)
- fMRI檢測神經活動
- 分類,辨識,重建
- 卷積 - 中間特徵 (->關聯神經活動信號)- 反捲積
- 尋找中間特徵和目標特徵的共同表徵(用貝葉斯推斷)
- 視覺圖像->VAE(推理網絡,生成網絡),
- 對目標信號,創建貝葉斯線性模型
- 模擬目標信號和視覺信息的稀疏表達
- 給定圖像,自底向上推理獲得中間特徵
- 類似度分析融入貝葉斯分析中
- 多視圖生成式自編碼器
DL
- 小數據集下的深度學習
- 數據增廣
- pretrain
- 傳統+深度-檢測
- faster rcnn提取特徵(可能漏選,傳統方法預篩選更簡單有效)
- 多尺度卷積分類(LUNA2016第四名)
- 分類
- 領域知識在特徵提取中的做用
- 領域知識進行預處理,對於不一樣的輸入圖片,提取不一樣的特徵,多特徵融合預測
- 分割
- 多網絡提取特徵融合(ensemble)
- 不一樣網絡提取不一樣部分或者不一樣結構的局部的特徵,將特徵拼接起來
- 多模型投票
- 多模型相互學習(深度協同)
- identification loss and classification loss
- 貝葉斯推理
- 深度學習影響分析
- 將先驗知識設計到網絡中
- 模擬數據去除隱私問題
- 脈衝神經網絡
- 領域知識最大的做用在於不是直接端到端,而是對問題作分割,對子問題作端到端
- 移動GPU
異常檢測
- 只有正常數據,如何發現異常數據
- 高斯模型,低機率區域爲異常數據
- 高斯過程學習(非參數模型)
- 生成式↑
- 判別式(基於分類)↓
- 單類SVM:將原點做爲第二類,讓超平面離原點儘量遠
- 分類結果差越多(??),說明越異常
- GAN作異常檢測(若是還原出現異常(異常的局部會還原失敗,從而自動完成標註),說明是異常圖像)
10-27 am
物體識別到場景理解
- Face Recognition, Car Recognition
- 單類識別,多類識別
- 可擴展方向:性能,穩定性,可解釋性,推廣性,與人感知的一致性
- 視覺:什麼東西在哪裏
- 場景理解-知識圖譜
- 屬性組合挖掘
10-27 pm
語音前沿技術
- 港中文
- Man-Computer Symbiosis:人機共生
- Microsoft speech-recognition
- 人機共生三種場景
- AI competencies
- Challenge: 語音加情感識別,場景豐富,non-native, dysarthric, personal speaker
- 人機協做解決困難問題
- 人機合做發明新的知識
- AI進行search,retrieve,cluster,categorize,compare....
- Challenge: 語音加情感識別,場景豐富,non-native dysarthric speaker
- 李錦輝 ECE
- 語音識別(ASR),實際錯詞率比聲稱的高
- 語音老是備選項,須要solution,speech app(在用戶hands,eye-busy scenarios裏)
- more than WERs
- 頻譜轉換(paradigm shift,舊方法應用在新的場景)
- 降噪,加強,雜音分離,消除迴響
- 信號處理->識別
- DNN黑箱
- 屬性分析,專業知識,不能盲目分析,不能說只有標籤就行,knowledge-driven
- 例如發音中識別摩擦音,爆破音
- 將傳統模型中里程碑式的東西拿過來用
- 自動化語音屬性抓取
- 搜狗 陳偉
- 天然交互
- 知識計算
- 語音←(asr tts)→語言←(ocr 圖像生成)→圖像
- 語音聽寫(字幕,演講,採訪),語音翻譯,語音同傳
- 可穿戴設備,車載,智能家居
- SeqSequence CNN LSTM
- 運算平臺:單卡3TFlops->1PFlops
- 基於容器對GPU運算作調度
- GPU -> FPGA -> RDMA
- 移動端:模型壓縮,輕量化
人工智能與機器學習前沿技術論壇
- 朱軍:半監督深度學習模型
- 貝葉斯深度學習
- 基於貝葉斯推斷的深度生成模型
- 對GAN加中間約束的生成模型
- ZhuSuan(珠算):機率編程模型,開源可用
- 演化算法
- 視頻檢索的哈希學習
- 圖像檢索
- 一般的特徵太大,檢索太慢
- 用二進制編碼的一個哈希值來表達特徵
- 設計一個損失,約束正負樣本的類似度偏差,用變量絕對值與1的差的一範數等價爲二進制約束
- 視頻檢索
10-28 am
10-28 pm 多媒體計算
多媒體計算
- AI2.0
- 大數據智能
- 羣體智能
- 跨媒體智能
- 混合加強智能
- 自主無人系統
- 應用:製造,農業,醫療
朱文武 TMM趨勢
- TMM介紹
- IEEE of Transactions on Multimedia
- 多媒體計算
- 多媒體社交
- 多媒體信號處理
- 多媒體應用和系統
- 趨勢:
- 2.5->3.5,CCF A, 長文
- 一年900篇提交,接受30%-35%
- 中了以後半年內出
- 超過60%是機器學習+圖像視頻分析,多模態,跨媒體
- 跨媒體智能
- 文本圖像語音視頻及其交互屬性混合
- 多源融合+知識演化+系統演化
- 解決語義鴻溝(機器認識世界是什麼)意圖鴻溝(機器理解人要達到什麼目標)
- 機器學習助力多媒體目前效果好,多媒體知識助力AI不成熟
- 跨媒體深度分析和綜合推理
- 淺層到深度
- 知識圖譜指導多媒體分析,屬性補全,知識表達理解是之後的趨勢,多媒體理解,視頻QA之類
- 難點:跨媒體知識學習推理,多媒體情感分析
- 知識離散,特徵連續,如何轉化
- 知識和數據如何融合
- 媒體到機器學習近期套路:
- 深度學習+反饋(知識、規則進行反饋/強化學習)(黑箱)
- 統計推理,貝葉斯推理(白盒)
- 數據驅動 && 知識驅動
- Cross-media analysis and reasoning: advances and ...
圖像與視頻生成的規則約束學習(GAN)
- 已有工做
- 人臉姿態轉換,年齡轉換,表情轉換
- 超分辨率,畫風轉換,字體轉換,圖片轉視頻
- 應用:
- 動畫自動製做(補間),手語生成
- 視頻自動編輯(天氣變化)
- WGAN,PPGAN
- 無監督新框架
- 創意:隨機性
- 難點
- 解空間巨大:須要找出解所在的低維子空間
- 宏觀結構的一致性(視頻生成須要的像素感覺野(pooling)很大,難以預測長期運動變化)
- 微觀結構的清晰度,要同時逼近多模分佈,避免單模生成的結果不夠精確
- 用領域中的規則去約束GAN,加入破壞規則的代價
- 縮小預測空間,保證宏觀結構,加快細節生成
- 工做介紹:
- 景深風景生成
- 難點:要求空間結構合理,不能有嚴重的模糊
- 約束:從現有風景圖像中對景深關係建模(對區域進行標註, 不一樣區域有不一樣的遠近限制)
- 創建位置和對象的關係,獲得某個位置有某個對象的機率分佈
- Hawkes過程模型
- 根據對象對圖層作分解,由機率約束創建圖層約束
- 層內DCGAN,層間LSTM聚合出整圖
- 骨架約束的人體視頻生成
- 骨架運動有約束
- 骨架提取很魯棒,能夠獲得不少有標籤知識(傳統方法用來提取知識)
- 靜圖+動做序列變更圖
- CNN編碼解碼,孿生網絡雙輸入進行生成
- 判別器:對生成和實際幀作Triplet loss優化
- gan loss和視頻類似度loss相加
- 交互運動視頻生成
- 創意+規則約束+複雜場景+複雜交互
基於錨圖的視覺數據分析
- 圖學習
- 類似度矩陣 -> 圖的鄰接矩陣 -> 用圖的方法對鄰接矩陣進行優化
- 標號建模 標號平滑 標號學習
- 錨圖學習(速度+)
- coarse to fine
- 利用數據點圖,生成錨點圖,先採一部分有表明性的數據(例如聚類中心)生成一個圖模型,而後推理出其餘圖
- 圖模型:表示矩陣,鄰接矩陣,如何創建,加快類似度計算
- 高效錨圖(性能速度+)
- 層次化錨圖(速度++)
- 錨點是線性增長的,也會增長得很快
- 對第一層採樣的點作再採樣,多層採樣減小了錨點數目,從最少的錨點的層逐層推理
- 標號預測器(速度+++)
- 優化對錨點的標號
- 對最小的錨點層接一個優化器進行標號預測
- 主動學習(樣本選擇)
- Google Expander Graph Learning平臺:經典方法,並行運算
彭宇新 跨媒體智能
- 形式上多源異構,語義上相互關聯
- 聚焦於跨媒體統一空間學習,得到多個媒體間共享的潛在子空間
- 跨媒體實體關係,跨媒體知識圖譜,跨媒體知識演化和推理
- 講了好多篇論文的Motivation和Solution,我會具體整理另外一篇文章
- 跨媒體智能描述與生成
- 用於信息檢索
- 應用:內容自動監管,輿情分析,智能醫療
層次記憶網絡:視頻問答 跨媒體推理
- 視頻轉語言
- 視頻幀 + 時序依賴 -> 動態動做信息
- 選擇ROI幀,時序結構編碼(Dual Memory Recurrent Model--LSTM擴充來的),生成句子
- 層次記憶網絡
- 視頻時序推理