CNCC2017梳理

大牛雲集的中國計算機大會:大會日程表:http://cncc.ccf.org.cn/cn/news/schedule_emptyhtml

早上的論壇能夠在愛奇藝下載視頻ios

下午的分論壇是多個同時進行的,我也只去了一部分,這裏先按時間順序寫本身的一些收穫,以後會從另外的角度作一個總結。git

若是以爲個人整理對你有幫助,歡迎star這個項目github

10-26 am

丘成桐 現代幾何在計算機科學中的應用

  • 從幾何學的角度找到優化問題(如GAN)的等價形式,經過解決等價問題加速優化過程

沈向洋 理解天然語言 概述,對話和理解

  • 天然語言:機器學習(表述)->機器智能(對話)->機器意識(意境)
  • 圖像表述:微軟有一個Image Caption的api能夠用
  • 檢測,分割,識別只是基礎任務,對圖像進行理解是之後的熱點
  • 小冰:LSTM端到端,話題引導,有意識的腦補

李飛飛 A Quest for Visual Intelligence: Exploration Beyond Objects

  • 在圖像識別,分類,分割,檢測以外,還有更多的東西能夠作
  • 圖像理解,場景理解,問答,場景檢索,思惟導圖生成
  • 上一點也適用於視頻

湯道生 讓AI服務於人

  • 騰訊的AI產品
    • 微信語音轉文字
    • QQ視頻掛件,QQ掃碼轉文字
    • 每天P圖:美顏美妝
    • QQ音樂:個性化推薦
    • 企鵝FM:文字轉語音
    • 全民K歌:伴奏分離
  • 騰訊在方面已經有不錯的工具,能夠集成到咱們想要作的東西中
    • 騰訊雲小微三大開放平臺
    • 騰訊雲智慧交通
    • 騰訊覓影
  • 能夠作的問題:
    • 手機性能挖掘,模型壓縮,內存共享

馬維英 人工智能和新一代信息與內容平臺

  • 今日頭條:智能內容分發(推薦系統)

10-27 pm 深度學習與醫療影像分論壇

疾病預警

  • 數據結構化,個性化服務
  • 半自動閱片
  • 異常檢測

圖像處理

  • 多模態處理
  • 分割 配準 可視化
    • 分割:亮度,邊界,噪聲
      • 區域分割(二維)、曲面分割(三維)
      • 識別(定位),邊界尋優
      • Graph Cut,Graph Search,將圖像轉爲圖進行分割
      • 外觀模型
      • 多模態PET-CT
        • 結構的信息和功能信息合起來進行分割
        • 對準兩個模型(結構和功能)的圖像,對兩個模型的預測結果進行約束(好比但願兩個模型的輸出相近)
      • 主動外部模型
      • 雙模型交互迭代優化
      • 基於能量函數作Graph Cut
    • 曲面分割
      • 對曲面作分層
      • 建模成三維的圖結構,對邊權和點權作最大流最小割
    • 異常區域分割
      • 區域矯正
    • 特徵用深度學習的方法提取,距離度量用傳統方法
  • 分割
    • 欠分割,過度割的解決
    • 位置約束
    • 亮度加強,PCI
    • 局部位置約束
    • 過度割(多邊形近似->特徵點標記->瓶頸檢測(聚類)->像素與邊緣的平均幾何距離約束)
    • 邊緣匹配
  • 識別

基於貝葉斯的視覺信息編解碼

  • 視覺信息->人腦->神經活動(編碼)(反之解碼,解碼也可能解碼爲語義信息)
  • fMRI檢測神經活動
  • 分類,辨識,重建
  • 卷積 - 中間特徵 (->關聯神經活動信號)- 反捲積
  • 尋找中間特徵和目標特徵的共同表徵(用貝葉斯推斷)
  • 視覺圖像->VAE(推理網絡,生成網絡),
  • 對目標信號,創建貝葉斯線性模型
  • 模擬目標信號和視覺信息的稀疏表達
  • 給定圖像,自底向上推理獲得中間特徵
  • 類似度分析融入貝葉斯分析中
  • 多視圖生成式自編碼器

DL

  • 小數據集下的深度學習
    • 數據增廣
    • pretrain
    • 傳統+深度-檢測
      • faster rcnn提取特徵(可能漏選,傳統方法預篩選更簡單有效)
      • 多尺度卷積分類(LUNA2016第四名)
  • 分類
    • 領域知識在特徵提取中的做用
      • 領域知識進行預處理,對於不一樣的輸入圖片,提取不一樣的特徵,多特徵融合預測
  • 分割
    • 多網絡提取特徵融合(ensemble)
    • 不一樣網絡提取不一樣部分或者不一樣結構的局部的特徵,將特徵拼接起來
  • 多模型投票
  • 多模型相互學習(深度協同)
    • identification loss and classification loss
  • 貝葉斯推理
  • 深度學習影響分析
  • 將先驗知識設計到網絡中
  • 模擬數據去除隱私問題
  • 脈衝神經網絡
  • 領域知識最大的做用在於不是直接端到端,而是對問題作分割,對子問題作端到端
  • 移動GPU

異常檢測

  • 只有正常數據,如何發現異常數據
  • 高斯模型,低機率區域爲異常數據
  • 高斯過程學習(非參數模型)
  • 生成式↑
  • 判別式(基於分類)↓
  • 單類SVM:將原點做爲第二類,讓超平面離原點儘量遠
  • 分類結果差越多(??),說明越異常
  • GAN作異常檢測(若是還原出現異常(異常的局部會還原失敗,從而自動完成標註),說明是異常圖像)

10-27 am

物體識別到場景理解

  • Face Recognition, Car Recognition
  • 單類識別,多類識別
  • 可擴展方向:性能,穩定性,可解釋性,推廣性,與人感知的一致性
  • 視覺:什麼東西在哪裏
  • 場景理解-知識圖譜
  • 屬性組合挖掘

10-27 pm

語音前沿技術

  • 港中文
    • Man-Computer Symbiosis:人機共生
    • Microsoft speech-recognition
    • 人機共生三種場景
      • AI competencies
        • Challenge: 語音加情感識別,場景豐富,non-native, dysarthric, personal speaker
      • 人機協做解決困難問題
        • RFID加在電車上,可視化,動態規劃車次
      • 人機合做發明新的知識
        • AI進行search,retrieve,cluster,categorize,compare....
    • Challenge: 語音加情感識別,場景豐富,non-native dysarthric speaker
  • 李錦輝 ECE
    • 語音識別(ASR),實際錯詞率比聲稱的高
    • 語音老是備選項,須要solution,speech app(在用戶hands,eye-busy scenarios裏)
    • more than WERs
    • 頻譜轉換(paradigm shift,舊方法應用在新的場景)
    • 降噪,加強,雜音分離,消除迴響
    • 信號處理->識別
    • DNN黑箱
      • 屬性分析,專業知識,不能盲目分析,不能說只有標籤就行,knowledge-driven
      • 例如發音中識別摩擦音,爆破音
      • 將傳統模型中里程碑式的東西拿過來用
    • 自動化語音屬性抓取
  • 搜狗 陳偉
    • 天然交互
    • 知識計算
    • 語音←(asr tts)→語言←(ocr 圖像生成)→圖像
    • 語音聽寫(字幕,演講,採訪),語音翻譯,語音同傳
    • 可穿戴設備,車載,智能家居
    • SeqSequence CNN LSTM
    • 運算平臺:單卡3TFlops->1PFlops
    • 基於容器對GPU運算作調度
    • GPU -> FPGA -> RDMA
    • 移動端:模型壓縮,輕量化

人工智能與機器學習前沿技術論壇

  • 朱軍:半監督深度學習模型
    • 貝葉斯深度學習
    • 基於貝葉斯推斷的深度生成模型
    • 對GAN加中間約束的生成模型
    • ZhuSuan(珠算):機率編程模型,開源可用
  • 演化算法
    • 適用於:解空間不規則,需求很差精確建模的狀況
  • 視頻檢索的哈希學習
    • 圖像檢索
      • 一般的特徵太大,檢索太慢
      • 用二進制編碼的一個哈希值來表達特徵
      • 設計一個損失,約束正負樣本的類似度偏差,用變量絕對值與1的差的一範數等價爲二進制約束
    • 視頻檢索
      • 對兩段視頻分別切割爲幀圖片作圖像檢索的哈希學習

10-28 am

  • 下一個互聯網引爆點
  • 十年後的智能機器人

10-28 pm 多媒體計算

多媒體計算

  • AI2.0
    • 大數據智能
    • 羣體智能
    • 跨媒體智能
    • 混合加強智能
    • 自主無人系統
  • 應用:製造,農業,醫療

朱文武 TMM趨勢

  • TMM介紹
    • IEEE of Transactions on Multimedia
    • 多媒體計算
    • 多媒體社交
    • 多媒體信號處理
    • 多媒體應用和系統
  • 趨勢:
    • 2.5->3.5,CCF A, 長文
    • 一年900篇提交,接受30%-35%
    • 中了以後半年內出
    • 超過60%是機器學習+圖像視頻分析,多模態,跨媒體
  • 跨媒體智能
    • 文本圖像語音視頻及其交互屬性混合
    • 多源融合+知識演化+系統演化
    • 解決語義鴻溝(機器認識世界是什麼)意圖鴻溝(機器理解人要達到什麼目標)
    • 機器學習助力多媒體目前效果好,多媒體知識助力AI不成熟
    • 跨媒體深度分析和綜合推理
      • 淺層到深度
      • 知識圖譜指導多媒體分析,屬性補全,知識表達理解是之後的趨勢,多媒體理解,視頻QA之類
      • 難點:跨媒體知識學習推理,多媒體情感分析
      • 知識離散,特徵連續,如何轉化
      • 知識和數據如何融合
      • 媒體到機器學習近期套路:
        • 深度學習+反饋(知識、規則進行反饋/強化學習)(黑箱)
        • 統計推理,貝葉斯推理(白盒)
      • 數據驅動 && 知識驅動
    • Cross-media analysis and reasoning: advances and ...

圖像與視頻生成的規則約束學習(GAN)

  • 已有工做
    • 人臉姿態轉換,年齡轉換,表情轉換
    • 超分辨率,畫風轉換,字體轉換,圖片轉視頻
    • 應用:
      • 動畫自動製做(補間),手語生成
      • 視頻自動編輯(天氣變化)
  • WGAN,PPGAN
  • 無監督新框架
  • 創意:隨機性
  • 難點
    • 解空間巨大:須要找出解所在的低維子空間
    • 宏觀結構的一致性(視頻生成須要的像素感覺野(pooling)很大,難以預測長期運動變化)
    • 微觀結構的清晰度,要同時逼近多模分佈,避免單模生成的結果不夠精確
  • 用領域中的規則去約束GAN,加入破壞規則的代價
  • 縮小預測空間,保證宏觀結構,加快細節生成
  • 工做介紹:
    • 景深風景生成
      • 難點:要求空間結構合理,不能有嚴重的模糊
      • 約束:從現有風景圖像中對景深關係建模(對區域進行標註, 不一樣區域有不一樣的遠近限制)
      • 創建位置和對象的關係,獲得某個位置有某個對象的機率分佈
      • Hawkes過程模型
      • 根據對象對圖層作分解,由機率約束創建圖層約束
      • 層內DCGAN,層間LSTM聚合出整圖
    • 骨架約束的人體視頻生成
      • 骨架運動有約束
      • 骨架提取很魯棒,能夠獲得不少有標籤知識(傳統方法用來提取知識)
      • 靜圖+動做序列變更圖
      • CNN編碼解碼,孿生網絡雙輸入進行生成
      • 判別器:對生成和實際幀作Triplet loss優化
      • gan loss和視頻類似度loss相加
      • 交互運動視頻生成
  • 創意+規則約束+複雜場景+複雜交互

基於錨圖的視覺數據分析

  • 圖學習
    • 類似度矩陣 -> 圖的鄰接矩陣 -> 用圖的方法對鄰接矩陣進行優化
    • 標號建模 標號平滑 標號學習
  • 錨圖學習(速度+)
    • coarse to fine
    • 利用數據點圖,生成錨點圖,先採一部分有表明性的數據(例如聚類中心)生成一個圖模型,而後推理出其餘圖
    • 圖模型:表示矩陣,鄰接矩陣,如何創建,加快類似度計算
  • 高效錨圖(性能速度+)
    • 數學上優化約束條件
  • 層次化錨圖(速度++)
    • 錨點是線性增長的,也會增長得很快
    • 對第一層採樣的點作再採樣,多層採樣減小了錨點數目,從最少的錨點的層逐層推理
  • 標號預測器(速度+++)
    • 優化對錨點的標號
    • 對最小的錨點層接一個優化器進行標號預測
  • 主動學習(樣本選擇)
    • 減少標號的偏差損失
  • Google Expander Graph Learning平臺:經典方法,並行運算

彭宇新 跨媒體智能

  • 形式上多源異構,語義上相互關聯
  • 聚焦於跨媒體統一空間學習,得到多個媒體間共享的潛在子空間
  • 跨媒體實體關係,跨媒體知識圖譜,跨媒體知識演化和推理
    • 講了好多篇論文的Motivation和Solution,我會具體整理另外一篇文章
  • 跨媒體智能描述與生成
  • 用於信息檢索
  • 應用:內容自動監管,輿情分析,智能醫療

層次記憶網絡:視頻問答 跨媒體推理

  • 視頻轉語言
    • 視頻幀 + 時序依賴 -> 動態動做信息
    • 選擇ROI幀,時序結構編碼(Dual Memory Recurrent Model--LSTM擴充來的),生成句子
  • 層次記憶網絡
    • Image QA: 檢查是否真的理解了圖片
  • 視頻時序推理
相關文章
相關標籤/搜索