Social Information Graph

研究內容解讀

  • 面向多源、異構和跨模態複雜社會信息,研究語義融合、網絡表徵和動態演化的理論框架;
    • 多源:多數據源爬取,
    • 異構:不一樣數據結構,不一樣結構的結構化數據,結構化數據與文本數據
    • 跨模態:模態是指數據的存在形式,好比文本、音頻、圖像、視頻等文件格式。有些數據的存在形式不一樣,但都是描述同一事物或事件的。
    • 網絡表徵: 相比圖片等簡單的網格結構,圖結構是更泛化的數據結構,好比通常的社交網絡、互聯網等,都是由圖這種數據結構表示的,圖的節點表示單個用戶,圖的邊表示用戶之間的互聯關係。針對網絡結構,用向量的數據形式表示網絡結構、節點屬性的機器學習方法就是網絡表徵學習。
    • 動態演化:可以根據不一樣的業務和數據輸入的變化不斷調節知足新的分析需求。
  • 提出面向多維度、多尺度社會信息網絡的風險感知、智能分析和羣體決策的社會計算範式,研究和構建融合全球多語種、跨模態大數據驅動的社會風險機理和分析模型與方法;
    • 社會信息網絡:龐大的社會信息構成的知識網絡
    • 羣體決策:傳統的羣體決策是爲充分發揮集體的智慧,由多人共同參與決策分析並制定決策的總體過程。其中,參與決策的人組成了決策羣體。集體智慧學習主要指根據羣體的行爲、偏好、意見挖掘出新奇的觀點,偏數據挖掘概念。
  • 研究信息網絡的實體及關聯知識聯合提取方法,構建支撐風險評估與智能決策的時序知識圖譜,研究複雜社會網絡圖表徵學習框架,提出領域知識與大數據驅動的超大羣體智能決策方法,支持智能決策的自主評價與推演;
    • 時序知識圖譜:時序圖譜能夠被看做具備多個相互關係的序列;實體間的多個相互關係可能發生在同一時刻;時序鄰居關係之間存在強依賴;多關係狀況下,當前鄰居能夠幫助預測將來(實體之間的)相互關係。
  • 構建面向重大需求的風險預警、智能分析、羣體決策的軟硬件一體化大數據計算平臺。

 

指標分解

  • 20個語種:NLP多語言融合:爭取NLP機器翻譯融合
  • 10W個信息源:分佈式大規模爬蟲平臺:pyspider
  • 千萬級節點、億級邊的知識圖譜
    • 圖數據存儲:
      • 分佈式圖數據庫:技術查詢,好比dgraph
      • 分佈式存儲:存儲簡便,伸縮簡便,能夠直接供分佈式計算框架使用
    • 圖計算:分佈式圖計算框架,好比SparkGraphX
  • 100種社會風險感知與智能決策模型
    • 算法維度
        • 圖表徵學習方法
          1. 網絡嵌入:比淺層圖嵌入或圖自動編碼器,聚焦於學習關係結構的無監督表徵
          • 正則化神經網絡:利用圖強化神經網絡的損失,爲了半監督學習的正則化。
          • 圖神經網絡,旨在學習任意結構下離散拓撲的可微函數。
    • 應用維度
    • 兩個維度的組合
  • 百億條邊的分析決策能力
    • 目前分佈式圖計算框架應該就能Hold
  • 千萬級節點的分鐘級響應能力
    • 在目前分佈式計算框架上算法實現調優
  • 很多於兩個應用方向驗證
    • 疫情
    • 輿情

image.png

  • 阿里雲GraphCompute

image.png

相關文章
相關標籤/搜索