11月24日,由即構科技主辦的2020GET大會教育科技分論壇在北京成功召開,來自叮咚課堂、小冰、360OS、蕃茄田藝術、即構科技的6位資深教育/科技大咖,在論壇上進行深度分享。算法
如下爲360OSAI影像事業部總經理張焰帶來的主題爲《AI視覺在教育中的應用》的演講,咱們整理了分享的核心內容,錯過活動的小夥伴能夠繼續回看學習。架構
掃描下方二維碼,可下載演講PPT資料工具
二維碼地址:https://www.wjx.top/jq/99621641.aspx學習
張焰認爲:雲計算
360AI視覺針對在線教育痛點開發了4大場景解決方案,包括代替督學、量化檢測、智能互動以及智能工具。他相信科技改變將來,AI能夠爲教育行業起到降本增效的做用。spa
如下爲張焰演講實錄:視頻
首先介紹一下咱們團隊,咱們是360集團旗下孵化的創新業務線,專一作AI視覺算法的研發和應用。圍繞「人、物、場景」三個維度,爲智能手機、泛文娛、在線教育、IOT等行業提供專業的算法支持和解決方案。對象
從國家層面上來說,教育是科技興邦的根本;對家庭而言,教育也是家庭的但願;從情懷而言,教育多是最大的公益,這也是咱們作在線教育的初衷。blog
受疫情影響,不少線下傳統教培機構,如今可能被迫或加速轉到了線上。這其實就是數字化的進程,可是進程來得太快,不少公司還沒適應過來,因此這個過程也暴露了不少問題,如下四個痛點尤其明顯:進程
一、學生自覺性差。尤爲是K12教育,這是典型的督導式教學。之前線下督導的壓力都在老師身上,搬到線上以後,督導的壓力都轉移到家長身上了。
二、效果難以評估。到目前爲止,尚未一套成熟的量化指標來評估課堂上的好與壞,家長對線上教學的效果仍然存疑。
三、課堂互動性差。你面對的互動對象是一個冰冷的屏幕,而不是一個和善可親的老師,因此在互動方面會存在不少問題。
四、教學效率較低。傳統線上課難以還原線下場景,包括場地設備的限制,給老師和機構增長了很多成本。
其實我不算是教育工做者,只是科技從業者,我堅信科技是能夠改變將來的,咱們想作將來的教育。那麼科技與教育的結合可以碰撞出什麼樣的火花?咱們提出了幾個解決方案:
線上督學的責任由老師轉變給家長,咱們但願用機器來替代老師跟家長進行督學,這裏涉及到兩個層面:疲勞提醒和姿態糾正。
疲勞提醒
不少教育檯燈、教育平板類的產品也有疲勞提醒功能,主要監測「打哈欠、瞌睡」這兩個行爲,咱們增長了趴着的場景。趴着的場景難度更大,緣由是雖然全身的骨骼關節點比較好檢測,但針對半身,可能只看到頭髮或上半身的一小部分,這種人體關節點幾乎是檢測不到或者是不許的。爲此咱們作了不少的嘗試和研究,解決了這個問題。
姿態糾正
姿態糾正也分爲兩類:坐姿不良和距離太近。坐姿不良有不少維度,好比趴着、臥倒、傾斜,這些狀況均可以檢測出來。距離太近,有兩套方案。第一套是基於2D人臉檢測技術來作的,這個技術的精度可能比較有限,大概是到釐米級別。咱們跟其餘的硬件廠商作的升級方案,能夠精確到毫米級別的距離探測。
咱們的學生姿態實時檢測系統的實現方案,整體分爲兩個維度:人臉姿態檢測和人體姿態。人臉姿態包括打哈欠、瞌睡等,人體姿態檢測加入了3D深度信息,這樣能獲取到深度信息,用深度信息來輔助作人體的立體姿態識別,能夠大幅的提升精度。
課堂專一度與課堂接受度是家長比較看重的兩個維度,尤爲是線下轉線上以後。學生有沒有走神,有沒有認真聽講,上課的效果好很差,這些是家長很是關心的指標。
課堂專一度
普通專一度檢測有幾個維度,像舉手、低頭、瞌睡、玩手機,缺陷是僅有2D圖像信息,檢測準確率欠佳。另外是檢測指標單一,無法精準回溯學情。
而咱們作的課堂專一度,包括了3D深度檢測和學情回溯系統。能夠看到咱們加入了人體Depth信息,基於這個信息能夠比較精準的估計到人體的每一個姿態,而後再加入事件的觸發機制,最後獲得監測結果。包括事件狀態的上報,時間戳,以及當前時間戳發生的事件截圖等,便於課後對教學狀況進行回溯分析。
課堂接受度
關於課堂接受度,到目前爲止,尚未哪家公司真正把它作到產品裏。咱們獨創的課堂接受度,包含了正向和負向維度。正向的維度有舉手、微笑、點頭,表明課堂接受度是比較好的。負向的維度有疑惑、皺眉、搖頭,這些表明課堂接受度較差。
針對疑惑這個表情的處理,咱們也下了不少功夫。從學術界來看,人類常見的表情只有7種,並不包括疑惑這個表情,也沒有相關的數據。但這個表情對教學場景頗有意義,因此咱們在這方面作了大量的數據補充,增長了疑惑的數據和標註,最後經過遷移學習的方式,再結合人體關鍵點進行輔助識別,獲得了最終的8類表情識別。
咱們的課質監測方案採用了典型的「邊緣計算+雲計算」結合的架構,如今邊緣端算力已經愈來愈強了,不少算法能夠直接拷在邊緣設備端以及APP上。採用這種架構還出於隱私的考慮,你們擔憂把學生端的攝像頭打開以後,檢測學生的行爲可能會觸犯我的隱私或者出現非法上傳數據。所以咱們儘可能把端的能力發揮出來,上傳的只是用AI算法檢測以後的狀態,而不是客戶隱私的數據。
網課助手對老師而言,能夠獲得整個班級的課堂表現報告,是很是有價值的。對家長而言,能夠生成本地的報告,獲得學生在每一個維度的表現狀況,並針對每個維度的時間戳進行回溯分析。
AI沉浸式課件
傳統的錄播課爲了得到較好的效果,可能須要用專業的錄播間,後面搭建綠幕,還有補光燈等一系列的設備。這裏有一個明顯的缺點是對場地的要求太高,後期的製做成本也比較高。
而傳統的直播課,能夠看到課件跟老師的頭像畫面是分屏展現的,老師跟學生之間的互動頗有限,這對幼兒教育的體驗是很是不友好的。
咱們的AI沉浸式課件,作了很是精準的人像分割,能夠把課件放在人像後面展現,同時人跟課件之間能夠進行互動,好比課件播放、暫停、上一頁、下一頁這些簡單的操控,以及老師跟課件內容的互動。這個技術也能夠用來作課件的生產工具,不須要錄播間的場地和設備,自動完成課件製做。
網課互動
說到網課互動,咱們知道傳統的線上互動都是老師單向輸出爲主,老師很難兼顧到每一個學生的狀態。由於學生在屏幕當中只是很是小的頭像,學生髮生什麼情況,老師是不知道的。
咱們研發了一系列智能互動工具,能夠經過AI手段實現多向多元的互動。好比手勢識別,若是這個學生回答問題以後,老師以爲很棒,能夠點一個贊觸發點讚的特效。表情識別,若是系統檢測到學生疑惑了,能夠把他的頭像Highlight出來,引發老師的注意;還有像人臉特效是比較常見的,如今有不少幼兒教育都會用它來增長互動的趣味性。
咱們在這部分作了不少的投入跟創新,由於這些跟硬件結合比較緊密,也是咱們的強項。
拍照搜題
不少的學習APP裏可能都有拍照搜題的功能,拍照以後用OCR技術識別。不少學生可能用教育平板拍照,但學生手比較小,教育平板又很大,按快門鍵的時候常常會手抖,而如今的教育平板和手機都沒有光學防抖的加持,致使拍出來的效果不清晰。
咱們出了HD Shot解決方案,能夠解決各類場景下失焦、抖動、噪點、暗光等一系列拍照模糊的問題。這個功能在科大訊飛的錄音筆上已經上線了,如今的錄音筆很智能,除了有錄音功能,還能夠拍會議的文檔和PPT。
以下圖所示,左邊是處理前的效果,右邊是處理以後的。這個功能能夠提高動態範圍,對高光進行抑制,對暗部進行提亮。
畫質能力升級
視頻畫質提高的技術,對老師端或者主播端很是有價值。專業的主播,設備很是齊全,能夠把手機架到補光燈上,讓本身的臉更精緻透亮。可是長期使用補光燈對眼睛的傷害仍是比較大的,因此咱們作了純AI軟件補光燈方案。一套是全局的補光方案,還有一套是專門針對人臉的補光方案。針對人臉的補光方案,會對人臉的膚色進行精準的識別,利用3D打光技術把人臉變得更加透亮。
人臉考勤
Face ID技術,在智慧校園也已經開始應用了,這個技術的核心難點在於誤識率、拒識率指標以及活體檢測。它能夠用在線上跟線下的大班課程,好比考勤點名,防止別人代答到這種狀況。
最後用金字塔結構總結一下咱們的業務架構,最底層是核心的基礎技術,第二層是基於場景化的解決方案,須要深刻了解行業的特色以及場景化的需求,頂層則是咱們基於各個平臺適配的SDK產品,咱們能夠基於基礎技術作不少業務層的封裝和開發。
我一直相信科技改變將來,AI能夠爲在線教育行業起到降本增效的做用。AI教育,將來可期。謝謝你們!