Kfir Matza:以色列的動做識別技術世界領先

非商業轉載請註明做譯者、出處,並保留本文的原始連接:http://www.ituring.com.cn/article/127734程序員

圖片描述

Kfir MatzaOnysus公司的CTO,Onysus是一家專業於計算機視覺技術的初創公司,該公司已經入選GEM(全球創業周)2014年的總決賽。Kfir於上世紀90年代加入以色列國防部,時任精英科技部隊的高級工程師,退役以後任職於ECI電信。他創建過兩家成功的公司,並參與建立了不少公司,其中包括BCC,這是一家從事高風險支付的網絡安全公司,他曾任研發總監。算法

問:微軟在骨骼識別技術上投資巨大,並且他們也擁有海量的樣本庫。你如何收集到足夠的樣本數據來和像微軟那樣的大公司競爭?編程

微軟爲遊戲開發者開發工具,而咱們定位在一個很是不一樣的市場,咱們提供不須要編程的解決方案。另一個很大的不一樣在於Onysus須要的是3D攝像機,而不只僅是微軟的Kinect。今天的市場上提供了大量的不一樣種類的攝像機,這樣巨大的分歧帶來了不少的兼容性問題,每臺攝像機都會提供不一樣的深度數據。並且這些攝像機的使用範圍不同,有一些很長,能夠捕捉整個身體,有一些很短,只可以用作捕捉手勢。咱們把不一樣的輸入變成統一的界面,並對不一樣設備提供統一的輸出。安全

問:相對於大公司,大家的競爭優點在哪裏?微信

相比於競爭,咱們的關係更傾向於合做。咱們的成功很大程度上要依賴於大公司把深度傳感器成功地推向大衆。大公司花費大量的資源把動做傳感器整合到設備上,可是若是沒有內容,全部這些硬件都毫無用處,就像一個沒有app的智能電話。網絡

而廠商們也明白這一點,這就是咱們能和因特爾和三星創建戰略合做夥伴關係的緣由,咱們期待更多的科技公司加入咱們。由於他們對於讓內容製造者「入夥」都有強烈的需求。app

問:把單獨攝像機做爲輸入設備曾幾什麼時候被看作是效率很低的方法,可是如今不少公司都在嘗試基於軟件的動做識別技術。你認爲這會是將來的趨勢嗎?這種技術的將來發展過程當中還有什麼阻礙?工具

說得很對,市場上有不少公司提供了成功的單攝像機解決方案,好比XTR3d,Point grab,Eyesight等等。學習

這些解決方案很棒,它們能夠給開發者們提供支持大多數設備的能力,而不須要加入額外的硬件設備或者考慮廠商的價格問題——不須要增長硬件設備,他們就能夠用軟件搞定問題。可是,這些網絡攝像機的問題在於它們缺乏可以捕捉細小動做的準確度,這些設備僅僅依賴於RGB數據,在沒有照明的狀況下數據就變得毫無心義。因此真正起決定做用的是交互方式,並非全部的解決方案都符合開發者的需求。開發工具

我認爲在將來會出現一個融合的解決方案,便宜的低端設備會依賴於軟件,可是較貴的設備會加入3D攝像機。已經有愈來愈多的廠商把3D攝像機加入到設備上。好比和咱們有戰略合做關係的因特爾,已經宣佈在2015年第一季度會和原始設備製造商(宏碁,華碩,戴爾,富士通,惠普,聯想,NEC)一塊兒實現攜帶深度攝像機的平板、筆記本電腦,以及多功能產品。

問:大家用來解釋動做和麪部表情的算法是什麼?

由於咱們支持的攝像機種類繁多,並且每種都提供了不一樣的輸入數據,因此咱們不得不爲每一個動做提供多種方式和算法。舉個例子,豎大拇指這個動做能夠用深度攝像機輕易地識別出來,利用的是深度數據來找到手的關節點,而後根據位置排放來判斷手勢。可是運用網絡攝像機來尋找關節,對於CPU來講要求就很高,甚至對於豎大拇指這樣的動做來講也很複雜。在這樣的狀況下,咱們會同時使用多重算法來尋找熟悉的突狀物體,膚色,集中特色,等等。

問:你之前的經歷(在以色列國防部的工做)對你在動做識別科技的研究上有什麼幫助?

個人大部分知識都是在軍隊裏造成的。我在18歲的時候被招募到精英技術部隊。在軍隊裏你能夠從經驗中學習;當你有個任務不知道如何完成的時候,你須要快速學習,不然就會被遣散。很幸運地是,個人戰友都是知識極豐富的人,並且不吝於分享他們的知識,這是一次很棒的經歷。我沒法告訴你具體的項目,由於這些是保密的信息,可是我能夠告訴你的是,世界層次上計算機視覺領域中不少創新都是來自IDF(以色列國防部)。今天,計算機視覺和手勢識別領域的很大一部分公司都是以色列的。正是以色列公司Primesense的先鋒研究帶來了微軟的Kinect,隨後技術又賣給了蘋果。Kinect 2的技術基於飛行時間技術,而這項技術是從以色列開發者3DV System ZCam那裏來的。Google項目Tango是由以色列公司Mantis Vision的MV4D技術支持的。Pebbles互動與小米和Scandisk都有戰略合做夥伴關係。甚至因特爾的Real Sense大部分都是由以色列開發的,由於他們收購了兩家以色列相關領域的公司,Omek互動和Invision生物統計公司。更不用說今天流行的2D解決方案几乎都是來自以色列的(XTR3d, Point grab, Eyesight)。

問:Onysus的團隊成分非常混搭,大家的員工有着不一樣的國籍,技術以及專業。這是公司創立時的本意嗎?這樣的一家「混搭」公司有着什麼樣的優點?

咱們強烈地相信異花授粉會帶來好處,最最創新的解決方案一般都是來自混搭的專業和想法。不一樣背景的人思考方式不一樣,兩個看似相反的意見相結合會帶來更加廣闊更加豐富的觀點。有件事在我身上發生了不止一次,一個創意部的同事找到我,說出一個看似離譜的點子,就當我快把這個想法忘掉的時候,我突然意識到這是個多麼天才的解決方案。計算機視覺,正如這個名字所暗示的,這是一門很是視覺的技術,有視覺空間智慧的設計師與程序員截然相反,咱們擁有的更多的是邏輯數學上的智慧,當你把兩種算法相結合,創新就開始了。咱們的使用者就是設計師,這件事讓一切都更簡單了,咱們的目標是共贏。

問:你將在Top100全球軟件案例研究峯會上分享的關於3D空間交互的主題頗有趣,其中提到了長期使用動做識別帶來的諸多問題,業界稱其爲「猩猩手」,那麼你是如何設計基於手勢的交互的?

確實「猩猩手」是基於動做的交互方式的大問題,由於長時間使用動做來交互對用戶來講既痛苦又不舒服。並非全部的應用都會從動做識別上得到好處,其結果多是很是有害的,可是在某些領域基於動做的交互方式能夠極大地提升體驗。舉個例子,若是當你滿手油漬還想瀏覽烹飪書的時候,基於動做的交互多是很理想的,可是當你想寫下食譜的時候,真的沒有必要從傳統鍵盤上脫離開來,這種狀況下,動做識別的經歷對於使用者來講是很是痛苦的。根據經驗法則,若是你感受用原有的方法作起來更順手那麼你如今就是作錯了。動做識別並非爲了要取代咱們所知道的輸入方式,而是要爲開發者們一直在發展的工具箱中加入另一個維度。

問:對於「無需觸碰」的應用來講,須要使用什麼樣的設計方法?

若是要構建基於手勢的應用,你須要考慮的第一件事就是你須要用什麼樣的攝像機。若是你想要構建須要全身識別的應用,就須要長距離深度攝像機,而手勢識別須要短距深度攝像機,而面部識別可能只須要普通攝像機就能夠了。另一件須要注意的事就是不一樣人會用不一樣的方式來完成一個動做,甚至簡單的打個招呼均可以有不少方式,電腦也會解讀出不一樣的結果。

問:如何在不出現故障點的狀況下測試故障點?

監測故障點對於基於動做的交互來講很具備挑戰性,由於並無現成的具體工具能夠用來分析和測試這樣的媒介。好比熱圖能夠用來測試應用和網站的用戶界面,由於這種方法能夠顯示用戶活動而且根據鼠標或觸碰位置來判斷大衆的興趣。可是遇到基於動做的交互的時候,整個身體都是輸入數據,因此熱圖技術就用不上了。對於咱們本身的設備來講,咱們須要開發一種能夠提供具體交互相關數據的分析工具。要作到這點第一步就是要跟蹤和記錄使用者的骨骼,而後用這個數據找到故障的模式,一旦咱們知道什麼出了問題,修理起來就變得簡單了。


更多精彩,加入圖靈訪談微信!

圖片描述

相關文章
相關標籤/搜索