時尚電商新賽道:揭祕 FashionAI 技術

雷音是阿里巴巴研究員、淘系技術部 FashionAI 負責人,在淘系技術嘉年華硅谷站,他分享了《時尚電商新賽道— FashionAI 中的技術》 ,旨在揭祕:從面向機器學習的知識重建切入,提出了在 AI 能力的推進下,讓人值得期待的將來。究竟在阿里巴巴研究員眼中,將來是什麼樣的?接下來,咱們一塊兒探祕。算法

一、從推薦技術提及

用戶行爲機器學習

從推薦技術提及,首先是基於用戶行爲的推薦,包括用戶的點擊行爲、瀏覽行爲、購買行爲。推薦技術提高了用戶找商品的效率,也帶來了公司收益的增加。當推薦的效率提升到必定程度的時候,會出現瓶頸,好比說你買了一件上衣以後,還繼續給你推上衣,這個問題這些年一直被詬病。若是是基於用戶行爲的話,會朝着這個問題的改善方向發展。工具

用戶畫像學習

第二個是用戶畫像。不少人在作用戶洞察,描述用戶精準畫像。但我始終對用戶畫像保持懷疑態度,好比說買衣服,你拿的可能都是用戶的行爲數據:瀏覽、點擊、購買。但是,若是你知道用戶膚色的色號、身高、體重、三圍,這個用戶畫像比前者精準多少呢?因此說,所謂的用戶洞察、用戶畫像,今天來看其實仍是很是粗糙的。測試

知識圖譜大數據

第三個咱們還能夠作知識圖譜,來幫助作關聯推薦。好比,買魚竿推薦其餘的漁具,買了車燈給你推其餘的汽車配件。可是到今天爲止,關聯推薦的效果還不夠好,還有不少困難。人工智能

以上是推薦技術一般會考慮的事。那麼咱們用服飾推薦領域來看一下,還有什麼其餘的可能。一個服裝的線下店,咱們對一個導購員的核心考量指標是什麼?是關聯購買。顧客買了一件衣服,這是不計入導購員貢獻的,而導購員經過讓用戶買另外的關聯衣服纔是計入導購員的績效,因此,重要的是關聯購買。關聯購買裏面的重要邏輯是搭配。當咱們把推薦作到具體某一個領域的時候,咱們就有了專屬於這個領域的一些推薦邏輯,這就是在平常裏面在發生的邏輯。spa

二、爲何要作行業知識重建?

接下來,咱們看看怎樣才能作好搭配。大部分用戶搭配很差的緣由是穿搭須要至關多的知識和經驗。衣服的屬性,設計元素是抓手,它的準確率和豐富性必定要足夠,不夠的話作不出可靠的搭配來。設計

知識圖譜的典型狀況就是經過人的經驗或用戶數據把不少的知識點關聯起來。知識圖譜裏知識點的生成更可能是經過常識的方式。好比說我是一我的,個人朋友是誰,我上級是誰。「我」這個知識點是經過常識產生的。3d

還有一類方法叫專家系統,好比說咱們有不少紅人,把他理解成專家,他所沉澱下的專業經驗。每一個領域都會有一些專家,好比醫療系統裏就是醫生,專家系統大概是在知識圖譜興起以前人工智能廣泛採用的方式。

除此以外,還有一層是知識點,是更基礎的部分,若是知識點自己有問題的話,在這上面構建出來的知識關係都會有問題。在這個基礎上去作 AI 算法,效果就不夠好,這多是人工智能難以落地的緣由之一。要有勇氣去從新構建這個知識點體系。

引用一個淘寶的例子,下圖的上半部分是咱們運營或者設計師的知識體系,這是個「領型」的例子,有圓領、斜領、海軍領,能夠看出結構是平鋪的、散亂的。之前知識是在人和人之間傳播的。尤爲是在小的圈子裏,像設計師羣體,知識可能很是含混,只要能溝通就行。再好比醫生寫的草書,醫生之間能夠看的懂,可是病人都看不懂。不少知識用於人和人的溝通,有大量的二義性,不完備性。好比說服裝風格,一個標籤叫作「職場風」,另外一個叫「中性風」。職場風跟中性風從視覺上沒法區分,若是人類視覺都難以區分,而機器識別準確率超過80%,那確定哪裏出錯了。

還有一類,打標籤的人可能自己理解就有問題。舉個極端的例子,曾經有一段時間,淘寶商家給衣服打標籤,有一半的女裝上都被商家打上了韓版的標籤。然而,它根本不是韓版,只是由於韓版賣的好,這說明商家打的標籤不是徹底正確,有必要經過圖像直接得出判斷。

三、面向機器學習的知識重建

前幾年咱們找了淘寶、天貓的服飾運營,綜合了幾版的運營知識作了規整,不過仍是不夠好。去年咱們作 FashionAI 大賽,和港理工的服裝系合做,後來和北京服裝學院、浙理工都有合做。其實直接由服飾專家們給出的知識體系是不行的,由於咱們須要的是一個面向機器學習的知識體系,機器是要分0和1,完備性、二義性問題、視覺不可分等這幾個咱們總結出來的原則,這些都要儘可能知足。

咱們把曾經散落的知識,按照劃分邏輯去組織,好比說領部,咱們會根據它布料去分、設計手法去分、頸線邊緣去分,從幾個維度總結散落的知識點。原先是人心渙散,最終會看到樹狀知識。咱們把經常使用的女裝屬性整理出來,一共有206種,這還不包括「流行的設計手法」這種開放性的,不斷擴充變化的屬性。這個「整理」比你們想象的複雜得多,花了3到4年時間,除了考慮知識自己,還要進一步考察知識點所對應的數據收集難度,必要性。好比說女裝的西裝領還能夠再細分9種,接近視覺不可分,這時停留在女裝西裝領這個粒度就夠了,就再也不作細分。

有時很難事先判斷一個屬性是否能學出好的模型來,這時屬性的定義還要作多輪的迭代。我發現個人屬性定義有問題,我倒回去從新定義,而後再從新收集數據、訓練模型,直到模型能夠達到要求。等作完知識重建,曾經十幾個屬性識別準確率廣泛提升了20%,這個提高是很是大的。

咱們如今有206種女裝樣式,有166種語義顏色,還有材質、場景、溫度等知識體系。怎麼定義顏色?在時尚行業裏,黃色幾乎是沒有意義的,講「檸檬黃」是有意義的,去年女裝就流行檸檬黃。咱們知道RGB顏色256256256,在潘通色表裏跟服飾相關的一共有2310種顏色,但這個色表裏都是色號,消費者無法理解,咱們在上面再建了一層560種有語義對應的顏色,這是跟北京服裝學院一塊兒定的,用來作按顏色給衣服聚類又顯得過細,就又再建一個166種的,就是你們看到相似於「檸檬黃」、「芥末綠」這種語義顏色,到這個階段消費者才能理解。

還有不少的技術細節,好比說怎麼處理光照問題、色差問題等等,也有不少的難的地方,在這裏我會主要講面向機器學習的知識重建。

四、AI 使知識重建的大工程變得可行

接下來問題就來了,我有206種女裝樣式,收集數據訓練模型的話,怎樣才能作得完呢,更況且一個定義還可能要多輪迭代修正?

好比,下圖中的袖子款式叫風鈴袖,一個合格的數據集大概須要3000到4000張圖片。收集足夠多的,高質量的圖片是一個很大的挑戰,在2016年爲了作一個3000到4000張圖片的高質量數據集,大概須要標註超過十萬張圖片,當時的標註留存率只有1.5%。當時的方法就相似學術界作的,先用一個詞去搜回不少圖,而後找人標註。更多是始終找不到足夠多的圖片旁邊寫着風鈴袖,它都沒有標註,因此你是搜不到的。所以,知識重建確實是一個巨大的挑戰。之前根本沒有人有勇氣去作,由於你根本作不了。

2016年咱們完成一項屬性識別要200天,這個時間包括了定義迭代花的時間。2017年咱們用40天,2018年咱們用2.5天,如今,咱們大概用15個小時,到2019年末,咱們計劃是縮減到0.5天。這是一個巨大的改變,咱們提出「少樣本學習」。大概是在三年前,當時學術界還沒不少人提這個問題,可是咱們已經看到了,由於咱們痛苦的就是這個,不得不開始上手解決它了。

學術界提到「few-short learing」、小數據學習,更可能是偏重如何從少許樣本直接獲得一個好的模型,咱們選的路不大同樣,咱們是從旁邊繞路。

今天,咱們把經常使用的96種女裝屬性完成了,就是利用咱們的少樣本學習工具SECT(Small、Enough、Comprehensive),從「少」到「足夠多」到「足夠好」,最重要的是 SECT 不只在 FashionAI 業務裏發生了做用,它還能夠作泛內容識別,講得嚴謹一點,在「簡單內容分類」這類任務上表現得不錯。

在泛內容識別上,咱們利用 SECT 系統已經完成70多個標籤識別,例如:「插畫、陽臺、上腳」等標籤,咱們已經開始改變業務人員和算法人員的工做模式,你們知道在深度學習出來以前,那時候咱們的業務人員都不大敢提讓算法人員給出個識別模型,由於開發週期太長了,爲了去識別一個東西我要找算法人員跟他商量,而後算法人員手工去設計特徵。爲了作一個可以上線的、工業界能用的一個模型,最少花上半年、一年的時間,這是之前的模式。2013年深度學習開始流行以後,這個問題發生了轉化。算法人員會說今天有了深度學習,業務人員你收集足夠多圖片就好了,我給你設計個好模型出來。若是這個模型很差的話,那是你收集的數據質量不行。這時候運營想去收集5000張圖片,發現仍是成本很高。

咱們今天還很難用 SECT 去解決機器視覺中的「檢測」問題,或者說檢測任務在咱們的理解裏不是一個「少樣本」的問題,在檢測任務下應該叫作「弱監督」問題,弱監督跟少樣本也有所不一樣。

五、對將來的展望

我理解大數據應該分兩種,一種是說,你的商業洞察也好,模式分析也好,只有在大規模的數據上才能完成,這是真的大數據;還有一種是說今天的機器學習能力不行,必須有那麼多的數據才能出來一個模型,這個叫作僞大數據,由於隨着 AI 的能力愈來愈強,須要的樣本確定愈來愈少。

之前有公司標榜本身有特別多的數據,好比說人臉數據或什麼的,把數據當作了資產。這個說法必定會慢慢落下去,由於 AI 能力愈來愈強,咱們須要的數據量愈來愈少。SECT 再演變下去,會到什麼程度?可能中層的跟淺層的算法人員再也不須要了,業務人員直接上去提供十幾張圖(不會超過50張圖)交給系統,很快模型就會返回來,你再測試一下是否好用,若是不行,就再迭代學習,直到模型好用爲止。它已經不是之前的,標註階段、訓練階段、測試階段,間隔得那麼遠。今天,整個迭代愈來愈快,若是說迭代能夠減小到小時級、分鐘級的話,這實際上已經變成了一我的機交互的學習系統,這是將來會帶來巨大改變的東西。

淘寶內容平臺的運營人員說,過去兩個月產出了比以前三年還多的模型。咱們本身組的算法同窗本身也用來解決屬性識別以外的各種問題,好比說我來硅谷以前,組裏同窗想識別照片裏的人是正身仍是背身的,是站姿仍是坐姿,是一個深色人種仍是一個黃皮膚等等,咱們須要在很短的時間裏出6個判別模型。今天,咱們能夠一兩週內讓模型上線,準確率、召回率、泛化能力全都能達到要求。放在之前,這個事情沒有一年半載是不可能的。

業界裏有不少人總結深度學習的侷限,好比須要大數據、缺少可解釋性,我以爲在將來幾年,咱們對於什麼叫「樣本」、什麼叫「可解釋性」,會有一個新的理解。咱們去年在朱鬆純老師主編的《視覺探索》上發了一篇文章,叫《如何作一個實用的圖像數據集》,今年咱們有計劃寫個續篇,就是《如何作一個實用的圖像數據集(二)》,會重點聊一聊咱們在少樣本學習上的體會和展望。


原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索