內容來源:2017年7月8日,北京大學計算機科學技術研究所萬小軍博士在「CCF-GAIR 2017 全球人工智能與機器人峯會——AI+專場」進行《機器寫稿技術與應用》演講分享。IT 大咖說(微信id:itdakashuo)做爲獨家視頻合做方,經主辦方和講者審閱受權發佈。
微信
閱讀字數:2685 | 7分鐘閱讀併發
全球人工智能與機器人峯會CCF-GAIR大會上,嘉賓分享了機器寫稿的背景和現狀,對於將來,他認爲機器寫稿不光是在媒體行業,也會跟一些遊戲行業和情報行業合做。不過,他認爲讓機器學會推理和概括,寫出真正的深度報道是最難的,但這也是下一步研究的目標。機器學習
機器寫稿這件事幾年前在國外已經開始了。國外成立了多家知名公司,如ARRIA、AI、NARRATIVESCIENCE等。核心技術爲天然語言生成引擎,主要應用於天氣預報、空氣質量、醫療報告、財經、體育等領域的寫做。AI公司已經爲美聯社等多家單位生成數億篇新聞報道,NARRATIVESCIENCE則持續爲FORBES網生成新聞報道。主要面向的是英文和一些西方語言。學習
隨着人工智能技術的發展,機器寫稿近幾年在國內也逐漸受到關注。有一些媒體單位和學術機構進行合做,推出一些寫稿機器人。還有一些互聯網巨頭,像百度、微軟、騰訊等單位也在本身研發機器寫稿技術。寫稿類型主要側重於體育、財經、民生和娛樂新聞等這些領域。人工智能
咱們認爲機器寫稿有兩種方式,一種是原創,另外一種是二次創做。原創是沒有文字稿件,只有結構化的數據。咱們基於結構化數據去生成新的稿件。例如天氣預報、空氣質量報告、財報、產品說明書等等。3d
二次創做則是基於已有的稿件內容來創做新的稿件。例如新聞綜述、新聞摘要、新聞改寫等等。orm
兩種不一樣的創做方式所依賴的技術也是不同的。一種是天然語言生成技術,一種是自動摘要技術。天然語言生成技術直接從結構化數據或語義表達來生成天然語句,適用於原創。自動摘要技術基於已有文本素材來構建稿件,適用於二次創做。cdn
還有一些其它的相關技術,例如文本信息推薦技術。就是咱們在寫稿件的時候想要引用名人名言、唐詩宋詞,這時它就會作一個推薦,寫到這裏的時候自動插入名句。視頻
還有文本複述技術。因爲涉及到版權問題,若是直接把原始的內容複製過來會有抄襲的嫌疑,因此這時就須要作複述,把一樣的語義經過不一樣的語言去表達出來。對象
不一樣應用單位對於稿件的要求是不同的。傳統的媒體單位對稿件的要求很是嚴格,對錯誤零容忍,必需要人工審覈後再進行發佈。
對於自媒體來講,對內容的要求比較高,但能夠容忍部分質量問題。例如部分語句連貫性很差、有少許錯別字等。
不一樣的質量要求決定了對機器寫稿方法的不一樣選擇。
機器人和記者之間目前應該是一種分工協做的關係。機器人寫稿的速度快,不知疲倦,善於寫簡訊。但機器人只能進行低層次、重複性的勞動。而記者具備高度思惟,能寫深度報道。能夠進行高層次、有創造性的勞動。
記者在寫稿件的時候是可以清楚地知道本身所寫的內容,但機器人在寫稿件的時候雖然他把每個句子都寫了出來,但實際上並不能理解本身所寫的內容。
咱們作了不少基礎研究,包括自動文摘、天然語言生成等技術。另外也作了不少應用技術研究,像新聞資訊自動生成、新聞綜述自動生成以及用戶評論的自動生成。
咱們的寫稿輸入是結構化的數據以及可能有的文字素材。會生成長度可控的稿件,能夠生成幾十字的短訊,也可生成上千字的長篇資訊。另外仍是多領域的,有體育、民生和娛樂。
咱們會從網上抓取一些體育賽事的數據,基於這些數據作數據分析,再作文檔規劃和語句的實現。就可以生成一些簡單的賽事報道。報道很短,在幾十字左右。而爲了讓報道更加生動,咱們對於一樣的消息會有不一樣的語言進行表達。
有一個很重要的素材叫體育的直播文字。每當有著名的梯雲比賽的時候都會有文字直播,經過視頻直播轉成文字。文字直播中一般包含了主持人對比賽精彩細節的描述。經過機器學習手段來把精彩描述挑選出來,最終放到報道中。這個報道就比較長,可以達到上千字以上。
體育直播很常見,涵蓋了全部的重要比賽。它的特色首先就是信息豐富,體育直播文字涵蓋比賽所涉及的任何重要信息。其次是靈活性好,不一樣比賽能構建不一樣風格的新聞。第三點就是實時性好,在比賽任一時間點都能及時構建併發布新聞。
生成新聞報道的過程首先是對直播文字進行語句的排序,再利用機器學習的手段進行語句的智能選擇,最後生成一個平均長度超過1000字的賽事報道。
能夠基於微博生成娛樂新聞。如今明星常常會發微博,一些微博能夠構成咱們的娛樂新聞。因此咱們會有一個機器學習的手段去自動判別明星發的每一條微博是否有可能成爲新聞,有沒有新聞價值。繼而判斷微博下的評論哪一些具備價值,而後把微博和它的評論以及相關的背景信息組合在一塊兒,造成一條娛樂新聞。
新聞綜述自動生成是根據同一事件的多篇新聞報道,自動生成篇幅較長的事件綜述。
由於要構成綜述,因此不是以句子爲單位,而是以一個子話題爲單位。對新聞進行子話題的劃分,獲得其中的一個子話題。每一個子話題對應一個段落,最後對子話題進行重要性的排序。最後對子話題進行選擇而後合併,最後獲得一個完整的事件綜述。這個綜述的長度可達上千個字節。
除了生成事實型的新聞以外,咱們也嘗試去生成用戶的評論。這個主要是以產品評論爲研究的對象,咱們採用的是一個深度學習的模型。
咱們分別與今日頭條、南方都市報、廣州日報合做推出了小明、小南和阿同寫稿機器人。
小明寫稿機器人基於體育賽事數據與賽事直播文字既能寫短訊,又能寫上千字的長篇報道。
小南寫稿機器人爲南方都市報APP寫民生新聞與兩會新聞。
寫稿機器人阿同是與廣州日報合做推出的寫稿機器人,兩會期間進行各種工做報告的熱詞與關鍵數據分析與解讀。
機器寫稿在各行各業的應用將愈來愈普遍,不光是媒體寫新聞會用到,其它行業也會用到。
咱們但願讓稿件具備態度和立場,更有人性化。經過概括和推理,寫出深度報道。
今天的分享就到這裏,謝謝你們!