一方面,半自動駕駛沒有一些常規限制:它們反應迅速,能夠長距離協調操做,最重要的是,營運公司能夠簡單地修改其煞車和加速模式以減小擁塞。可是,半自動駕駛真的可以減輕塞車的狀況嗎?仍是說當半自動汽車和人類駕駛汽車在同一條路上行駛的時候會加重塞車狀況?算法
一位柏克萊大學的研究生、特斯拉自動駕駛組的實習生Eugene Vinitsky透過調查發現,雖然目前只有一小部分車輛是半自動的,但現有研究代表即便很小的出現率(3-4%)也足以開始緩解擁塞。也就是說,鑑於AV(Autonomous Vehicles:自動駕駛汽車)的獨特功能,咱們但願確保其駕駛模式的設計可以最大限度地知足道路要求。AV的正確部署應儘可能減小堵塞,下降總能耗,並最大限度地提升道路的通行能力。可是最佳駕駛策略的研究關鍵問題是沒有造成共識。對於自動駕駛汽車公司來講,沒有一個簡單的指標可讓他們評估並實施其駕駛策略。換句話說,當前半自動駕駛的部署沒有基準,便可以用來比較不一樣研究組和方法進展的標準化問題。若是能有設計合理的基準,就能夠檢查AV的駕駛行爲並快速爲其評分,確保在道路上行駛的都是最佳設計的AV。此外,基準應該促進研究,使研究人員可以輕鬆快速地嘗試新技術和算法,瞭解這些技術和算法是如何解決擁塞問題的。網絡
混合自動駕駛的11個新基準填補研究空白分佈式
爲了填補這一空白,Eugene Vinitsky在CORL上發表的論文提出了集中式混合自動駕駛交通控制中的11個新基準。所謂的集中式混合自動駕駛交通控制是指車輛和交通號誌由一臺計算機控制的交通控制。如下的研究內容是以Eugene Vinitsky第一人稱撰寫的內容:函數
這些基準會做爲Flow工具項目的一部分,這個項目用於在交通仿真器SUMO和AIMSUN中將控制和強化學習(使用RLlib 和rllab做爲強化學習庫)應用於自動駕駛車輛和交通號誌。這些基準中得到高分意味着實際擁塞指針的改進,例如平均行駛速度,道路系統總延遲和道路吞吐量。透過在這些基準上取得的進展,但願能夠回答有關AV應用的基本問題,並給出現實世界中部署可改善擁塞的AV的路線圖。工具
本文前面描述的基準場景包括如下設置:學習
如下Gif展現了在這些基準中發現的緊急行爲案例,頗有趣也頗有意義,圖中顯示了瓶頸的一部分,其中四車道合併爲兩車道,後續的二車道合併一車道並未示出。上半部顯示的人類駕駛的情形。人類所駕駛汽車隨意地由四車道駛入兩車道,因爲車道合併致使瓶頸繼而發展成爲擁塞,下降了整個道路系統的速度。在下方的Gif圖中,在人類駕駛車輛(橙色)中混入了自動駕駛車輛(紅色)。咱們發現自動駕駛車輛透過學習控制其進入合併車道的速度,進而有助於後面的車輛順利切入合併車道。儘管只有十分之一的車輛是自動駕駛的,但道路系統可以保持不擁擠,而且車流量提升了35%。優化
一旦咱們制定好了基準,咱們就要確保研究人員有一組基準值來檢查他們的算法。咱們執行了一個小規模的超參數掃描,而後將找到最佳超參數提供如下RL算法運使用:加強隨機搜尋,近端策略優化,進化策略和信任區域策略優化。下面圖表的第一行表示在訓練時間內使用一組指針獎勵的基準分數。每一個圖對應於一個場景,顯示其算法得到分數與訓練時間的函數關係。若是算法分數偏離這些數值,就能夠當即知道算法是否正確。然而,從對擁塞的影響這一角度來看,真正重要的是最後的圖表,即咱們根據真正影響擁塞的指針對算法進行的評分。這些指標包括:8字形和合並車道的平均行駛速度,交通網中每輛車的平均延遲,以及瓶頸路段每小時車輛的總流出量。中間四列是算法根據這些基準指針的評分,最後一列是徹底人類駕駛的得分。請注意,全部這些基準的AV出現率都相對較低,從最低的7%到最高的25%(即每14輛車中1 輛AV到每4輛車1輛 AV)。徹底人類駕駛一欄中的擁塞指標都嚴重惡化,這代表即便出現率很是低,AV也能夠對擁塞產生驚人的影響。spa
那麼AV到底是如何緩解擁塞的呢?下面的動圖展現了一種可能的機制,它比較了在主幹道匝道入口徹底人類駕駛的情形(上半部)和每十輛車中有一輛是自動駕駛(紅色)而其它九輛是人類駕駛(白色)的情形。在這兩種情形下,人類駕駛員都想盡快衝入主道,而幾乎不關心主道上的車輛。在徹底人類駕駛的狀況下,車輛緊密地跟隨,當匝道上的車衝入主道時,後面的車輛須要急踩剎車,致使「車輛彙集」。然而,在存在AV的狀況下,自動駕駛車輛在接近匝道入口時加速進而拉開了與後面車輛之間的距離。較大的距離會造成緩衝區,所以當匝道上車輛進入主道時,主道上的車只需輕踩剎車就可避讓開。部分信息內容參考:FUN88公益平臺 http://openbsd.org.tw/設計
雖然咱們沒法用數學方法證實,但咱們至關肯定咱們的結果都沒有達到最佳分數。而咱們的論文給出了一些論據,代表咱們只是找到了局部最小值。3d
當前的挑戰:任重而道遠
目前還有一大堆徹底沒有解決的問題。首先,這些基準只是用於徹底集中式的狀況,即全部汽車都由一臺中央計算機控制。任何真正的道路駕駛策略算法均可能必須是分佈式的:咱們可否在不下降效果的狀況下使用分佈式?此外,還有一些公平原則沒有討論。以下面的視頻所示,經過徹底攔住某車道能夠顯着改善瓶頸路段的車輛流出;雖然這種道路駕駛策略是有效的,可是它在獎勵了其餘駕駛員的同時嚴重懲罰被攔截車道上的駕駛員,這不可避免會致使狂暴情緒。
最後,還有一個頗具吸引力的泛化問題。對於每一個獨特的駕駛場景,彷佛很難部署一個統一的駕駛策略; 是否有可能找到一個適用於不一樣類型交通網絡的單一控制策略?咱們的目標是在將來的一系列基準中解決全部這些問題。