下降網絡擁塞，追求美好體驗——對話拍樂雲首席科學家章琦

✎ 編 者 按  
複製代碼

成立於2019年，拍樂雲是國內第一家視頻會議背景的實時互動通訊雲服務提供商，匯聚了一大批專一於音頻、視頻、白板、網絡、AI等領域的資深技術專家。在過去兩年間，拍樂雲一直致力於幫助用戶實現高清、穩定、易用、低時延的實時互動。隨着5G和AI技術的發展以及全球疫情的影響，音視頻應用場景日益多變，拍樂雲如何用更好的產品體驗爲用戶提供完善的解決方案？LiveVideoStack近日採訪了拍樂雲首席科學家&合夥人章琦老師，他將從產品、技術挑戰、應對策略以及AI賦能等角度和你們聊聊他對音視頻技術的理解和展望。章琦老師也是LiveVideoStackCon北京站的嘉賓講師，將在會上爲咱們帶來精彩的演講。算法

講師介紹：章琦，拍樂雲首席科學家&合夥人。浙大數學系碩士畢業，20年視頻開發經驗，8年WebEx音視頻引擎架構師工做經驗，OpenH264做者，歷任虹軟、WebEx、網易等公司，精通視頻算法，也精通音視頻工程，主導了多家公司的音視頻引擎架構設計，深刻理解人工智能技術以及其在實時通訊領域的應用，擁有年服務千億級分鐘音視頻通話的經驗。markdown

LiveVideoStack: 章老師，您好，很是高興邀請您接受採訪，您能夠跟你們介紹一下您在拍樂雲所負責的工做嗎？網絡

章琦：我在拍樂雲主要負責音視頻相關的開發工做，包括編碼解碼、音視頻引擎、前沿技術的研究等。除了開發和管理工做，我也會參與到客戶對接中。由於咱們作的是toB企業服務，技術、產品、服務都很重要，因此會很是關注技術支持的對接、用戶的使用反饋。架構

LiveVideoStack: 咱們看到，拍樂雲最近推出了業內首個「線上美術音視頻方案」，這其中有一項視頻矯正技術，您能介紹一下這項技術以及它所用到的算法嗎？ide

章琦：美術線上教學場景下，視頻的內容以畫布居多。若是要完美呈現畫的內容，保證畫的空間比例關係，對拍攝的角度要求很高，須要將攝像頭對準畫布正中心，這在實際操做中其實很難，稍有誤差，做品的空間幾何關係就會變化。爲了下降用戶使用難度，咱們支持用戶能夠隨意拍攝，在拍攝後對視頻進行矯正處理，這其中須要關注攝像頭的拍攝位置和角度，所以須要實時估計採集參數，而後求解幾何變換矩陣，最後對視頻進行處理，同時爲了下降大量運算引入的時延，咱們還進行了GPU優化，使整個操做在1毫秒左右，使用戶的體驗更加流暢。性能

LiveVideoStack: 在互聯網這條高速公路上，最常發生的就是網絡擁塞，所形成的後果就是丟包、延時和抖動，大大下降音視頻的質量，在應對網絡擁塞方面，拍樂雲是如何作的呢？學習

章琦：拍樂雲應對網絡擁塞的主要手段是帶寬預測，動態碼率調整和自適應的FEC、ARQ、PLC等技術，能夠實如今極限場景下依然通話流暢。同時還採用了前向糾錯、丟包重傳和丟包隱藏三大丟包恢復策略來應對擁塞。除了弱網對抗，拍樂雲還自建了Pano Backbone全球實時傳輸加速網絡，解決跨區域、跨國的鏈路問題，下降擁塞發生的機率，保障音視頻的通訊質量。優化

LiveVideoStack: 您以前講過，全部抵抗弱網的手段都須要付出代價，也能夠被認爲是等價交換。這裏的代價指的是什麼?編碼

章琦：這裏的代價指的是抗弱網帶來的其餘性能的受損。舉例來講，傳輸上的丟包是隨機事件，在數據發送的時候沒法得知這個數據是否會在傳輸時被丟。前向糾錯編碼雖然具有抗丟包能力，可是它對於數據包的保護是比較盲目的，客觀上致使傳輸效率下降。從這個角度上來講，判斷系統的抗弱網能力要避免從單一維度出發，須要全面考量。人工智能

LiveVideoStack: 您認爲在將來，AI技術還能給RTC行業帶來哪些大的變化？

章琦：AI技術對整個RTC行業帶來的影響必然是很是深遠的，客觀地說，以深度學習爲表明的AI技術的發展與成熟，對音視頻關鍵技術的突破提供了另外一個有但願的方向。有些使用傳統技術沒法解決的問題，能夠經過與AI技術的融合，大大下降問題解決的難度。不管是RTC行業的核心音視頻編解碼，仍是其餘一些音視頻處理和加強技術，好比如今比較熱的音頻降噪、視頻超分、對象分割識別等，在AI的加持下，都得到了突破。

LiveVideoStack: 您是浙大數學系畢業，是什麼樣的機緣巧合使您踏上了音視頻這條路？

章琦：個人碩士研究方向是數字圖像處理，三年求學期間，受益於個人導師葉懋東老師匪淺，只惋惜當時的想法不夠成熟，在數學這個方向的學習上未能理解葉老師的深意，至今以爲遺憾。讀研期間，我還參與了信電系信息與通訊工程研究所劉濟林和王興國老師的一些研究項目，他們是國內比較早研究視頻編解碼技術的團隊，在技術上，受陳國斌博士師兄影響比較大，能夠說他們幾位都是我踏上音視頻開發這條路的貴人。

LiveVideoStack: 在音視頻領域深耕這麼多年，您能預測一下，下一個音視頻技術發展趨勢在哪裏嗎？

章琦：深度學習、虛擬現實技術、3D視頻等等。深度學習在前面已有回答，這裏再也不贅述。虛擬現實和3D視頻會依賴於相關硬件技術的成熟，我相信這一天不會太遠了。

LiveVideoStack: 我瞭解到您平時很喜歡閱讀，若是讓您分別推薦一本音視頻領域內的技術書，和一本行業外的其餘類型的書，您會推薦哪兩本？

章琦：第一本書我想推薦 Write Great Code Volume 2: Thinking Low-Level, Writing High-Level。這本書的做者是Randall Hyde，他的另外一本久負盛名的做品是The Art of Assembly Language。不推薦The Art of Assembly Language 的緣由是大多數同窗都不會有寫彙編代碼的機會。不過不須要寫彙編代碼，並不表示你不須要掌握相關的知識，對音視頻開發來講，代碼執行的效率是很是重要的指標。不過實際工做中，我發現有至關比例的同窗都不注意代碼執行的效率。可能也是不具有相關的知識和感受. 這本書是彙編語言的你們信手拈來之做，能夠幫助你從彙編的角度來審視高級語言，理解軟件是如何在CPU上運行的，從而寫出高效且漂亮的代碼。

Write Great Code Volume 2: Thinking Low-Level, Writing High-Level

第二本書我想推薦的是《中的精神 – 吳清源自傳》, 在圍棋這個圈子中，吳清源是以昭和棋聖之名享譽於世的大人物。他擊敗了全部日本的一流棋手，將他們的對局棋分降爲先相先或讓先，獨步日本棋壇二十餘年。可是這樣一位高高在上的大人物，他的生活卻至關清貧。與之對照的是他的精神世界很是豐富，舍棋以外，別無他物。金庸說他最佩服的人裏，古人是范蠡，今人是吳清源。這本書就是吳清源精神世界的最好寫照。

《中的精神：吳清源自傳》

LiveVideoStack: 您將參加9月份在北京的LiveVideoStackCon音視頻大會，那麼在會上您會帶來哪些使人期待的內容？

章琦：我會分享拍樂雲視頻編碼器的設計實踐以及針對實時視頻系統應用場景落地的一些優化策略。

你們知道，實時視頻系統對於時延的要求極高，因此視頻編碼器必須知足實時性的要求。現代編碼器在 Rate-distortation 性能的提高上是以複雜度的上升爲代價的，當前應用設備的碎片化很是嚴重、設備的運算能力差別巨大，這些都是新技術落地實時音視頻系統將面臨的挑戰。因此我想分享下咱們在設計實時視頻編碼器時，在平衡複雜度和實時性上的一些考量。

LiveVideoStack: : 好的，謝謝您接受採訪，期待您在2021LiveVideoStackCon北京站的精彩演講！

編輯：Alex

LiveVideoStackCon2021北京站火熱報名中！