音視頻+如何在不同場景下實現最優用戶體驗

livevideostack 發佈 2020-01-10T02:07:17+00:00

本文來自即構科技資深解決方案架構師 張靖雨在LiveVideoStackCon2019深圳站上的精彩分享,首先她從整體上介紹了即構在保障用戶體驗方面的思路,並通過三個具體的應用場景詳細介紹即構是如何保障不同場景下用戶的最優體驗。

12月13-14日,LiveVideoStackCon音視頻技術大會在深圳舉辦。在解決方案專場,即構科技解決方案架構師張靖雨發表了《不同場景下如何實現最優用戶體驗》的主題演講。本文來自即構科技 資深解決方案架構師 張靖雨在LiveVideoStackCon2019深圳站上的精彩分享,首先她從整體上介紹了即構在保障用戶體驗方面的思路,並通過三個具體的應用場景詳細介紹即構是如何保障不同場景下用戶的最優體驗。

文 / 張靖雨

大家好我叫張靖雨,是即構科技的解決方案架構師。

即構目前已經為200多個國家和地區提供音視頻服務,在全球範圍內有500多個BGP節點覆蓋,包括邊緣節點、中心節點、計算節點、流媒體節點。為眾多行業頭部平台提供技術和服務,海外有UpLive、LiveMe、mico,泛娛樂有花椒、映客、喜馬拉雅,在線教育有好未來、一起作業網、掌門一對一等等。

隨著音視頻的應用越來越廣泛,即構的服務客戶量也越來越大。目前即構平均每天在線音視頻互動時長已經達到了6億多分鐘,在這麼大的使用量下,即構是如何保障用戶的最優體驗?

兩個手段,保障用戶的優質體驗

用戶體驗一定是來自用戶,我們先來聽一聽用戶的聲音:「我看白板跟快進一樣、我看視頻太卡了、我一打開就黑屏了」。

作為技術人員,我們其實很難從這些反饋中找到真正的問題,但通過不斷積累,我們總結出用戶問題一般會分為兩個大類:一類在客戶端,有崩潰、卡頓。另一類在服務端,有延時、丟包、可用性。

確定了問題的大致方向,下面我們來看解決的方法。

實時音視頻最重要的功能就是推流和拉流,以前推拉流大部分用RTMP走CDN,但CDN無法統計推流數據。即構對每一條流都做了實時監控,能真實的看到用戶推/拉流是怎麼樣的?流質量好不好?

實時質量回調

從客戶端進行推拉流的操作開始,我們會每3秒進行一次數據統計,包括推流的幀率、採樣率、碼率,質量,推流端設備IP和型號等等,以回調的形式上報給後台。

加上即構有整個雲端的控制台,可以監測每一條流從一個用戶出發,到另一個用戶截止,它所經歷的全過程,形成全棧監控。

QOS策略

即構的服務是基於全球公有雲資源的融合雲,可以快速平滑擴容,快速切換公有雲的雲商,快速調度不同雲的不同節點。我們通過以下兩點來保證我們的QOS:

  1. 即構目前整個後端500多個BGP的節點之間,會以一定的頻率進行互通測試,互通測試的結果構成了即構調度系統監控平台的數據基礎。
  2. 即構會實時撥測每兩個節點中間的延時質量,採用多中心架構,讓我們的邊緣節點不只覆蓋推流或者拉流一方,而是進行多點調度。

即構現在每天都有超6億分鐘的音視頻使用時長,覆蓋全球200多個國家和地區,這些大量的線上數據就構成了即構的雲端網絡大數據平台。

我們會通過實時的線上數據來判斷每一個地區,每一個用戶,他到底走哪一條線路,哪一個邊緣節點,哪一個中心節點質量最好。

以上介紹了即構如何從整體上保障每一個用戶每一條流,都以就近的、高質量的完成每一次調度。落地到具體場景中,不同場景下用戶體驗的側重點也有所差異。

「音視頻+AI」帶來的體驗優化

實時音視頻+AI的應用場景非常多:

在線教育

今年大熱的AI智能課堂,可以在最大程度降低老師資源成本的情況下,讓學生獲得接近真人老師上課的智能體驗。今年暑假,即構AI課堂解決方案讓在線教育平台的課時量增加了近10倍;

此外,教育平台方還會構建課堂質量監控平台,依靠AI去識別老師上課的時候有沒有涉及到相關的敏感詞,老師的動作是否合乎禮儀,學生是否有打哈欠,有沒有在玩手機?

基建行業

在基建行業,音視頻+AI讓安全檢查更智能。即構有一個海外基站的施工方客戶,客戶需要每一個施工人員上班之前先打開APP,通過視頻的方式去識別他的工裝和安全設備是否合規和完整。如果沒有的話,就緊急呼叫客服進行視頻檢測和提醒。

泛娛樂行業

在泛娛樂行業,針對涉黃、涉政、涉賭、涉毒等違禁內容的檢測已經成為平台規避運營風險不可缺少的手段。

音視頻+AI帶來了更多新場景。在這些場景里,如何打通兩者,為用戶帶來最好的效果呢?

實時語音+AI鑑定

之前,客戶要在實時語音中加入語音識別,需要先找到即構,再找科大訊飛等語音識別的廠商,分別集成兩家的方案,工作量非常大。

基於此,即構做了和AI語音識別的打通方案,我們會先集成AI識別廠商的方案,提供一個實時的用於鑑別的即構拉流器。

這個拉流器部署在AI廠商的後台中,並按照業務方制定的鑑別策略去進行實時語音拉流,將拉下來的流翻譯成文本文字進行識別,識別數據實時回調給即構的後台,即構再把數據關聯好回調給客戶後台。

客戶通過這個方案,只需要集成一個即構的SDK,就可以從後台看到,哪個房間、哪一個主播、在什麼時間段,可能有敏感內容,然後及時的採取措施。

實時視頻+AI鑑定

實時視頻+AI鑑定有兩種方式:第一種是鑑別截圖。第二種是鑑別實時視頻碼流的關鍵幀。

第一種方式比較常見,即構在客戶端進行截圖,然後上傳給AI方的後台識別。

第二種方式,即構同樣會提供一個視頻的拉流器給AI方,然後在AI方的後台實時拉流,即構會負責解碼還原成原始的數據,然後AI方再對視頻碼流裡面的關鍵幀內容進行識別,同樣它的結果會和即構後台的相關數據進行打通,並最終回調給即構的客戶後台。

即構的音視頻+AI方案可以對接任意的AI廠商,不僅保障了用戶體驗,還能根據客戶的真實業務場景,提供性價比最高的方案。

TT語音是國內語音領域的頭部玩家,用戶量非常龐大,此前TT語音進行音視頻鑑別,每一條流轉換成文本進行識別,會產生不菲的第三方的鑑別費用。而通過即構「音視頻+AI識別」解決方案,能夠把TT語音每個房間9個麥位,9個人的語音流合成一條給第三方鑑別,將TT語音的內容鑑定費壓縮到原來的近1/8。

「音視頻+互動白板」帶來的體驗優化

今年是在線教育比較火的一年,而在線教育客戶對音視頻質量非常關注。現場如果有做教育的朋友應該會知道,目前市場上除了即構,幾乎沒有任何一家供應商能夠把白板的傳輸和音視頻的傳輸同步起來。

這裡的難點在於,實時音視頻走流媒體協議,有傳輸延時,但白板走信令通道,信令通道比流媒體通道的延時低。在跨區域跨國的課堂場景中,學生在外上課,經歷基站切換,網絡斷開又恢復了,然後白板內容和老師說的話就完全對不上。

針對弱網/斷網網絡恢復場景,即構將兩個通道打通和對齊,實現音視頻和白板內容的同步。

通道的對齊,大家可能都會想到用時間戳:在實時音視頻裡面打上時間戳,白板信令里也打上時間戳,每次播放的時候把兩個時間戳對齊了才播放。

這是一種方法,但有一個問題:時間戳的粒度選多長?

如果粒度選的太大,在短暫的中斷之後,要等播放到時間戳才能對齊,延時大。如果粒度選的太小,那麼實時傳輸的數據量會增加,甚至時間戳也會丟包。

在這種情況下,即構做了多重策略。

第一,以大粒度去打時間戳。但這個時間戳是以白板或者是文件共享中的動作為節點,比如畫了一個新的圖形,寫了一個新的字,從落筆到抬筆算一個動作,我們會以這種時間節點進度來打時間戳。

第二,白板節點信息與流媒體混編。實時音視頻流媒體傳輸,允許將非媒體信息通過一個虛擬的幀插入媒體流信息中。在實時音視頻的流傳輸過程中,即構通過媒體次要信息的接口,將白板的關鍵節點混編到流信息里。

網絡正常時,通過時間戳對齊進行播放;網絡異常時,通過解析視頻流里的媒體信息和白板的信令對齊。

「音視頻+白板」方案,還有一個大家比較關心的點是錄製和回放。此前,白板和音視頻的回放都是從回放開始的時間做好對齊,然後再播放渲染。

即構可以將白板和音視頻對齊後再回放,那麼不管出現暫停,快進或是網絡突然中斷,白板內容和音視頻內容會始終保持同步的回放播放。

「音視頻+5G」下的體驗優化

即將到來的2020年將是5G大規模應用的一年, 5G大帶寬、低延時、海量互聯的三大特性,將為我們帶來更多的新應用場景和新的訴求。

比如大帶寬下的4K高清課堂;低延時的自動駕駛、遠程手術,多人線上K歌合唱、線上在線樂隊等等場景。

即構將根據5G網絡的特性,從端,網,雲及底層引擎優化多方面,對應調整雲端架構,實現新應用場景的快速落地。

5G下的新場景會帶來更多樣化的客戶端,未來可能會出現雲手機、雲端桌面、雲端電腦。

此外還有伺服器,未來可能把嵌入式Linux的伺服器壓縮在盒子裡,用嵌入式有限的資源設備去傳輸8K/4K高清視頻。一些特殊設備,帶推流的麥克風,帶直接推拉流的攝像頭,以及在醫療行業,還要打通醫療設備、手術操作設備的系統。

即構對每一款新設備都會進行嚴格的測試,目前我們累計測試的客戶端類型已經超過了15000種。

在網這部分,即構堅持:Anytime、Anywhere、Anyresource。即構現在已經覆蓋了500多BGP的節點,但5G下將面臨的一個問題是:以前我們所面對的基站都是宏基站,功率大,覆蓋範圍廣,而5G下是無數的微基站、皮基站,我們的架構要怎麼優化?

  • 首先,網端儘量下沉到邊緣節點

用戶與邊緣節點的距離越長,會造成更多的延時。而下沉邊緣節點就意味著節點數量的增加,節點選型的難度加大,並且下沉邊緣節點後,還要做不一樣的傳輸、調度。

  • 其次,優化每個邊緣節點的算力

4G網絡下一條1080P30幀的高清視頻流,碼率只有5M,一台4核8G的伺服器能夠同時推600條流;但5G下一條4K30幀的視頻流,碼率會達到30M,在5G單條流帶寬資源增長6倍的情況下,我們需要讓每一台四核8G的伺服器還能同時處理200~300條5G的流,才能實現成本與性能的平衡。

在雲端,針對每一個不同的業務形態,我們通過網絡切片和CU轉控分離來保證每一個場景的業務形態,都能獲得最優資源,實現最好的效果。

5G在網絡上帶來最大的一個變化,是進行網絡切片。以4K直播為例,之前的方案中,觀眾觀看直播大部分都會走CDN,而CDN的延時在3~10秒,主播和觀眾打賞互動之間會有明顯的延時。

現在越來越多的直播客戶,希望即構提供的方案能支持4K直播,但不想走實時網絡,因為成本太高,也不想走CDN,因為CDN太慢。

因此,即構推出5G下的中延時方案,它快於CDN傳輸,但又不是實時的效果,它的延時在1秒左右。中延時方案以3-10秒延時的成本,實現1秒延時的效果,在不增加成本的基礎上提供更好的用戶體驗。

除了網絡切片,雲端另一個優化是CU分離,控制面和用戶面完全分離,將邊緣節點下沉,最大化的靠近用戶面。

優化底層引擎

除了端、網、雲的改造,在5G網絡下,我們還要對整個編碼邏輯進行優化。

大家想像一下,當大量流數據已經能夠在50毫秒內進行傳輸,但因為編解碼關鍵幀的間隔,也就是GOP中的I幀間隔還是2秒,會導致什麼情況?

會導致雖然流數據到了,但是2秒的關鍵幀間隔讓播放器無法立刻顯示下一幀畫面,用戶體驗到的還是2秒的延時。

4G網絡下,2秒的關鍵幀間隔是最實時最快效果最好的值,但在5G下,我們可以把關鍵幀間隔調到1.8秒,並且預緩存一個GOP,這個GOP只存儲上一幀的關鍵幀數據。

當流數據到達,我們就能先從緩存的GOP中調取上一個關鍵幀數據,成為首幀。用戶的體驗立刻升級了:一打開就能馬上看到畫面,實現5G下的首幀秒開。

在5G即將到來之際,即構將繼續打磨產品和技術,為用戶提供5G新場景下的更優體驗。

關鍵字: