阿里工程師用 8 張圖告訴你如何存儲、管理泛內容數據

csdn 發佈 2020-08-23T21:36:20+00:00

頭圖 | CSDN 下載自東方 IC。用戶在優酷或者其它網際網路App上看到的文字、圖片、視頻等,都可以被稱為內容,那麼這些內容是如何被生產、管理和組織的?

作者| 阿里文娛高級開發工程師 至德

責編 | 王曉曼

頭圖 | CSDN 下載自東方 IC

用戶在優酷或者其它網際網路App上看到的文字、圖片、視頻等,都可以被稱為內容,那麼這些內容是如何被生產、管理和組織的?本文將簡單介紹阿里文娛是如何利用網狀關係組織泛內容,以及如何構建泛內容的網狀關係。

泛內容存儲管理的挑戰

1、數據規模大:在阿里文娛內,泛內容實體類型多,實體數據規模龐大,如何高效存儲和管理;

2、兼顧內容生產和分發: 泛內容數據管理方式,既要提供快捷的內容生產模式,又能在分發鏈路上提效;

3、擴展能力要求: 泛內容實體類型會隨著業務發展而不斷增加,運營的新玩法也層出不窮,泛內容的存儲管理方式,要能夠適應和支撐未來的業務發展,必須要具有很強的業務擴展能力。

什麼是泛內容的網狀關係

標籤是被廣泛應用於內容管理的一種方式,內容生產鏈路上,我們會將內容通過機器學習算法或人工標註的方式打上相關標籤。通過這些標籤,將內容連接並組織成一張網。如圖 1所示,以視頻為例,獨立的視頻通過標籤被連接成了一張網絡。

圖 1 視頻通過標籤連接成網

有了內容的連接關係,內容的組織方式也有了更多樣的玩法,運營同學也擁有了更豐富的運營工具進行內容分發。如圖 2所示,我們可以根據運營需求,將標籤1升級為話題,標籤2升級為榜單。運營便可以將視頻A、B、E組織成為一個話題,將視頻C、D組織成為一個榜單,用於前台運營活動。

圖 2 標籤升級為話題和榜單

如圖 3所示,左圖為沉浸式視頻播放頁,可以通過點擊左下角話題標籤跳轉至右圖的話題詳情頁,詳情頁列表中則通過 Feeds 流形式展現出該話題下所有視頻。

圖 3 優酷內標籤話題引導形式

泛內容網狀關係背後的支撐技術是統一標籤服務,其包括標籤結構及打標結果的定義、基於媒資平台的核心標籤服務、以及面向運營的標籤管理工具和打標工具,下面的篇幅中將依次進行介紹。

標籤結構及打標結果的設計

用戶或運營在為內容打標時,為了提高打標效率,往往會先選擇一個分類標籤,然後再針對這個分類進行打標。傳統設計中,標籤結構往往被描述為一顆樹,只能描述標籤間的父子關係,例如圖 4所示的五層標籤樹。傳統的標籤結構在描述這種場景時,主要有兩個問題:

1. 前三層的標籤是父子關係,但是第四層和第三層之間是屬性關係,兩種關係應區別對待;

2. 第五層和第四層之間是屬性值的關係,也應區別對待。

圖 4 傳統標籤結構設計

統一標籤服務的標籤結構對上述兩種關係進行了抽象,如圖 5所示。

首先,引入了標籤類型的概念,每一個標籤類型是個森林,例如圖中紫色方框標表示的分類、賽事、技巧標籤類型。對於簡單的標籤場景,例如內容標籤、質量標籤等場景,只需要使用標籤類型即可支持場景。

其次,對於複雜場景,引入了子標籤類型和標籤分組的概念,圖中橙色箭頭表示運動分類標籤關聯了賽事和技巧兩個子標籤類型,當一個內容被標記為運動或其子分類時,這些內容都可以繼續打賽事和技巧兩類標籤。圖中綠色方框表示用籃球、足球對賽事和技巧類型的標籤進行了可重疊的分組。

這一套標籤結構表述能力十分強大,支撐了目前泛內容的所有標籤。

圖 5 統一標籤服務的標籤結構

上述標籤結構描述的標籤為枚舉型標籤,除枚舉型外,打標結果中還支持保存開放型標籤和關聯型標籤。其他標籤類型的方案設計暫且不在本文贅述。

核心標籤服務

所有的原始數據,標籤庫和打標結果,都保存在媒資平台,從理論上說,媒資平台已經具備了內容的打標能力。然而這個讀寫能力較為原始,業務方使用起來多有不便,所以需要一個系統對原始能力針對標籤業務進行業務封裝,為業務方提供好用的標籤服務,這就是核心標籤服務,如圖 6所示。

其主要功能包括,對標籤按路徑進行展開,支持按照標籤來源、按照標籤類型、按照操作來源進行打標,提供了打標結果橫豎轉換的能力,同時還具備權限控制和流量控制能力。

為了支持運營和算法不斷地對標籤體系進行疊代,核心標籤服務中還提供標籤體系的 ABTest 能力。

圖 6 核心標籤服務

標籤管理工具和打標工具

標籤管理工具基於媒資內容管理平台搭建,為運營提供標籤體系的查看、審核、新增、修改、下線、刪除、批量導入導出等功能。

由於打標流程中涉及機審、人審不同的打標方式,還涉及質量類標籤、安全類標籤、業務類標籤等多種標籤類型的打標需求,業務上需要使用打標工作流系統實現流程編排,如圖 7舉例所示(僅為流程編排示意,非實際業務流程)。通過打標工作流系統,可以按照業務需求實現複雜的打標流程管理。

圖 7 舉例打標流程(非實際業務流程)

小結和展望

目前,泛內容的網狀關係有效組織和管理了阿里文娛內海量的長短視頻、節目、人物、角色等泛內容實體,在生產和分發側,都便捷的支撐了算法和運營需求,並且不斷的為運營同學擴展提供了話題、榜片單等多種運營工具用於不同的內容分發場景,產生了極大的業務價值。

未來,泛內容的網狀關係也將在數據和算法方面進行深度挖掘,通過算法推動網狀關係演進,並且在算法打標、算法推薦等場景,利用網狀關係提升算法效果,最終更好地服務用戶。

關鍵字: