最近一直在研究三大視頻平臺的機制,了解推薦、審核機制也能更好的做視頻的整體工作。此文將今日研究的一些成果做一些記敘。
抖音:行為預測主導的去中心化推薦
抖音采用深度學習模型+去中心化推薦機制,通過神經網絡預估用戶行為,機器判斷比傳統的用戶標簽更靈活。
抖音的內容分發流程主要分為三個階段:
1. 視頻審核階段
視頻在進入冷啟動前,會進行機器初判階段。此時,就要根據口播文案、視頻字幕文案、畫面等內容進行合規性判斷。通過AI識別文本、圖像、聲音中的違規內容,包括侵權、低俗、違法違規、誘導、虛假宣傳等。然后進入到冷啟動階段,此時會進入到200-500人的流量池。
2. 算法推薦階段
通過多模態特征識別技術,對視頻內容進行深度分析
- 文本特征:通過NLP技術解析標題和字幕中的關鍵詞
- 視覺特征:利用圖像識別技術提取視頻中的畫面元素
- 音頻特征:通過聲紋分析捕捉語音講解中的關鍵詞頻率
平臺根據“打分機制”來評判視頻后續的推薦,完播率、點贊率、評論率、轉發率等用戶行為指標綜合計算。
抖音的推薦算法已幾乎不依賴對內容和用戶打標簽,而是通過神經網絡直接預測用戶行為,計算用戶觀看內容獲得的價值總和。
3. 流量分配機制
多樣性打散:打破 “相似內容連續轟炸”
算法會在推薦列表中主動 “打散” 高度相似的 AIGC 內容。
多興趣召回:挖掘用戶的 “隱藏興趣點”
傳統 “單興趣召回” 僅針對用戶最明顯的興趣(如 “AI 搞笑視頻”),而多興趣召回會通過用戶行為數據(如瀏覽時長、搜索記錄、評論關鍵詞)識別多個興趣標簽。
小紅書:CES評分驅動的標簽匹配系統
小紅書的推薦算法以CES評分(社區參與度評分)為核心
采用”內容標簽+用戶標簽”的雙向匹配機制
CES評分公式為:CES=點贊數(1分)+收藏數(1分)+評論數(4分)+轉發數(4分)+關注數(8分)
內容識別流程:
- 初始流量池:筆記發布后進入500-1000人的初始測試池
- 標簽匹配:通過NLP技術提取標題/正文中的關鍵詞,與用戶興趣標簽匹配
- CES評分評估:系統根據互動數據(評論、關注、收藏、點贊、轉發)計算CES分數,決定是否進入下一級流量池
小紅書內容的“互動率”(點贊、評論、收藏)是突破幼稚內容的關鍵。這三項是推薦優質筆記進入1w~100w流量池差異化的關鍵。
優質內容會按順序進入覆蓋 1 萬、10 萬、100 萬以上用戶的展示范圍,其中用戶的互動表現(如點贊、評論、收藏等行為的綜合占比)是實現層級突破的關鍵因素。
小紅書的召回周期很長,即使發布2-3個月的視頻也會被找回進行流量推送,更注重長尾瀏覽。所以做小紅書一定要注重圖文質量和實際功能性的內容,通過“搜索”還可以推薦到優質內容。
視頻號:私域撬動公域的社交推薦體系
視頻號的推薦算法與抖音、快手等平臺有本質區別,其核心邏輯是”私域流量撬動公域流量”,內容權重在三大平臺中最低,約占50%,社交關系鏈權重較高。
推薦機制:
- 私域流量推薦:用戶點贊和互動后,其微信好友可能看到該內容,通過社交關系鏈形成第一波推薦
- 興趣算法推薦:基于用戶行為標簽與內容特征標簽的匹配,進行個性化推薦
內容審核流程:
- 上傳視頻并解碼
- 機器審核文案、畫面、聲音是否存在違規行為
- 機器無法識別的內容,喚起人工審核
- 若作品已發布且被舉報或流量異常,再次觸發人工審核
違規判定標準:視頻號對直播內容的審核更為嚴格,禁止錄播、低互動行為、虛假演繹等
同時,平臺對內容原創性、畫質清晰度、互動真實性均有要求,私域流量中的”好友互動異常”(如短時間內大量點贊)可能被判定為違規
流量分配特點:視頻號的流量分配更依賴社交關系鏈,初始流量主要來自關注者、好友和社群的自然流量,隨后基于地理位置、興趣標簽等進行基礎推薦
內容得分排序權重為:完播率>點贊數>評論數>點擊擴展鏈接數量>轉發數>收藏數
文本NLP拆詞機制解析
抖音:子詞級分詞與深度語義理解
抖音的文本NLP處理采用子詞級分詞技術,主要基于以下方法:
- 分詞基礎算法:抖音使用前向最大匹配算法進行基礎分詞,同時結合BERT或RoBERTa等預訓練模型進行語義分析。
- 關鍵詞提取:抖音的NLP系統通過多模態特征提取技術,識別視頻中的關鍵信息。文本特征提取主要依靠雙向Transformer架構,能夠同時考慮前后文信息,提高關鍵詞提取的準確性。
- 標簽化過程:抖音的標簽化主要通過神經網絡計算實現,系統會根據內容特征和用戶行為,自動為視頻打上精準的標簽。這種標簽化方式不再依賴傳統的人工打標簽,而是通過算法模型自動完成,更加高效和精準。
小紅書:詞典匹配與長尾詞優化
小紅書的文本NLP處理更注重關鍵詞布局與搜索優化,其分詞機制主要基于以下方法:
- 分詞基礎算法:小紅書主要采用基于詞典的分詞算法,如正向最大匹配、逆向最大匹配等。
- 關鍵詞優化策略:小紅書強調“七三原則”,即日常更新內容時,建議70%是做長尾詞。
- 標簽化技術:小紅書的標簽化主要依靠用戶手動添加標簽和NLP關鍵詞提取相結合的方式。系統會根據打分模型和用戶行為特征數據,實時調整推薦策略。
視頻號:話題標簽與BPE分詞結合
視頻內容檢測,AI會結合文本(字幕、標題、視頻簡介)文本會結合NLP拆詞,例如“上海東方明珠”會拆成“上海”、“東方明珠”兩套詞、圖像(封面),封面的特征例如人臉、衣著等均為檢測目標、音效(背景音樂)、視頻畫面(抽幀檢測)等多模態特征進行合規審查。
生成式AI模型應用:如S-YOLO V5和Vision Transformer模型用于視頻內容描述生成,結合注意力機制(Attention)增強關鍵幀識別,提升文本生成質量。
本文為@窄播原創,運營喵專欄作者