备案 控制台
开发者社区 人工智能 文章 正文

如何破解YouTube视频推荐算法

简介:

如果你是某个发行渠道(比如电影、戏剧、电视节目、网络视频)的内容工作者,那么内容的成败就取决于发行机制的运转逻辑。比如说,你制作了一档电视节目,你很想它能火起来,那么你就得知道该在哪里切入广告,怎么宣传节目,上哪个频道播放,所选的频道能被多少家庭收看,等等,诸如此类。

如果你的发行渠道是YouTube,那么你最应该搞清楚的是YouTube的算法是怎么工作的。然而,全天下所有由算法来运营的平台,要搞清楚这一点那不是一般的困难。

YouTube没有把他们算法用到的变量公之于众。要搞清楚其算法的运转原理,即使数据很有限,我们也得对这个大大的黑盒子一探究竟。有些算法倚重的变量,我们是一点数据也拿不到的(比如缩略图,标题印象,用户访问历史,用户行为,会话信息,等),如果能拿到这些数据,那等于就是把YouTube的算法脱光了让我们看,然而呢,呵呵哒,并没有。

看起来我们啥都没有,但还是想尽可能用手上这点数据大致搞清楚其算法逻辑。所以,我的前同事(为什么是“前”同事呢?因为我最近从Frederator离职啦,哇咔咔)Jeremy Rosen花了半年时间分析Frederator自己掌握和运营的频道数据,想搞清楚YouTube的算法。

开始之前,先明确一下:这篇文章内所指的算法包含多个YouTube增长类算法(为你推荐(Recommended),建议观看(Suggest),相关视频(Related),搜索(Search),原始评分(MetaScore),等等)。这些不同的算法产品,各有侧重,但有一个共同点,那就是它们的优化目标相同,都是观看时长(Watch Time)。

观看时长

先要说清楚的,“观看时长”并不是说观看过的分钟数。这个概念我们之前也讨论过[1],观看时长由以下指标构成:

  1. 访问次数
  2. 访问停留
  3. 会话开始
  4. 上传频率
  5. 会话时长
  6. 会话结束

本质上以上每一项都关系着频道以及频道的视频表现好坏,人们是不是经常来访问(开始一次页面访问的会话)以及是不是停留很长时间。

要在算法那里积累下任何变量的取值,你的频道和视频首先得有人来访问你才行。一个视频要成功(成功定义为订阅者中超过一半的人在前30天访问过)需要视频发布的前几分钟、前几小时、前几天内得到大量的访问,我们把这称之为访问速率( View Velocity)

访问以及访问速率

我们分析Frederator的访问速率,发现整个生命周期内累计访问次数与前48小时内订阅用户访问百分比呈指数关系。

48小时内访问的订阅用户百分比与得到的平均访问次数

基于这个观察,我们稍微深挖了一下,发现用这个速率规律去预测一个视频是否会成功,可以做到92%的准确率。其实,还存在一个更直接的相关性:72小时内访问的订阅用户百分比,与视频整个生命周期的累计被访问次数之间。

72小时内访问的订阅用户百分比与整个生命周期内累计的访问次数

这两个图以及相关系数充分说明访问次数和访问速率对视频和频道有着直接而重要的影响。除此之外,我们还有证据证明这个规律反过来也成立。差劲的访问速率不但影响这个视频本身,还影响其上一个和下一个视频。

下图说明如果Frederator上一个视频48小时内访问速率比较糟糕(少于5%的订阅用户访问),那么接下来上传的视频也会受其影响。

访问了下一个视频的订阅用户百分比与访问了前两个视频的订阅用户平均百分比之间的关系

这个数据证实了Matthew Patrick的理论:如果某一个视频点击效果不好,那么你的下一次上传的视频,YouTube就不会给予太多权重让它被你的订阅用户看到。[2]

也可能是因为上一个视频表现糟糕,所以访问你的频道次数就会减少,自然地就导致更少的订阅用户以原生的方式访问到。不管到底“为什么”,结果反正就是酱紫。

另一个负速率对新上传视频的影响就是:有证据表明这还会伤害到你的整个视频库。下面的第一张图是视频上传48小时内就访问的订阅用户7天平均百分比(译者注:这7天上传了若干个视频,纪录每个视频上传后48小时就访问的订阅用户百分比,然后取这些百分比的平均值)与频道总访问次数(译者注:反应了整个视频库的效果)的关系。第二张图是某一天访问视频的总体订阅用户百分比与当日的总体访问次数之间的关系。

七天内的平均“48小时内访问视频的订阅用户百分比” 与 每日整个频道视频访问总数之间的关系

七天平均订阅用户访问人数 与 总体访问访问次数之间的关系

这些图标都说明一件事:一旦新上传视频和整个视频库的访问用户百分比走低,那么频道的总体访问次数也会走低。对于我们来说的启示是:YouTube算法更看重那些能够吸引到核心观众的频道,而惩罚那些不能吸引其核心观众的。

访问停留

另一个算法非常看重的指标就是访问停留(View Duration)。

访问停留就是用户会花多长时间停留在单个视频页面。这个变量的权重很高,我们的数据中能看到一个明显的引爆点。Frederator其中一个频道,前30天内,平均访问时长8分钟的视频,比平均5分钟的要多350%的访问量。下图表明,Frederator的一个频道的视频访问量,与平均访问停留时长的关系。

整个生命周期内,平均访问时长和平均访问量的关系

注意,这里没考虑访问时长在八分钟之上的数据。

我们还发现,访问停留时长越长,视频表现越好。下面这张图是七天内访问停留时长少于5分钟的视频(1),介于五分钟到十分钟的(5), 十分钟以上的(10)分别与访问量的关系。

七天内平均访问量与平均访问停留时长的关系

下面这张图也是一个意思,不过从7天拉长到整个生命周期内了。

整个生命周期内平均访问量与平均访问停留时长的关系

基于这些发现,我们可以得出一个简单的结论:发布长视频可以提高访问效果。Frederator有一个关于儿童乐园的频道,每周会上传三到四个不同长度(3分钟,10分钟,30分钟。70分钟)的视频,我们发现每个视频发布后的48小时内,70分钟视频的访问次数远远超过其他长度的视频,哪怕是重发一些炒剩饭的旧视频。除此之外,70分钟的视频和其他版本的视频有相同的平均访问停留时长。

于是,我们建议公司每周就只上传70分钟长度的视频就好了。就用了这个策略,频道日均访问量增长了50万,而过去6周里我们上传的视频个数却减少了75%。好了好了,我知道你受刺激了,不要崇拜哥。

会话开始,会话时长,会话结束

能做这篇研究,全都得益于我之前的一篇文章:《观看时长是个什么鬼》(WTF is WatchTime?)[1]

快速回顾一下,会话开始(Session Starts)就是指用户有多少次是从你的视频开始访问YouTube的。这其实说明了订阅用户能在前72小时访问你是多么重要。订阅用户是在视频发布后最早能看到的你人,他们也是最可能点击你频道图标的人,因为他们已经熟悉你的品牌了。

会话时长(Session Duration)就是你的内容让用户在YouTube平台上逗留了多久,他们访问你的视频,以及访问之后都算是在平台上逗留。除了用户平均访问时长(Average View Duration )和独立访问数( Unique Views),也没有更好的数据了。

会话结束(Session Ends)衡量用户是不是经常在看完你的视频后就离开了YouTube平台。这是算法利用的一个负面指标,但是我们根本拿不到数据。

一则算法理论

YouTube的算法设计时关注的是频道效果而不是单个视频效果。但是它要利用单个视频来提高频道效果。

算法结合了单个视频的特定数据和频道的聚合数据来决定推荐哪个视频。最终目标仍然是为频道聚拢其目标观众。

YouTube这么做是因为:

1. 让用户常常回访YouTube平台

2. 让用户在平台停留越久越好

下面有三张图表来证明这则理论是成立的。

第一张图是48小时内访问的订阅者比例与7天内总访问量之间的关系。这张图说明,如果开始有大量用户从你的视频开始的平台会话,那么你的视频就会获得很大的访问量。到达一个阈值之后,就会呈指数级增长。

7日内总访问量与48小时内访问的订阅用户百分比

第二个图是频道内日均访问量与5日内访问的订阅用户百分比的关系。

日均访问量与5日内访问的订阅用户百分比的关系

这意味着如果能一直让大量用户从你开始访问YouTube(近5天内平均来看),那么算法就会将用户每日访问向你整个频道视频库倾斜。

最后一幅图是日均访问的订阅用户百分比与5天内访问的订阅用户百分比之间的关系。

日均访问的订阅用户百分比与5日内访问的订阅用户百分比之间的关系

我们相信这一切都表明,频道效果的连贯性与访问量之间存在相关性,访问量又表现在订阅用户访问百分比,YouTube就会因此把流量倾斜给你。

假如说你有一个游戏频道,10万个订阅用户,你每天上传6个视频,每个视频有5%的订阅用户访问。你的每个视频的平均访问订阅用户会稳定在区区5%。这意味你会每天产生30%的订阅用户访问次数(3万/天,60万/月)。现在假设你有1百万订阅用户,那么每日访问次数在30万,每月在600万。

我们认为这一段数学运算是不会骗人的。这意味YouTube在根据一些指标选择一些频道进行推荐,然后只要算法帮这个频道提高访问量。

但,壮士请留步,以上还仅仅是理论上的分析!

一种打分算法

这里我们打算破解YouTube的算法,然后重建一个。用了15个信号量,以及我们估计的权重,来重新构建打分算法。信号量列举如下:

用来开发打分算法的信号量/因素

下面这些图是这些信号量实际产生的效果。

三天的算法平均分与访问量的相关趋势

算法打分与访问量的相关性趋势

下面这张图更详细一些。

三天的算法打分均值与每日访问量

知道你还是很好奇,那下面就揭晓我们模拟出来的各种权重:

各种算法的权重分布模拟

观看时长优化算法的各信号量权重分布模拟

相关推荐及其他算法的各信号量权重分布

然而但是but,我们也没有其他数据了,所以我们也不敢肯定在计算相关性时该用哪种回归方式,也只敢说大多数信号和算法之间很相关,而已。也正因为如此,我们对YouTube算法一直热情不减。

对YouTube算法的看法

根据我们的数据,至少可以得到6个粗浅结论:

1. YouTube用算法决定了我们的视频和频道能得到多少访问量。

2. 成功的频道都是专注在特定类型的内容或创意上。

3. 频道自己一旦明确了哪种类型的内容成功之后,就不要再摇摆了。

4. 内容制作者光靠钱在YouTube平台上绝无可能成功,因此土豪型的制作者不太会全身心拥抱YouTube。

5. 个性化的节目/频道会一直是YouTube上面占统治地位的内容类型,因为这就是人们要找的“特定类型的内容”。

6. 新建的频道,如果不能在YouTube站外导流进去的话,相当长时间内增长都会比较困难。

前面说到,YouTube更注重于提高频道的访问效果,这个观点只是我们推测得到的。频道能够上传很多视频,从而获得和留住大量的目标观众。如果你想在YouTube上成功,我们能给的建议就是:瞄准一个非常垂直的兴趣类型,然后持续去制作10分钟以上的视频,一定得是你选定的这个兴趣类型的视频。


本文作者:佚名

来源:51CTO

知与谁同
目录
相关文章
简简单单做算法
|
1月前
|
机器学习/深度学习 算法 计算机视觉
基于yolov2深度学习网络的视频手部检测算法matlab仿真
基于yolov2深度学习网络的视频手部检测算法matlab仿真
简简单单做算法
85 2
拓端数据部落
|
1月前
|
算法 数据可视化
【视频】Copula算法原理和R语言股市收益率相依性可视化分析-3
【视频】Copula算法原理和R语言股市收益率相依性可视化分析
拓端数据部落
15 0
拓端数据部落
|
1月前
|
算法 数据可视化
【视频】Copula算法原理和R语言股市收益率相依性可视化分析(下)
【视频】Copula算法原理和R语言股市收益率相依性可视化分析
拓端数据部落
22 0
简简单单做算法
|
1月前
|
算法 计算机视觉
基于高斯混合模型的视频背景提取和人员跟踪算法matlab仿真
该内容是关于使用MATLAB2013B实现基于高斯混合模型(GMM)的视频背景提取和人员跟踪算法。算法通过GMM建立背景模型,新帧与模型比较,提取前景并进行人员跟踪。文章附有程序代码示例,展示从读取视频到结果显示的流程。最后,结果保存在Result.mat文件中。
简简单单做算法
25 1
电力程序小学童
|
1月前
|
算法
视频讲解|基于多目标粒子群算法的配电网储能选址定容
视频讲解|基于多目标粒子群算法的配电网储能选址定容
电力程序小学童
14 0
拓端数据部落
|
1月前
|
机器学习/深度学习 算法 数据挖掘
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
拓端数据部落
213 0
拓端数据部落
|
1月前
|
机器学习/深度学习 算法 搜索推荐
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(上)
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例
拓端数据部落
214 0
拓端数据部落
|
1月前
|
编解码 算法 数据可视化
【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现
【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现
拓端数据部落
31 0
拓端数据部落
|
1月前
|
算法 数据可视化
【视频】Copula算法原理和R语言股市收益率相依性可视化分析
【视频】Copula算法原理和R语言股市收益率相依性可视化分析
拓端数据部落
20 0
拓端数据部落
|
1月前
|
机器学习/深度学习 自然语言处理 算法
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享(下)
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享
拓端数据部落
21 0

热门文章

最新文章

  • 1
    什么是优化技术?给算法小白同学的快速讲解和上手文
  • 2
    椭圆曲线密码算法(ECC):数学之美与安全之钥
  • 3
    【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
  • 4
    【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(上)
  • 5
    基于DCT和扩频的音频水印嵌入提取算法matlab仿真
  • 6
    智能解决装箱问题:使用优化算法实现高效包装
  • 7
    分布式(计算机算法)
  • 8
    揭秘深度学习中的优化算法
  • 9
    Rust代码编写高性能屏幕监控软件的核心算法
  • 10
    【Python机器学习专栏】关联规则学习:Apriori算法详解
  • 1
    基于DCT变换的彩色图像双重水印嵌入和提取算法matlab仿真
    41
  • 2
    Matlab决策树、模糊C-均值聚类算法分析高校教师职称学历评分可视化
    17
  • 3
    【Python机器学习专栏】异常检测算法在Python中的实践
    76
  • 4
    圆填充( CIRCLE PACKING)算法圆堆图圆形空间填充算法可视化
    24
  • 5
    【Python机器学习专栏】t-SNE算法在数据可视化中的应用
    95
  • 6
    【Python机器学习专栏】关联规则学习:Apriori算法详解
    125
  • 7
    【Python机器学习专栏】层次聚类算法的原理与应用
    98
  • 8
    【Python 机器学习专栏】K-means 聚类算法在 Python 中的实现
    31
  • 9
    【Python机器学习专栏】集成学习算法的原理与应用
    37
  • 10
    【Python 机器学习专栏】随机森林算法的性能与调优
    48
  • 相关课程

    更多
  • 相册服务中的故事生成算法介绍
  • Go语言核心编程 - 数据结构和算法
  • 神经网络概览及算法详解
  • 【七月在线】机器学习项目班
  • 人机对话技术浅析
  • 相关电子书

    更多
  • 数据+算法定义新世界
  • 袋鼠云基于实时计算的反黄牛算法
  • Alink:基于Apache Flink的算法平台
  • 相关实验场景

    更多
  • 使用Swing算法实现商品推荐
  • TLS1.3的后量子算法集成
  • RSA密码算法设计与实现
  • RSA非对称加密算法
  • 欧拉图的构造性证明与算法实现
  • 一键创建和部署高分电影推荐语音技能
  • 下一篇
    2024年阿里云免费云服务器及学生云服务器申请教程参考

    聚圣源起名赵女名地热十大品牌劳务建造公司起名寄生前夜3金手指明星宝宝起名字孙嘉 男孩起名1962年中印战争三步曲鲁能泰山直播晚会策划路姓起名栀子花开百度云起名郭雨侯氏男孩子起名免费一百分起名免费湖北美院地址nfls嗜宠腹黑悍王妃教育机构起名大全2021最新版的搜索起名专家党支部工作职责及时雨加速器水暖店起名字大全电影起名chua怎么读电子科技企业起名贫困县退出标准指的是什么童男童女起名免费的起名软件有哪些局内人2淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

    聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化