购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

来自视频网站的推荐

在你打开网飞(Netflix)浏览新的电影和电视剧时,每部影视剧旁边都标有一个绿色的百分比数字,告诉你它和你平时看的东西有多契合。有时候这种推荐错得离谱,网飞认为你应该觉得这部电影很精彩,结果你却大失所望。但要是换个思路,不要忽略这些百分比数字,它们应该能相当准确地反映你的喜好。这些推荐完全是自动生成的,你之后看的其他类型节目较多,它们也会随之改变。换句话说,某个地方有一套计算机程序知道什么片子符合你的口味,什么不符合,虽然它完全不了解这些影视剧的内容。

当然,网飞的推荐基于它拥有的用户信息。海量用户通过网飞观看影视剧,这家公司持续记录着他们的观看习惯。简单来说,这意味着网飞知道我们每个人看的是哪一类的影视剧,无论是介绍路线规划算法的纪录片,还是恐怖电影,或者其他什么东西。网飞还会把它的所有影视剧分为不同的类目,然后利用这两套数据做出推荐。如果你看了很多恐怖电影,那你很可能想看一部以前没看过的恐怖电影。听起来够简单吧。

困难在于网飞做的另一些事情。它会以百分比的形式给所有未归入特定类目的影视剧打分,例如我们现在说的恐怖电影。这个百分比代表的是这部电影和你平时看的东西有多高的契合度。换句话说,网飞还会判断一部冒险电影和一系列恐怖电影的相似程度。如果这部电影里有很多吓人的情节,那么比起那些没这么恐怖的电影来,它更契合你平时的观看习惯。如果你请朋友推荐一部电影来看,他们往往会告诉你各种剧情细节。网飞也能给你这类信息,但它的推荐肯定不如真正的影迷那么准确。

更为复杂的一种情况是,你可能只看特定类型的恐怖电影。如果你不喜欢有大量血腥场面的电影,那么对你来说,特别血腥的电影可能远不如一部恐怖程度略高于平均水平的冒险电影。有时候,只靠粗略的分类并不能做出最佳推荐,因为真正重要的是电影的具体内容。鉴于计算机不能理解内容,也许网飞应该简单粗暴地雇一大批能鉴赏影片的人。但要满足成百上千万的观影者,这样的方案完全不可行,所以网飞不得不借助计算机和算法来做推荐。这是可行的,但的确需要一点技巧。

背后的理念其实非常简单:只要它推荐的东西和你喜欢看的相似,那就没错。世界各地的人们通过网飞观看他们喜欢的节目,因为这些节目和他们以前看过的影视剧相似。对网飞的计算机来说,如果有很多人在看过一部电影以后又看了另一部,这两部电影就是相似的。如果成千上万的人在看过《钢铁侠》以后又看了《钢铁侠2》,那么这两部电影一定相似,所以给看过《钢铁侠》的人推荐《钢铁侠2》准没错。使用网飞的人越多,这样的推荐就越准确。计算机程序会推荐其他很多人看过的影视剧,它们和你自己看过的东西大体相似。

这个解决方案有一个问题。网飞目前的用户已逾2亿,每个用户都看过大量影视剧。网飞的推荐基于简单的数学计算:它会查看有多少观看记录相同的人也同样看过它想要推荐的这个节目。问题就藏在这样的计算里。我在这里做的解释是一个简化的版本,部分原因是具体的细节并不公开。网飞还必须考虑那些观看历史相似但不尽相同的人,还有那些既爱看恐怖电影也爱看纪录片的人。这两种节目都看过的人要少得多,这会让推荐变得更不可靠。事实证明,这个简单的理念真正实践起来要复杂得多。

有鉴于此,网飞才会把所有影视剧放到一张地图上,就像我们在上节提过的地铁线路图一样。每部电影或者电视剧都是一个圆圈,就像网飞世界里的一个地铁站。你可以通过点击网飞页面上两部不同的影视剧,从一个站点前往下一个站点。

为了完成计算,这幅地图上也需要添加数字。这些数字代表的不是行程时间,而是一条线两头的节目有多少人都看过。下面你可以看到一个很简单的例子,它只包含了三部电影,虚构的数字表示某条线两头的电影有多少人都看过。

网飞上三部电影的观影人数(假想数据)

问题在于:每部电影分别应该得到一个什么样的百分数,以表明它有多契合你的观看习惯。我们不妨假设,你只在网飞上看过《钢铁侠》。计算机必须预测你会有多喜欢《钢铁侠2》和《蓝色星球》。根据图上的数据,《钢铁侠2》应该得到一个很高的百分数。归根结底,如果一部电影有很多和你观影口味相似的人看过,那你喜欢它的概率要大得多。从另一个方面来说,《蓝色星球》应该得到一个低的百分数,因为看过它的人没几个看过《钢铁侠》。此外,看过《钢铁侠2》(计算机认为这部电影应该符合你的口味)的人里只有少部分人也看过《蓝色星球》——给《蓝色星球》打低的百分数的理由又多了一个。

最后,计算机会用它自己的预测——比如预测你会有多喜欢《钢铁侠2》——来优化它对其他影视剧的预测。如果只有三部电影,这个过程不难追踪。但要是有成千上万部影视剧呢?理论上可以实现;只要有足够的时间和空间,你也能自己找出你想走的每一条路线。但感谢数学,尤其是我们将在第七章里进一步详细介绍的图论,这种可能性不光存在于理论上,也能转化为实践,只要你有一台性能足够强大的计算机。其背后的算法系统让网飞得以全自动地预测你是否会喜欢一部特定的影视剧,而不需要雇一支影迷大军。 ayhfBwX6HsYDMlBcGtiaIRydWvQN4RpEkinYtHe67dEpIM9EZBn0nUjGSPaHW8RQ

点击中间区域
呼出菜单
上一章
目录
下一章
×