作为世界上最大的社交媒体巨头,Facebook(今名Meta)在文化和政治领域占据着独特的地位。与Instagram和WhatsApp等平台一起,它们是全球数十亿用户最常用的软件。Facebook取得的成功离不开人工智能(AI)技术的支持。那么,该公司到底有多依赖AI?或许,我们能从科技记者杰夫·霍维茨(Jeff Horwitz)的新书《脸书档案:揭露Facebook黑暗秘密的斗争》中找到答案。
01 News Feed刚推出时被视为“跟踪狂”
2006年,美国专利局收到了一份专利申请,内容是“一种自动生成的展示方式,其中包含用户所在社交网络中另一用户的信息。”该系统可以让人们避免在“杂乱无章的”内容中搜索感兴趣的内容,而是寻求以“偏好顺序”生成“相关”信息列表。专利申请中列出的申请人是“扎克伯格等人”,这个产品就是新闻推送(News Feed)。
向用户展示活动流的想法并不新鲜,照片分享网站Flickr和其他网站始终都在尝试这种做法,但Facebook带来了巨大改变。在那以前,Facebook用户主要通过通知、提醒或查看朋友的个人资料来与网站互动。随着News Feed的推出,用户可以看到不断更新的帖子和状态变化。
这一转变令Facebook当时的1000万用户感到震惊,因为他们不喜欢自己的活动受到监控,也不喜欢曾经静态的个人资料被挖掘出来以获取更新的内容。面对广泛的抱怨,扎克伯格写了一篇帖子来安抚用户:“你所做的一切都不会被广而告之,而是会被分享给关心你所做事情的人,比如你的朋友。”
听到用户的抱怨和听取他们的抱怨完全是两码事。正如Meta首席产品官克里斯·考克斯(Chris Cox)后来在新闻发布会上指出的那样,News Feed在提升平台活跃度和连接用户方面取得了立竿见影的成功。参与度迅速翻了一番,在推出后的两周内,第一次有100多万用户首次对同一件事产生了兴趣。是什么让这么多人团结在一起?答案是一份请愿书,要求移除“跟踪狂式的”推送功能。
事后看来,让用户反感的不透明系统非常简单,其内容大多以时间倒叙的方式展现,并进行了手动调整,以确保人们既能看到热门帖子,又能看到一系列背景信息。考克斯说:“一开始,News Feed的排序系统就存在问题。”
在一段时间内,这种方法起到了很好的作用,但每个人的好友列表都在增加,Facebook也在不断引入新的功能,如广告、页面和兴趣小组等。随着娱乐、表情包和商业信息开始与朋友在News Feed上发布的帖子竞争,Facebook需要确保:刚刚登录的用户在烹饪页面上看到广受欢迎的墨西哥卷饼菜谱之前,首先会看到他们最好朋友的订婚照片。
02 最初的排序算法粗糙却好用
最初的内容排序系统被称为EdgeRank,顾名思义,就是对边(Edge)进行排序(Rank)。这是个简单的公式,根据三个主要因素对内容进行优先排序:发帖的时间、参与度以及用户和帖子之间的相互联系。作为一种算法,它显得很粗糙,只是粗略地尝试翻译这些问题:它是新的?受欢迎的?还是来自你关心的人?
这背后并不是什么黑魔法在起作用,但用户再次对Facebook试图控制他们所看到的内容产生了反感。而且,Facebook的活跃度等指标再次全面跃升。
当时,该平台的推荐系统仍处于初级阶段,但用户一边强烈反对、一边又疯狂使用之间的巨大反差导致公司内部得出了一个不可避免的结论:最好忽略普通人对Facebook机制的看法。尽管用户们坚持要求删除该功能,但Facebook却继续闷头推进,最终一切进展顺利。
到2010年,Facebook希望改善EdgeRank的粗略模式,以基于机器学习的方式推荐内容。机器学习是人工智能领域的一个分支,专注于训练计算机设计自己的决策算法。工程师们不会让Facebook的计算机根据简单的数学来对内容进行排名,而是会让它们分析用户行为,并设计自己的排名公式。人们看到的是不断实验的结果,平台提供它预测的最有可能从用户那里获得点赞的内容,并实时评估自己的结果。
尽管Facebook的产品越来越复杂,用户数据的收集规模也前所未有,但它仍然不够了解用户,无法向他们展示相关广告。品牌喜欢在Facebook上创建内容所能获得的关注和热度,但它们并不觉得Facebook的付费产品有多大吸引力。2012年5月,通用汽车取消了在Facebook上的全部广告预算。一位著名的数字广告主管宣称,Facebook广告“基本上是网络上表现最差的广告平台”。
解决这个问题将落在华金·奎诺内罗·坎德拉(Joaquin Quiñonero Candela)领导的团队身上。坎德拉是个在摩洛哥长大的西班牙人,他在2011年搬到英国,在微软从事人工智能方面的工作,当时分散在北非各地的朋友开始兴奋地谈论社交媒体引发的抗议活动。他用来优化必应搜索广告的机器学习技术在社交网络上被大量应用。
坎德拉发现,Facebook构建产品的方式几乎和产品的结果一样具有革命性。在一位朋友的邀请下,坎德拉参观了Facebook位于门洛帕克的园区,当看到一位工程师正在对Facebook的代码进行重大却没有人监督的更新时,他感到非常震惊。一周后,坎德拉收到了Facebook的工作邀约,证实该公司的行动速度的确比微软快得多。
03 推荐算法引入机器学习技术
坎德拉开始帮助改进广告技术,他介入的时机非常好。机器学习和原始计算速度的进步,使该平台不仅可以将用户划分为特定的人口统计领域(如“旧金山的单身异性恋女性,二十几岁,对露营和萨尔萨舞感兴趣”),还可以发现他们点击的内容之间的相关性,然后利用这些信息来猜测哪些广告与他们相关。
在开始近乎随机地猜测如何最大化点击率之后,系统将从它的成功和失败中吸取教训,不断改进其模型,以预测哪些广告最有可能成功。它几乎是无所不知的,尽管推荐的广告总是令人感到费解。但数字广告的成功门槛很低:哪怕只有2%的用户点击了一则广告,也可以称之为成功。由于每天有数十亿则广告投放,算法上的调整即使产生很小的收益,也可能带来数千万乃至数亿美元的收入。坎德拉的研究小组发现,这种算法可以大量试错并及时改进。
这种快节奏的改进非常重要。该团队的人工智能不仅帮助提高了收入,还改善了人们对该平台的看法。更棒的是,定向广告意味着Facebook可以在不增加广告负荷的情况下从每个用户身上赚到更多钱,而且不会出现太多问题。当Facebook向青少年推销假牙膏时,至少不会导致人死亡。
广告是Facebook机器学习的前沿阵地,很快每个人都想分一杯羹。对于负责增加Facebook群组、好友添加和帖子发布数量的产品主管来说,吸引力是显而易见的。如果坎德拉的技术可以提高用户与广告互动的频率,那么它们也可以提高用户与平台上其他内容互动的频率。
每个负责内容排名或推荐的团队都争先恐后地对自己的系统进行全面检修,从而引发了Facebook产品复杂性的爆炸式增长。员工们发现,最大的收益往往不是来自深思熟虑的举措,而是来自简单的试错。
工程师们没有重新设计算法,而是通过快速的机器学习实验取得了巨大的成功,这些实验相当于对数百种现有算法的变体进行验证,看看哪些版本对用户来说表现最好。他们不一定知道为什么某个变量很重要,或者一个算法如何在预测评论的可能性方面优于其他算法。但他们可以继续改进,直到机器学习模型产生的算法在统计上优于现有的算法,这就足够了。
04 杨立昆携人工智能技术加盟
很难想象还有什么方法可以构建更能体现“快速行动,打破常规”口号的系统,Facebook想要的更多。扎克伯格向专门研究深度学习的法国计算机科学家杨立昆(Yann LeCun)示好,深度学习指的是构建能够以人类思维方式处理信息的计算机系统。杨立昆已经因创造了使面部识别成为可能的基础人工智能技术而闻名,他被任命负责一个部门,旨在使Facebook成为人工智能基础研究的先锋。
在广告业务取得成功之后,坎德拉又被赋予了一项同样艰巨的任务:以尽可能快的速度将机器学习融入公司的血液之中。最初,只有24名员工负责构建新的核心机器学习工具并将其提供给公司其他部门。在坎德拉被聘用后的三年里,这个团队不断壮大。但它的规模还远远不足以帮助每个需要机器学习帮助的产品团队。从头开始构建模型的技能太专业了,工程师们很难学会,而且你不能只通过增加开支来增加机器学习领域专业人才的供应。
解决方案是建立FB Learner,一种“数字绘画”版本的机器学习。它将技术打包成一个模板,供那些完全不了解自己在做什么的工程师使用。FB Learner为Facebook内部的机器学习所做的事情,就像WordPress这样的服务曾经为建立网站所做的那样,使人们不必再使用HTML或配置服务器。
然而,这些良莠不齐的工程师正在扰乱这个迅速成为全球通信平台的核心。Facebook的许多人都意识到,公司外部对人工智能的担忧越来越多。由于算法的设计不够好,本来是为了奖励良好的医疗服务,结果却变成了惩罚那些治疗病情较重病人的医院。而旨在量化假释候选人再次犯罪风险的模型,被证明是偏向于将黑人关进监狱。但在社交网络上,这些问题似乎还很遥远。
一位FB Learner的狂热用户后来将机器学习在Facebook内部的大规模传播描述为“给25岁的工程师提供火箭发射器”。但当时,坎德拉和Facebook都认为这是一次胜利。该公司的人工智能算法让它养成了撒谎和发布仇恨言论的习惯。现在,构建它们的人仍无法解决这些问题。
Facebook在2016年宣布:“工程师和团队,即使没有什么专业知识,也可以轻松地构建和运行实验,并以前所未有的速度部署人工智能驱动的产品。”Facebook吹嘘说,FB Learner每天都在获取数万亿个数据点的用户行为,工程师每月在他们身上进行50万次实验。
Facebook收集的大量数据以及广告定位效果如此之好,以至于用户经常(错误地)怀疑该公司窃听他们的离线对话,进而引发了“Facebook知道你的一切”的说法。
05 FB依赖AI推荐算法或付出沉重代价
这并不完全正确,机器学习的奇迹掩盖了它的局限性。Facebook的推荐系统的工作原理是用户行为之间的原始关联,而不是识别用户的品味和兴趣,然后在此基础上提供内容。News Feed无法告诉你,你是喜欢滑冰还是越野骑行,喜欢嘻哈还是韩流音乐,它也无法用人类的语言解释为什么某个帖子会出现在你的News Feed中。
虽然这种难以解释的缺点很明显,但基于机器学习的推荐系统体现了扎克伯格对数据、代码和个性化的坚定信念。他相信,摆脱了人类的限制、错误和偏见,Facebook的算法能够提供无与伦比的客观性,也许更重要的是其超高的效率。
另一项机器学习工作致力于找出Facebook推荐的帖子中实际包含的内容。这些被称为分类器的人工智能系统经过训练,可以对大量数据集进行模式识别。早在Facebook成立几年前,分类器就已经证明了自己在打击垃圾邮件方面的重要作用,允许电子邮件提供商能够超越简单的关键字过滤器,阻止诸如“Vi@gra”之类的大量电子邮件。
通过接收和比较大量的电子邮件(有些被标记为垃圾邮件,有些被标记为非垃圾邮件),机器学习系统可以开发出自己的标准来区分它们。一旦这个分类器被“训练”,它就会被释放出来,分析收到的电子邮件,并预测每封邮件应该被发送到收件箱、垃圾文件夹还是直接拒收。
当机器学习专家开始进入Facebook时,分类器试图回答的问题清单已经远远超过了“这是垃圾邮件吗?”等,这在很大程度上要感谢杨立昆这样的人。扎克伯格对其未来的发展和Facebook的应用充满信心。到2016年,他预测分类器将在未来五到十年内超越人类的感知、识别和理解能力,从而使公司能够消除不当行为,并在连接世界方面取得巨大飞跃。事实证明,这一预测过于乐观了。
即使技术得到改进,数据集增长,处理速度加快,机器学习的一个缺点仍然存在。该公司开发的算法始终拒绝进行自我解释。工程师可以通过测试分类器来评估其是否成功,比如通过其判断结果来评估准确率(precision)和召回率(recall)。但由于系统是根据自己设计的逻辑来教自己如何识别某些东西,所以当它出错时,很难找出符合人类认知的原因。
有时,错误似乎是荒谬的。其他时候,它们会以系统的方式反映出人为错误。阿图罗·贝贾尔(Arturo Bejar)回忆说,在Facebook早期部署分类器来检测色情内容的努力中,该系统经常试图剔除涉及床的图像。
类似的基本错误不断发生,即使该公司开始依赖更先进的人工智能技术来做出比“色情/非色情”更重要、更复杂的决定。该公司正全力投入人工智能,既要确定人们应该看到什么,也要解决可能出现的任何问题。
毫无疑问,计算机科学的发展日新月异,带来的好处也实实在在。但是Facebook采用机器学习的速度、广度和规模是以可理解性为代价的。为什么Facebook的“你可能喜欢的页面”算法似乎如此专注于推荐某些主题?一段关于植牙的电脑动画视频片段怎么会被观看了上亿次?为什么有些新闻出版商只是改写了其他媒体的报道,却能持续爆火?
面对这些问题,Facebook的沟通团队会注意到,该公司的系统会对人们的行为做出反应,而且没有考虑到人们的品味。这些都是难以反驳的观点。它们还掩盖了一个令人不安的事实:Facebook正以自己并不完全了解的方式实现增长。
在宣布开始使用机器学习来推荐内容和定向广告五年以来,Facebook的系统将严重依赖能够自我训练的人工智能,以至于杨立昆自豪地宣称:“如果没有这项技术,该公司的产品可能早已化为乌有!”