MUM 的推出代表着继 Hummingbird、Rankbrain 和 BERT 之后 Google 搜索的下一个重大范式转变。虽然之前基于机器学习的创新是基于针对不同任务的多个训练模型,但 MUM 的目标是仅使用一个模型来完成与索引、信息检索和排名相关的所有任务。
机器学习模型的简化为搜索性能带来了许多好处,但在您充分理解 MUM 代表的重大变化之前,您必须首先了解我们在这里处理的问题。
MUM是多任务统一模型 (Multitask Unified Model)的缩写,是谷歌搜索于2021 年 5 月首次推出的一项新技术。
在 2021 年秋季的Search On 21上,宣布了即将推出的产品,并更详细地描述了该技术。MUM 使用人工智能或自然语言理解和处理,并使用多模态数据回答复杂的搜索查询。
MUM 具备多种语言能力,能够处理来自不同媒体格式的信息以回答问题。除了文本,MUM 还能理解图像、视频和音频文件。
2021 年 5 月,谷歌推出了 MUM,这是 BERT 的 1000 倍强大演进。这两种技术都基于自然语言处理。但 MUM 不仅仅是自然语言处理。
MUM 结合了多种技术,使Google 搜索更加语义化和基于上下文,从而改善用户体验。借助 MUM,Google 希望能够回答普通 SERP 代码段无法满足的复杂搜索查询。
MUM 将承担的任务如下:
- MUM旨在提供对世界知识的深刻理解。
- MUM 需要同时训练多达 75 种语言才能理解它们。以前的方法都是在各自的语言模型中训练每种语言。
- MUM 应该能够理解除文本、图像、音频和视频之外的信息。
从 Google 的这些声明中我们可以得出以下结论:
- Google利用MUM进一步扩展了知识图谱等语义数据库,使其更加接近完整知识库的目标。
- 通过 MUM,Google 希望使国际搜索变得更好,使世界各地的所有索引和搜索实例达到相似的质量水平,从而保证地球上每个国家和每种语言的用户体验都达到相同的高水平,并且根据自身资源更高效地工作。
- 对于 SEO 来说,最令人兴奋的发展可能是 MUM 希望访问所有媒体格式来收集信息(数据挖掘)、理解信息并在搜索结果中处理信息,以便最佳地满足搜索意图,并提高 Google 搜索的用户体验。
- 换句话说,除了数万亿的文本内容之外,Google 还可以访问 Google 系统中所有媒体格式的所有信息,以增加(实体)索引。因此,可以生成更多关于记录实体的信息。文本、视频、音频和图像中的信息可以更好地显示在 SERP 中,以用于搜索查询。
除了数据挖掘之外,谷歌面临的另一大挑战是信息的有效性。多年来,谷歌一直在利用 EAT 开展质量攻势,不久的将来应该会通过其他功能为其提供支持。
与相应的搜索结果直接相关,可以通过“关于此结果”框获取有关来源的信息。
这些信息包括来自维基百科或发布者网站等可信资源的发布者描述以及网站连接是否安全的信息。此外,您还可以了解发布者对自己的评价、其他人对他或该主题的评价。
目前尚不清楚 MUM 的使用程度。不过,可以肯定的是,实体或来源的权威性和可信度在排名中也发挥着独特的作用,正如我在文章《Google 评估 EAT 的 14 种方式详解》中所述。
只关注一种语言模型使得考虑不同语言进行语义解释变得过时。算法是基于英语搜索查询和文档进行训练的。它们可以应用于所有其他语言——从性能和语义理解的角度来看,这是一个显著的优势。使用自然语言处理来解释英语比德语等语法更复杂的语言要容易得多。
甚至在 MUM 之前,Google 就将英语作为主要语言。英语文档的第一批翻译早在 2019 年就出现在知识面板中。
出于性能原因,这是一项重大改进。只有有效利用可用资源,才有可能使用机器学习或自然语言处理。前提是减少并行运行的进程。通过专注于针对每个搜索查询仅从一个数据模型中查询信息,可以提高效率和性能。
2020 年的一篇谷歌研究论文《用于用户活动流的顺序专家多任务混合》描述了一种名为 MoSE 的技术,该技术在许多方面与 MUM 相似。
MoSE 可以非常高效地基于用户数据(例如点击次数和搜索历史)的数据模型进行汇总。与传统搜索引擎一样,它的工作方式是市场研究,从搜索引擎用户开始,而不是从索引信息开始。用户意图是重点,基于该模型,Google 可以预测用户在研究过程中需要哪些问题和相应的答案。
所有必要的信息都可以编译在 SERP 中,以便无缝陪伴用户完成客户旅程。
在基于产品的搜索方面,谷歌已经落后于亚马逊等大型电子商务市场和小型电子商务平台。例如,处于客户旅程偏好阶段的用户通常会直接在亚马逊上寻找产品。从经济角度来看,这对谷歌来说是困难的,因为这些用户或商业搜索会带来最多的广告点击。
在认知阶段,大多数 Google 用户使用 Google 进行信息导向搜索。然而,在偏好阶段,Google 正在流失大量用户,而这些用户则流向了竞争对手。
Google 希望在客户旅程的早期阶段(认知和考虑)为用户提供有价值的信息。通过 SERP 和购物搜索的新设计,Google 希望激发用户的灵感、提供概述并支持购买。
这表明,谷歌已经放弃了在偏好阶段直接争夺产品搜索的策略,而专注于其实际优势。以用户友好的形式组织和处理世界知识。这是大型电子商务平台无法跟上的地方。
MUM 是 Google 迈向纯语义搜索引擎的下一个难题,该搜索引擎不断改进搜索查询和内容的上下文。因此,匹配内容和内容段落的相关性可以理解搜索意图(有关 Google 迈向语义搜索引擎的步骤的更多信息,请参阅我的文章Google 迈向语义搜索引擎之路)。
可用的量子计算机的开发还很遥远,因此谷歌必须利用 MUM 等高效技术,将目前缺乏的计算能力用于大规模机器学习。这样,谷歌就可以更快地进一步开发自己的搜索系统,而不必考虑硬件方面性能的不足。可以说,软件开发正在超越硬件开发。
预计 2029 年量子计算机将实现商业化突破。我们可以假设,到那时,谷歌搜索将成为一个完全语义化的搜索引擎。届时,谷歌搜索中的关键字文本匹配将成为过去。
此时,还必须问一个问题:Google 未来将扮演什么角色作为流量供应商,以及 SEO 在多大程度上仍然直接影响排名。
BERT和MUM的推出,给行业带来了类似Panda和Penguin的巨变。自然语言处理让基于蜂鸟和知识图谱的语义搜索速度大大提升。SEO需要更多地考虑EAT相关的实体和主题,而不是关键词。
对于技术 SEO,确保搜索相关内容的抓取和索引仍然有效。但技术并不能使其具有相关性,也不能创造权威或专业知识。关于信任(https)和 UX(页面体验),该技术有一些小的杠杆来干预排名。但是,这些杠杆并不是顶级位置的保证。使用结构化数据进行标记等技术任务将变得越来越过时,因为 Google 通过自然语言处理来理解结构化信息的需求越来越少。
内容和链接仍然是最重要的影响因素。链接与其他支撑权威的重要因素相结合。搜索查询和内容(文本、视频、音频和图像)中的共现是重要的信任和权威信号。通过 MUM,Google 可以访问更多数据源和信息。此外,Google 可以使用独立于语言的数据挖掘来收集和合并世界上有关实体和主题的所有信息。以前的数据孤岛正在被打破。
这使得 Google 能够更好地回答问题并传授真正深厚的知识。
内容管理员应该少关心内容中关键词的频率,而应该考虑从哪个角度来处理主题。在这里,老套的 TF-IDF 分析仍然是一种久经考验的方法,可以识别描述主题关键词语料库的重要术语。
内容提供了问题的答案。但未来,仅仅制作内容将不再足够。Google 希望通过提供答案陪伴用户完成整个客户旅程,从而获得有价值的产品相关商业流量,并将其转移到自己的购物世界。他们希望赢回市场份额。
从SEO的角度来看,内容负责人在客户旅程中提供内容营销以便在用户研究过程中提供尽可能多的内容接触点变得越来越重要。
根据用户的知识水平,他们会在较短或较长的时间内进行研究。在寻找解决方案时,用户会随着对某个主题的知识不断增长而面临不同的挑战和需要解答的问题。
刚接触搜索引擎优化的人更有可能问“什么是 SEO?”接下来,他们会问“SEO 如何工作?”才意识到这个话题相当复杂,他们更有可能问“谁提供 SEO 服务?”在此过程中,公司应该提供答案。
内容必须以用户为中心,并预测客户旅程中的需求和问题,就像 Google 对 MUM 所做的那样。详细的 SERP 分析有助于预测当前和未来的搜索意图。
SEO 主要关注文本内容。MUM 使 SERP 在媒体格式方面更加多样化,因为 Google 在理解视频、图像、音频和文本以及将它们置于上下文中方面做得越来越好。例如,当您查看图片搜索中的图片分类或 YouTube 视频中自动标记地点时,您已经可以看到这一点。
2021 年签署的多项 Google 专利表明,Google 已经能够解读音频、视频和图像。例如这项:基于特征的视频注释。
对于 SEO 来说,这意味着将来在设计音频和视频内容时,他们将能够通过使用关键字研究或 TF-IDF 分析来关注与文本类似的语义设计。将来,Google 还将更好地理解视频和音频的口语内容,以便在 YouTube 或播客搜索中对其进行排名。
知识图谱等语义数据库也将受益于用于数据挖掘的有关实体的可操作信息的其他来源。高性能自然语言处理与大量用于数据挖掘的其他来源的结合将显著加快知识长尾的发展。
因此,Google MUM 更新是向语义搜索引擎迈出的又一个合理发展。
借助 MUM 和 BERT 等创新,Google 希望直接在 SERP 中显示更多答案,而无需再次点击内容来源。人们有理由担心 Google 会继续关闭流量水龙头,并在自己的世界中显示尽可能多的信息。
这里存在的风险是,谷歌和内容发布者的利益出现分歧,谷歌会心存感激地使用适当的内容段落,而不让发布者参与其中。但那只掌握在谷歌自己手中,以及他们如何考虑利益平衡。
有一点是明确的,Google 依靠最新内容来回答当前和未来的用户问题。作为一家技术集团,Google 能够通过算法索引信息,并以用户友好的方式进行准备。