详解微软大规模稀疏仿真 MEB:参数高达 1350 亿,可显著提升搜索相关性
发布时间:2025年08月18日 12:18
与基于 Transformer 的厚度努力学习基本基本概念相较,MEB 基本基本概念还展览了有趣的打破上下文彼此间的努力学习潜能。在查看 MEB 努力学习的主要基本特征时,我们推测它可以努力学习到浏览和XML间的背后意绘出。
所列 1:MEB 基本基本概念努力学习的下述
例如,MEB 说明了“Hotmail”与“Microsoft Outlook”两个词语密切相关,尽管它们在上下文上并不接数。MEB 推测了这些词语间截然并不相同的彼此间:Hotmail 是一种免费的基于 Web 的电子邮件服务项目,由赛门铁克缺少,其后愈来愈名为 Microsoft Outlook。类似地,它说明了“Fox31”和“KDVR”间有较弱的联络,因为 KDVR 是位于科罗拉多州丹佛市的电视电视频道的的电台,该电视频道的试运行生产商叫 Fox31。正因如此,这两个词语间并没有轻微的上下文联络。
MEB 带入的这些彼此间与基于 Transformer 的 DNN 基本基本概念带入的彼此间有很好的互补性。侦查相似性的增加对其他用户乐趣的提升是比较轻微的。在我们的生产承包级 Transformer 基本基本概念上引入 MEB 随之而来了以下收益:
背部侦查结果的其他其他用户率(CTR)增加了数 2%。其他用户无需向下滚动网址即可寻找相关结果。
手动浏览重构行为减更高了 1% 以上。其他用户所需手动重新制定浏览内容,意味着他们不喜欢他们在完整浏览中的寻找的结果。
分页其他其他用户需求量减更高了 1.5% 以上。其他用户所需其他其他用户“下一页”按钮,意味着他们没有在第一页寻找他们想要的东西。
3MEB 如何受训原始周内据并大数需求量缺少基本特征
基本基本概念构造
如绘出 1 标明,MEB 基本基本概念由一个浮点周内基本特征读取层、一个基本特征填充层、一个池化层和两个外围层两组成。读取层还包括 90 亿个基本特征,由 49 个基本特征两组转换成,每个浮点周内基本特征编码为一个 15 维填充向需求量。在对每两组 sum-pooling 和 concatenation 此后,向需求量通过两个外围层激发一个其他其他用户期望系数估计。
绘出 1:MEB 是一个均匀分布专家系统基本基本概念,由一个遵从浮点周内基本特征的读取层、一个将每个浮点周内基本特征叠加为 15 维向需求量的基本特征填充层、一个 sum-pooling 层应主要用途全部 49 个基本特征两组并通过 concatenation 以激发一个 735 维的向需求量,然后通过两个外围层来激发一个其他其他用户期望系数。此绘出中的展览的基本特征比如说下述浏览“Microsoft Windows”和XML 转换成的,如绘出 2 中的概述。
受训原始周内据和统一基本特征为浮点周内
MEB 用于了来自首倡的三年侦查存档作为受训原始周内据。对于每次首倡侦查披露(impression),我们用于根本原因法则来确认其他用户是不是对他们点击的XML感到吃惊。我们将这些“感到吃惊”的XML上标为正检验。同一披露中的的其他XML被上标为输检验。对于每个浏览和XML对,我们从浏览评注、XML URL、原文和正文评注中的所含浮点周内基本特征。这些基本特征被读取到一个均匀分布专家系统基本基本概念中的,以最小化基本基本概念预测的其他其他用户期望系数和实际其他其他用户标记间的交叉相变损失。
基本特征设计和大数需求量受训是 MEB 顺利的关键所在。MEB 基本特征是在浏览和XML间比较具体情况的专有名词高至或 N-gram 高至的彼此间上定义的,传统意义的周内字基本特征没有捕获这些接收者,因为后者只友善浏览和XML间的个数计周内。(N-grams 是 N 项的氨基酸。)为了充分采石场这个大数需求量受训跨平台的力需求量,所有的基本特征都被设计为浮点周内基本特征,可以很难以地用相符的作法覆盖人工制作的周内字基本特征和如此一来从完整评注中的所含的基本特征。这样做到可以让 MEB 在一条二轨迹上透过端到端的重构。意味著的生产承包基本基本概念用于三种主要类型的基本特征,如下概述。
浏览和XML N-gram 对基本特征
N-gram 对基本特征是基于首倡侦查存档中的浏览和XML文件名的 N-gram 配对转换成的。如绘出 2 标明,来自浏览评注的 N-gram 将与来自XML URL、原文和正文评注的 N-gram 相结合形成 N-gram 对基本特征。愈来愈长的 N-gram(对于愈来愈高的 N 系数)并能捕捉愈来愈多样化和愈来愈稍微的基本概念。然而,随着 N 的增加,处理它们的成本椭圆形指周内级增长。在我们的生产承包基本基本概念中的,N 设置为 1 和 2(都为 unigrams 和 bigrams)。
我们还通过配对整个浏览评注和XML文件名来转换成基本特征。例如,基本特征“Query_Title_Microsoft Windows_Explore Windows 10 OS Computer Apps More Microsoft”比如说 query=“Microsoft Windows”和 document title=“Explore Windows 10 OS Computer Apps More Microsoft”转换成的基本特征。
桶化周内字基本特征的单热编码
周内字基本特征首先才会分桶,然后通过技术的发展单热(one-hot)编码将其叠加为浮点周内JPEG。在绘出 2 标明的下述中的,周内字基本特征“QueryLength”可以用于 1 到 MaxQueryLength 间的任何整周内系数。我们为此基本特征定义了 MaxQueryLength 调用桶,以便“Microsoft Windows”这个浏览具有等于 1 的浮点周内基本特征 QueryLength_2。
类群基本特征的单热编码
类群(Categorical)基本特征可以通过单热编码,以一种如此一来的作法叠加为浮点周内基本特征。例如,UrlString 是一个类群基本特征,每个唯一的 URL 字符串评注都是一个并不相同的类别。
绘出 2:上面是 MEB 基本特征样式的一个下述。左侧展览了一个下述浏览XML对,其中的浏览评注、XML原文、URL 和完整版作为基本特征所含的读取。右侧展览了 MEB 转换成的一些典型基本特征。例如,“Microsoft Windows”这个浏览和XML原文“Explore Windows 10 OS, Computers, Apps, & More | Microsoft”转换成了一个 Query x Title 基本特征“Query:Microsoft Windows_Title:Explore Windows 10 OS Computer Apps More Microsoft”。由于“Microsoft Windows”这个浏览还包括两个专有名词,因此转换成了浮点周内基本特征“QueryLength_2”。浏览词语和XML原文词语的每个配对都可以转换成一个 Query unigram x Title unigram 基本特征的列所列,例如“QTerm:Microsoft_TitleTerm:Explore”等。
年中受训支持万亿浏览 / XML对,每天刷新
为了在如此非常大基本特征空间内上完成受训,我们透过了由赛门铁克广告片制作两组重构的实质上大型培训跨平台 Woodblock。它是一种主要用途受训大型均匀分布基本基本概念的分布式、大数需求量、高性能提供承包。Woodblock 确立在 TensorFlow 之上,填补了国际标准厚度努力学习软件系统与对周内十亿均匀分布基本特征的工业需求间的错位。通过对 I/O 和原始周内据处理的厚度重构,它可以用于 CPU 和 GPU 空降兵在周内小时内受训周内千亿个基本特征。
就算用上了 Woodblock 管道,用还包括数一万亿个浏览 / XML对的首倡侦查三年会有存档受训 MEB 也很难一蹴而就。无论如何,我们用于了一种年中受训法则,基本基本概念每次都才会在之前几个月的原始周内据基础上再转至新一个月的原始周内据在此期间受训。
愈来愈重要的是,即使在首倡中的充分利用后,基本基本概念也才会每天用于最新的每日其他其他用户原始周内据刷新受训原始周内据集,如绘出 3 标明。为了能避免过时基本特征的输面影响,一个启动时过期策略才会检查每个基本特征的间隔时间砍,并过滤掉以前 500 周内未能经常出现的基本特征。经过年中的受训,基本基本概念的日常愈来愈新侦察得以完全人机化。
绘出 3:上面是一个流程绘出,说明了 MEB 是如何每天刷新的。生产承包 MEB 基本基本概念每天都用于最新的单日首倡侦查存档原始周内据透过年中受训。在新基本基本概念侦察并该网站缺少服务项目之前,才会从基本基本概念中的删除以前 500 周内未能经常出现的陈旧基本特征。这可以保持基本特征的满分并有效透过基本基本概念需求量。
用于首倡 ObjectStore 跨平台服务项目超大基本基本概念
MEB 均匀分布专家系统基本基本概念调用到寄存器时占用 720GB 的空间内。在流需求量高峰期,系统所需维持每秒 3500 万次基本特征搜索,因此没有从多台电脑上服务项目 MEB 基本基本概念。远比,我们透过了首倡的自研 ObjectStore 服务项目来保护地和服务项目 MEB 基本基本概念。
ObjectStore 是一个多舖、分布式键系数调用,支持原始周内据和算出保护地。MEB 的基本特征填充层在 ObjectStore 中的充分利用为一个所列搜索可用,每个浮点周内基本特征数据构造用作解析其在受训时激发的填充的键。池化层和外围层部分的算出需求量愈来愈大,在一个承载其他用户定义参周内的 ObjectStore Coproc(一个接数原始周内据的算出单元)中的执行。MEB 将算出和原始周内据服务项目除去到并不相同的控制点中的。每个算出控制点占用一部分主要用途专家系统处理的生产承包流需求量,每个原始周内据控制点保护地一部分基本基本概念原始周内据,如绘出 4 标明:
绘出 4:算出控制点中的的 ObjectStore Coproc 与原始周内据控制点无线通信,以解析基本特征填充并试运行专家系统。原始周内据控制点调用基本特征填充所列,并支持来自每个 Coproc 调用的搜索请求。
由于在 ObjectStore 上试运行的大多周内扭矩都是都由做到调用搜索的,因此将 MEB 算出控制点和寄存器中的原始周内据控制点摆在一起,可以让我们仅极小度地透过试运行在多舖空降兵中的的 ObjectStore 的算出和寄存器资源。由于控制点分布在多台电脑上,我们还并能精细控制每台电脑上的扭矩,以便在 MEB 中的充分利用个位周内毫秒的服务项目延后。
支持愈来愈快的侦查,好处地阐释内容
我们推测像 MEB 这样比较大的均匀分布专家系统可以努力学习到基于 Transformer 的专家系统没有阐释的稍微彼此间,从而被选为后者的有效补足。这种对侦查语言学的愈来愈集中阐释潜能为整个侦查生态系统随之而来了一系列显著好处:
由于侦查相似性的增加,首倡其他用户并能愈来愈快寻找内容并完成任务,减更高重构浏览内容或翻到第 1 页此后的所需。
由于 MEB 可以好处地阐释内容,公开发表承包和网站管理机构员可以授予愈来愈多访问期间其国有资产的流需求量,并且他们可以侧重于满足卖家,而不是花间隔时间寻找借以增加他们排在的适当语句。一个具体情况的比如说是产品线生产商阐释,MEB 基本基本概念可以启动时努力学习新旧称谓间的彼此间,就像它对“Hotmail”和“Microsoft Outlook”所做到的那样。
如果你用于 DNN 为你的其业务缺少涡轮引擎,我们要求你尝试用于大型均匀分布专家系统来为这些基本基本概念缺少补足。如果你有大需求量的其他用户交互在历史上流,并且可以轻松重构简单的浮点周内基本特征,我们尤其举荐这样做到。如果你沿着这条二路走下去,我们要求你应该让基本基本概念尽不太可能接数实时地愈来愈新。
MEB 只是我们制作两组创建有影响力的尖端关键技术以提高数需求量和效率,进而修改侦查乐趣的一个比如说。如果你对侦查和举荐的大数需求量建模感兴趣,我们的 Core Search & AI 制作两组即将招人!你可以在赛门铁克职业网站上寻找我们意味著的职位空缺。
笔记介绍
Junyan Chan 是赛门铁克侦查和人工人机领域的助理自然医学经纪人。她领导的制作两组侧重于对首倡网络侦查中的的基本关键问题透过排在。制作两组透过了最高效率的 NLP 和电脑努力学习关键技术来修改 Web 相似性基本基本概念,并为赛门铁克其他用户随之而来愈来愈吃惊的侦查乐趣。他们的兼职包括了通过超大数需求量厚度努力学习基本基本概念、均匀分布专家系统 DNN、LightGBM 等关键技术全面实施原始周内据创新性、基本特征施工和基本基本概念修改。
Frédéric Dubut 与赛门铁克的施工和原始周内据医学制作两组合作,管理机构首倡有机侦查排在的产品线制作两组。他们的兼职包括侦查、个性化、实验和电脑努力学习运维。
Jason(Zengzhong)Li 是赛门铁克 WebXT 跨平台的的公司两组施工经纪人。他的兼职重点是大数需求量更高延后分布式服务项目系统,包括 k-v 调用、倒排目录服务项目、向需求量目录和厚度努力学习基本基本概念推理。他也对均匀分布外围目录和数似最数邻侦查等分析方法算法感兴趣。
Rangan Majumder 是赛门铁克的侦查和人工人机副总裁。他们的愿景是通过减更高其他用户的接收者需求与绘出像、XML和视频中的的所有知识间的摩擦,让21世纪更为愈来愈人机、愈来愈高效。他们技术的发展最高效率的语言学阐释、感官阐释和多模态阐释来重构好处的侦查、其所助理和生产承包力技术的发展程序。
原文语句:
。郑州治疗皮肤病医院排名福州精神心理医院
兰州肿瘤医院挂号
心悸心慌
骨关节炎
变态反应科
新冠竟会增加不良心血管事件风险?感染新冠后必须及时治疗!
四川肝病医院
- 从电流比较大角度探究高压电缆缓冲层烧蚀问题
- OPPO Find X5 Pro通过CC MDFPP安全特许
- “3•21”航空器事故初步报告:披露更多事实信息,不包括原因比对及结论
- 差不多专业手柄的游戏操作体验,OPPO K10 Pro为玩家做了这些升级
- E5+120W+256GB+双芯片,与生俱来无短板配置,被“忽视”的优质旗舰
- 千元神机再现江湖,真我Q5系列能否后来居上路段卖爆?
- 新骁龙8升级影像系统,小米12 Pro带来全新“夜晚枭算法”
- 4月份PDA推荐,天玑8100市场火热
- 可以靠实力却因颜值走红,航天小伙侧脸堪称与众不同,颜值不输杨洋
- 红色动画片《长征先锋》热播中,红色文化系列数字艺术品5月首发
- 2022年Q1手机销量排名公布!三星稳住好成绩,国产品牌占三席
- 机构:全球一季度手机出货量暴跌,中国厂商展现出不容乐观
- 不一般的微信报到是什么样的?
- 看机器人初等教育二十一世纪之变