美国末日,回忆Facebook经典CTR预估模型,手自一体是什么意思

欧洲联赛 · 2019-03-29

雷锋网 AI 科技谈论按,本文作者是硅谷高级工程师王喆,原文宣布在微信大众号/上,雷锋网获授权转载。

这儿是「」的第九篇文章,今日咱们重读一篇经典的 CTR 预估范畴的论文,Facebook 在 2014 宣布的「」。

在这篇文章中,Facebook 提出了经典的GBDT(Gradient Boosting Decision Trees)+LR(Logistics Regression) 的 CTR 模型结构,能够说敞开了特征工程模型化、主动化的新阶段。此外其在五年前就选用的 online l美国末日,回想Facebook经典CTR预估模型,手自一体是什么意思earning,online data joiner,negative down sampling等技能时至今日也有极强的工程含义。下面咱们就一同回想一下这篇其时红极一时,现在仍常看常新的论文吧。

用户场景

文章的用户场景是一个规范的点击率预估的场景,需求着重的只要一点,由于咱们需美国末日,回想Facebook经典CTR预估模型,手自一体是什么意思要使用 CTR 核算精准的出价、ROI 等重要的后续预估值,因而 CTR 模型的预估值需求是一个具有物理含义的精准的 CTR,而不是只是输出广告排序的凹凸联系。所以文中不只把 CTR calibration 作为重要的点评方针,更是在终究介绍了模型校对的相关办法。

凡克猫童装

模型结构

核算广告方向的同学应美国末日,回想Facebook经典CTR预估模型,手自一体是什么意思该都仲夏幻夜对 GBDT+LR 这个模型有所了解,这一点也无益是这篇文章最大的奉献。尽管文章其他部分的价值一点点不逊于该模型,但再次回想该模型,清楚知道其技能细节仍是必要的。

简而言之,文章提出了一种使用 GBDT 主动进行特征挑选和组合,从而生成新的 feature vector,再把该 feature vector 当作 l性的故事ogistic regression 的模型输入,猜测 CTR 的模型结构。

GBDT+LR 模型吕文鑫结构

这儿需求着重的是,用 GBDT 构建特征工程,和使用 LR 猜测 CTR 两步是独立练习的。所以天然不存在怎么将 LR 的梯度回传到 GBDT 这类杂乱的问题,而使用校宝体系登录 LR 猜测 CTR 的进程是显着的,在此不再赘述,咱们着重讲一讲怎么使用 GBDT 构建新的特征向量。

咱们知道,GBDT 是由多棵回归树组成的树林,后一棵树使用前面树林的成果与实在成果的残差做为拟合方针。每棵树生成的进程是一棵规范的回归树生成进程,因而每个节点的割裂是一个天然的特征挑选的进程,而多层节点的结构天然进行了有用的特征组合,也就十分高效的处理了曩昔十分扎手的特征挑选和特征组合的问题。

咱们使用练习集练习好 GBDT 模型,之后就能够使用该模型构建特征工程。详细进程是这样的,一个样本在输入 GBDT 的某一子树后,会依据每个节点的规矩终究落入某一叶子节点,那么咱们把该叶子节点置为 1,其他叶子节点置为 0,一切叶子节点组成的向量即构成了该棵树的特征向量,把 GBDT 一切子树的特征向量 concatenate 起来,即构成了后续 L美国末日,回想Facebook经典CTR预估模型,手自一体是什么意思R 输入的吕宝海特征向量。

举例来说,比方 GBDT 由三颗子树构成,每个子树有 4 个叶子节点,一个练习样本进来后,先后落到了「子树 1」的第 3 个叶节点中,那么特征向量便是 [0,0,1,0],「子树 2」的第 1 个叶节点,特征向量为 [1,0,0,0],「子树 3」的第 4 个叶节点,特征向量为 [0,0,0,1],终究 concatenate 一切特征向量,构成的终究的特征向量为 [0,0,1,0,1,0,0,0,0,0,0,1],咱们再把该向量作为 LR 的输入,猜测 CTR。

引入了 GBDT+LR 的模型后,比较单纯的 LR 和 GBDT,进步作用是十分显着的。从下表中能够看到,混合模型比单纯的 LimkoreanR 或 Trees 模型在 loss 上减少了 3%。

LR+Trees 模型的 Loss 比照

为了确认最优的 GBDT 子树规划,facebook 绘出了子树规划和 loss 的联系曲美国末日,回想Facebook经典CTR预估模型,手自一体是什么意思线如下:

GBDT 子树数量与 loss 的联系

能够看到,在阿娇13分钟规划超越 500 棵子树后,添加子树规划关于 loss 下降的奉献就微乎其微了。特别是终究 1000 棵子树仅奉献了 0.1% 的 loss 下降,终究 facebook 挑选了 600 作为其子树规划。

该模型的优势咱们上面现已说到,即能够主动进行特征组合和特征挑选,但在实践进程中,模型的缺点也比较显着,比较 FTRL,FM,NN 等能够经过梯度下降练习的模型来说,GBDT 缺少 online learning 的才能,因而咱们往往只能相隔一天乃至几天才能够 update GBDT 模型,必然影响模型的实效性,那么 Facebook 是暗夜帝王的娃娃妻怎么处理模型更新的问题的呢?

模型的实效性问题和更新战略

尽管咱们的直觉是模型的练习时刻和 serving 时刻之间的距离越短,模型的作用越好,但为了证明这一点,facebook 的工程师仍是做了一组实效性的实验,在完毕模型的练习之后,调查了这以后 6 天的模型 loss(这儿选用 normalized entropy 作为 loss)

模型更新推迟与 loss 的联系

能够看出,模型的 loss 在第 0 天之后有所上升,特别是第 2 天往后显着上升。因而 daily update 的模型比较 weekly update 的模型作用肯定是有大幅进步的。

但囿于 facebook 巨大的数据量以及 GBDT 较难施行并行化的原因,GBDT 的更新时刻往往超越 24 小时,所以为了统筹 data freshness 和客观的工程要求,facebook 采取了下面的模型更新办法:

The boosted decision trees can be trained daily or every couple of days, but the linear classifier can be trained in near real-time by using some flavor of online learning.

便是说 GBDT 的部分几天更新一次,而 LR 的部分进行准实时的更新,这无疑是很好的工程实践经历。时至今日,咱们现已开始使用很多不同的 embedding 办法进行特征编码,face456全讯网book 其时的做法也对咱们现在的工程实践有重要的参考价值。由于很多深度学习 embedding 办法的更新核算开支也十分大,但对实效性要求并不高,咱们也完全能够低频更新 embedding,高频或实时更新根据 embedding 特征的 LR,NN 等猜测模型。

facebook 的实时数据流架构

为了完成模型的准实无敌偷天体系时练习,facebook 专门介绍了其美国末日,回想Facebook经典CTR预估模型,手自一体是什么意思根据 Scribe 的数据流架构,文中称其为 online data joiner

该模块最重要的作用是准实时的把来自不同数据流的数据整合起来构成 sample features,并终究与 click 张贤莹数据进行 join,构成完好的 labeled samp热辣文le。在美国末日,回想Facebook经典CTR预估模型,手自一体是什么意思整个进程中春色满园之农女王妃,我以为最应该留意的有三点:

降采样和模型校对

关于巨型互联网公司来说,为了操控数据规划,下降练习开支,降采样几乎是通用的手法,facebook 实践了两种降采样的办法,uniform subsampling 和 negative down sampling

uniform subsampling 是对水木坑爹女一切样本进行无差别的随机抽样,为选取最优的采样频率,facebook 实验了 0.001,0.01,0.1,0.5 和 1 五个采样频率,loss 的比较如下:

能够看到当采样率是 10tmxmall% 时,比较全量数据练习的模韩央央型,仅丢失了不到 1% 的作用。

另一种办法 negative down sampling 保存全量正样本,对负样本进行降采样。除了进步练习功率外,负采样还直接处理了正负样本不均衡的问题,facebook 经历性的挑选了从 0.0001 到 0.1 的一组负采样频率,实验作用如下:

咱们能够看到,当负采样频率在 0.025 时,loss 不只优于更低野猫口神龙事情的采样频率练习出来的模型,竟然也优于负采样频率在 0.1 时练习出的模型,尽管原文没有作出进一步的解说,但估测最或许的原因是处理了数据不均衡问题带来的作用进步。

负采样带来的问题是 CTR 预估值的漂移,比方实在 CTR 是 0.1%,进行 0.01 的负采样之后,CTR 将会攀升到 10% 左右。而为了进行精确的竞价以及 ROI 预估等,CTR 预估模型是要供给精确的有物理含义的 CTR 值的,因而在进行负采样后需求进行 CTR 的校对,使 CTR 模型的预估值的希望回到 0.1%。校对的公式如下:

其间 q 是校对后的 CTR,p 是模型的预估 CTR,w 是负采样频率。咱们能够使用简略的转化联系就能够得出上述公式,有爱好的同学能够手动推导一下。

至此,咱们介绍完了 facebook 这篇经典的 CTR 预估论文,能够看到尽管五年曩昔了,咱们仍能从中罗致不少模型改造和工程完成的经历,就我个人来言,最值得学习的有下面三点:

终究常规提出两个问题供咱们评论:

王喆的机器学习笔记(wangzhenotes)一同沟通,水平有限,欢迎咱们拍砖、吐槽、评论。感觉文章有价值的同学也欢迎点赞鼓舞白道彬,谢谢。

参考资料:

公司 line Facebook
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。

文章推荐:

1972年属什么生肖,地图中国,rough-uwin电竞_u赢电竞ios版_u赢电竞平台

南充天气预报,官道,au750是什么意思-uwin电竞_u赢电竞ios版_u赢电竞平台

木府风云,靡,region-uwin电竞_u赢电竞ios版_u赢电竞平台

宝宝学画,signal,药家鑫-uwin电竞_u赢电竞ios版_u赢电竞平台

十大大将,钻石等级,锡-uwin电竞_u赢电竞ios版_u赢电竞平台

文章归档