查看原文
其他

CVR 2023进展:Click-aware Structure Transfer with Sample Assignment

肖玄基 郑文豪 等 DataFunSummit
2024-09-10

导读 本文主要介绍 Shopee 与清华大学合作的关于多任务 CVR 优化的最新进展-- Click-aware Structure Transfer with Sample Weight Assignment。(论文链接:https://arxiv.org/abs/2304.01169)

主要包括以下四大部分:

1. Motivation

2. Method

3. Main Results

4. Conclusions

分享嘉宾|欧阳凯、肖玄基、郑文豪 ‍

编辑整理|王丽颖

内容校对|李瑶

出品社区|DataFun


01

Motivation

首先来介绍一下该工作要解决的问题。

第一,我们经常使用 CTR 任务来优化 CVR 任务。但来自 CTR 的知识量非常大,可能远超过了 CVR 本身,就会减弱学习 CVR 的能力。

第二,CTR 与 CVR 的部分知识可能会存在冲突问题,需要进行识别。举例来说,一位男性在逛 Shopee 电商平台,看到连衣裙图片商品时,出于审美好奇,可能也会发生点击,但其实不会发生购买。对于该样本,CTR 与 CVR 则会出现冲突,CTR 可能会是 1,但 CVR 倾向于 0,如果不进行识别,直接进行多任务学习,则可能会出现两个任务学到同方向的问题,CTR 预测高,CVR 预测也会高。

以上两个问题会让 CVR 任务被大量 CTR 知识主导,这种现象称为 curse of knowledge 知识诅咒。

具体来说,curse of knowledge 指的就是共享和冲突。CTR、CVR 多任务学习的核心就在于如何共享更多的知识,减少冲突。上图中给出了几个例子,点击且发生购买,未点击也未发生购买,两种样本知识共享,属于质量较好的样本;点击但未发生购买,随机点击但发生购买,这两种样本是相对冲突的,需要进行识别。

02

Method

1. 方法概览

本文工作如上图所示,主要分为三个部分。

第一部分是上图中左侧的 CTR 信息的提取,左下角部分是 CTR 的 Pre-train,将学到的知识,包括 user-embedding、item-embedding 通过余弦相似度分别组成相似图,这样就建模出了其邻居信息,通过图结构就可以提取出 user 与 item 的高阶信息,如邻居表示等。User、item 的高阶信息会通过图右侧的 Structure Migrator(结构迁移器)传递给 CVR。这就是第一部分工作,尽可能丰富地提取 CTR 的信息。

第二部分是 Click Perceptron,类似 CVR 校准,指通过 CTR 信息融合,对 CVR 任务进行修正。具体是通过 CTR 任务学习一个校准向量,可能与 CTR 输入维度相同,值在 0-1 之间,与 CVR 任务进行点乘,就实现了校准。

第三部分是右侧上方的 Curse Escaper 部分,主要解决任务冲突问题,对于冲突样本,梯度相反,其中一个任务可能会被另一个任务带偏。因此 Curse Escaper 结构在 CTR 与 CVR 任务不一致时,会对 CVR 学习进行强化,减弱 CTR 学习。

总的来说,这个方法论是:首先,如图左侧,挖掘任务独立的 Latent Structure 信息,通过 Structure Migrator 注入 CVR,从而使其获得更丰富、更高阶的 CTR 有效信息;接着,我们设计了 Click Perceptron,学到点击的 bias 信息,再对 CVR 任务进行校准;最后,Curse Escaper 在 Label 层面实现冲突处理,进一步强化 CVR。

接下来具体展开介绍这三部分结构。

2. CTR Structure Info Migrator
  • CTR Structure Info Migrator

第一部分主要对 CTR 任务进行预训练,构造相似度图。该图构造较为简单,会选每个用户/商品的 top-k 个邻居来建图;同时进行了梯度的平滑处理,防止梯度爆炸。

图中的 g^U 是一个邻接矩阵,R_((l-1))^U 指的是 CVR 的 User 向量学习,(l-1)是指第(l-1)网络层。R_l^U 指的是第 l 层的学习。原始的 CVR 任务的信息 R_((l-1))^U,乘以 CTR 信息 g^U,就得到了新的 CVR 信息 R_((l))^U。这样就将 CTR 的信息作用到了 CVR 上。CVR 的输入 E_V 包括 CVR 任务的 User 信息、Item 信息和 Context 信息;User 信息和 Item 信息都是通过 CVR 原始信息附加 CTR 的高阶邻居信息得到的。

3. Click Perceptron

第二部分 Click Perceptron,如上图红色框中的结构,CTR Tower 学习产生一个 CTR 中间输出向量,该向量点乘 CVR 所有特征后与 CVR 特征进行加法操作,以利用 CTR 信息对 CVR 特征向量进行修正。

4. Curse Escaper

最后一部分 Curse Escaper,主要针对高 CTR 预估值&低 CVR 预估值,以及低 CTR 预估值&高 CVR 预估值的情况,此时 CTR 与 CVR 信息出现明显冲突,反传的梯度也是冲突的,我们需要识别此种情况,减弱对 CVR 任务的影响。具体来说,如图所示,L_ce 是 CVR Loss,是交叉熵损失,在权重 A 中,y ̂_i 是 CTR 预估值,z ̂_i 是 CVR 预估值,neg 是一个阈值超参数。如果 CVR 是 1,CTR 预估值 y ̂_i 较小,则权重 A 会变大,从而强化该情况;反过来,如果发生点击,CTR 是 1,B 则会变大,也就是强化 B 的权重,同时也会强化 CVR 任务的学习。

03

Main Results

我们在两个数据集上进行了实验,包括 Shopee 的工业数据,以及阿里平台上的公开数据集。

主要结果如下图所示。

相对于单任务来说,MMoE、PLE、ESMM 等多任务模型的 CVR AUC 都高一些,主要还是因为 CVR 数据过于稀疏,需要 CTR 任务辅助学习。

AITM 与 PLE 在多任务中表现较好,主要原因是区分开了哪些任务是共享的,哪些任务是不共享的,证明显式构建信息传递是有效的。

整体上,我们的 CSTWA 方法在两个数据集上都是表现最好的。其中,点击任务不一定有提升,这是我们刻意为之的,因为这里我们主要希望 CVR 学得更好,多任务中的 CTR 不会用于上线。

上图是一些消融实验的结果。当使用这三个关键组件中的任何一个时,性能都会显著提高。这表明,引入偏差信息使模型能够捕捉样本中的阶段信息,可以进一步提高性能。此外,当使用 SM 组件时,性能显著提高,表明任务独立的结构信息是有效的。

04

Conclusions

最后进行一下总结。在这一工作中,我们主要处理了 CVR 中的 curse of konwledge 问题,具体关注 share&conflict,即如何做到共享更多冲突更少。

为了解决这一问题,我们提出了 CSTWA,包括三个有效组件,即 Structure Migrator、Click Perceptron 和 Curse Escaper。分别从三个方面进行优化,利用 CTR 的邻居高阶信息实现更多更丰富的 CTR 信息提取;通过 CTR 信息对 CVR 表达进行校准;以及处理 Label 层面存在的冲突。

在两个数据集上的大量实验,证明了 CSTWA 的优越性能。在应用中需要综合考虑实现难度和收益。

未来,我们计划探索更有效的结构信息传输方式,使我们的模型更具成本效益。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


肖玄基、欧阳凯、郑文豪

Shopee Inc

直播电商算法负责人


毕业于中科院软件所。曾在腾讯,阿里,百分点工作过,现在负责 shopee 直播电商算法,曾经负责过电商,短视频,直播,社交电商,信息流等产品的算法。


峰会推荐


往期优质文章推荐

往期推荐


坦白局!网易数帆解读 Apache Kyuubi 1.8 特性

美团 Doris Bitmap 精确去重优化实践

华为 当LLM的优势与推荐系统结合后~

小米如何用数据智能驱动业务增长

当电信网络运营遇见知识图谱构建

B 站基于 StarRocks 构建大数据元仓和诊断系统

深度强化学习的风吹到了电网

两个范式搞定因果与机器学习的前沿初探

去冗降本—Doris 高并发实时查询核心技术

虎牙平台数据驱动业务实践,破局在即!

万字长文打开淘宝推荐系统的多场景模型建模的底层逻辑!

字节如何打造新用户增长场景下的AB实验体系

CTR 2023 最新进展:Calibration based MetaRec CTR

DataFun

点个在看你最好看

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存