Lookalike的几种实现方式

文章目录[隐藏]

在数字营销中，广告主不仅关注现有客户的转化率，更希望触达潜在高价值用户，Lookalike（相似受众）应运而生，它通过数据和算法，将现有优质客户的特征“复制”到潜在用户中，从而实现精准获客和广告效率提升。

什么是 Lookalike?

对数字营销的从业人员熟悉的应知道，广告主如果想扩大投放人群，可以基于现有的人群，然后通过数据分析，找到这一批和现有人群最类似，最有可能转化的人群去扩大投放范围。

简单说：Lookalike是一种基于现有用户数据，利用算法找到与这些用户行为、兴趣和特征相似的潜在用户群体的工具。

核心目标：在不直接知道新用户信息的情况下，扩大高潜力客户群体，提升广告转化率。

Lookalike的工作原理

选取种子用户
- 种子用户的数据越精准、规模越大，Lookalike 的效果越好。
- 常见种子用户类型：
  - 高价值客户（付费或重复购买用户）
  - 高活跃度用户
  - 注册或订阅用户
分析用户特征
- 平台会分析种子用户的关键特征，包括：
  - 人口统计信息：年龄、性别、地域
  - 兴趣、行为习惯
  - 消费偏好或购买历史
寻找相似人群
- 算法从平台的全部用户中寻找与种子用户最相似的群体。
- 通过机器学习模型计算相似度，并筛选出潜在高价值用户。
生成相似受众
- 广告主可以直接将广告投放给Lookalike，并根据相似度分层优化投放策略。

那它使用什么算法呢？

Lookalike可以分为显示定位和隐式定位：

显示定位

显示定位其实就是根据规则或标签进行人群选择。

基于标签选择（Rule-based）

标签本质是利用用户画像/标签体系，基于种子用户的标签，利用相同标签的方式找目标人群。

这是最简单、高效、粗暴的一种方式。这种适合收集有大量用户数据能构建完整用户画像的公司做。

腾讯DMP在用这种，官方介绍的原理：首先是种子用户的获取，不再局限于需要自己去收集号码包自己上传，我们还可以按照你近期账户中的系统自动记录的种子用户的数据，系统会根据种子用户的标签与腾讯用户标签做匹配，会从上百万个维度对种子人群进行分析，从中筛选出最具代表性的共有特征。根据这些特征再从全量活跃用户中筛选出另一批与种子人群最相似的用户。

但这种方式所错成本高，手动调优难，投放效率低，所以往智能定向的方向发展，如协同过滤，序列推荐，图神经网络等，但很多平台仍然会提供这种传统的显示定向方式的。

隐式定位

隐式定位是通过算法、机器学习、深度学习的方法，对种子用户进行建模，然后用模型去识别。参考《A Sub-linear, Massive-scale Look-alike Audience Extension System》里面的分类规则做如下划分：

基于相似度模型

主要是基于User-User之间的某种距离大小来衡量用户之间的相似度，主流的相似度计算方法包括：针对连续值的余弦相似度(Cosine similarity)以及针对离散值的(Jaccard similarity)

计算完个体之间的距离后，如何计算个体和样本整体之间的距离有三种方法：

最大值Max：利用u1与seeds中相似度最大值作为u1与seeds的相似度 sim(u1,seeds)=Max(sim(uj,seeds))
平均值Mean：利用u1与seeds中每个用户的相似度去均值作为整体相似度 sim(u1,seeds)=Mean(sim(uj,seeds))
基于概率：该方法要求用户之间的相似度在[0,1]之间。通过不相似度反向得到相似度。

这方法计算简单，适用于小范围的计算，因为每个用户都去计算和种子用户的距离，数据量大的时候，计算量呈现指数级上升，通常会采用LSH（Locality Sensitive Hashing ，局部敏喊哈希）的方式去加速计算，如领英的《Audience Expansion for Online Social Network Advertising》。

除此之外还有皮尔森相关系数（Pearson Correlation Coefficient）、Jaccard相似系数（Jaccard Coefficient）、Tanimoto系数（广义Jaccard相似系数）。

基于标签/用户协同过滤

在标签扩散的基础上，采用基于用户的协同过滤算法，找到与种子人群相似的机会人群。协同过滤推荐算法分为两类：基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法。

基于用户的协同过滤推荐算法根据用户对项目的评分矩阵，计算用户之间的相似度，找出目标用户的最邻近邻居集合，最后，对最近邻居集合进行加权，从而产生目标用户的推荐集。
基于项目的协同过滤推荐算法根据对用户已评分项目相似项目的评分进行预测，从某种程度上减少了评分矩阵稀疏性和冷启动问题对推荐质量的影响。

这里采用的第一种算法，基于用户的协同过滤推荐算法的核心想法是通过寻找相似的用户，然后根据相似用户的关系进行推荐。例如，用户A喜欢电影a和c，用户B喜欢电影b，用户C喜欢电影a、c和d，通过数据可以发现用户A和用户C是是比较接近的人群，就是喜欢相同的，同时c还喜欢d，那么我们可以A也喜欢d电影，向A推荐d电影。如果将用户和电影（这里指特征）看做一个点建立起了联系，关系网就形成一张图。

第一阶段是从种子用户找到与用户相似的用户集，基于相似度去计算（有些会从种子用户计算推荐集）
第二阶段根据候选集产生推荐集，先得到最后推荐集，再通过Top-N排序算法得到用户

基于分类模型

将look-alike看成是分类问题，很多的分类算法都可能适用。

LR算法

将种子用户作为正例，将随机用户进行降采样后作为负例，为每个种子训练一个LR模型。用这个模型在全部用户上预测，后去判断其他的用户是否为目标人群，模型如下：

x是个向量，可以将所有的特征都输入：

这个函数的图形是：

值的范围在0到1之间，通过阈值就可以判断是否符合目标用户，如0.6，大于0.6是目标用户，小于0.6是非目标用户

这种方法的优势在于种子用户的所有特征都使用到，易于解释。缺点是是它是线性的，相对还是简答；随着广告的增加，索引存储、离线训练和预测的机器会难以支撑。

腾讯的广点通在2015年到2017年就是用这种.
360DMP在2016年左右也是用这种。
TalkingData在2015年左右也使用这种
爱奇艺DMP使用这种算法

RF模型

根据阿里巴巴的文章，对随机森林模型的实验效果并不理想，在相同的样本和特征上Precision和AUC指标均比LR低，且特征重要性结果只能到特征粒度不能到特征值粒度，因此不再使用。

PS-SMART算法

根据阿里巴巴的文章，PS架构的GBDT算法模型，决策树弱分类器加上GBM算法，具有较强的非线性拟合能力，在应用中相比其它两种算法模型效果更好。因此选择PS-SMART作为最终的算法模型，并对损失函数、树的个数深度、正则系数进行调优。

阿里巴巴的品牌目标人群优选使用PS-SMART算法

……

基于聚类

根据用户标签，采用层次聚类算法（如BIRCH或CURE算法）对人群进行聚类，再从中找出与种子人群相似的机会人群，再通过Top-N排序算法得到用户。

基于社交关系

以具有相似社交关系的人也有相似的兴趣爱好/价值观为前提假设，利用社交网络关系进行人群扩散。

基于图模型

基于图模型的代表就是Yahoo提出《A Sub-linear, Massive-scale Look-alike Audience Extension System》，文章在Abstract就直接写是基于图模型，由于选择特征的时候可以用LR，所以有些文章会将其划分到基于回归模型：

图模型可以分为两个阶段：

粗排序（Global Graph Construction）：通过构造全局图找相似的用户，而构造全局图使用的是Jaccard similarity，会带来计算量的问题，所以利用LSH（Locality Sensitive Hashing ，局部敏喊哈希）来加速相似度的计算并构造全局图，有两种计算方法方法MiniHash+LSH。
精排序（Campaign Specific Modeling）：根据广告特征权重对粗排序做排序，而对特征的选择可以选择IV（information value）或LR（logistic regression）方法。

注意：由于在最后一步使用LR，有些分类将这种方法放到了基于回归类型。

基于Attention深度模型

RALM算法：全名Real-time Attention based Look-alike Model，这是腾讯最近提出的一个基于深度学习的Look-alike系统，已经微信上的看一看应用。它通过 user representation learning 表达用户的兴趣状态，通过 Look-alike learning 学习种子用户群体信息以及目标用户与种子用户群的相似性，从而实现实时且高效的受众用户扩展和内容触达。

微信看一看使用RALM算法

使用情况

从公开资料可以知道一些公司使用的具体算法，由于时效性问题，有些公司的实际使用的可能已经更新了，下面信息仅做了解：

Adobe的用的是TraitWeight algorithm，
百度用深度神经网络相似排序模型

由于性能的因素，部分厂家会使用两级模型，就是第一级别是基于标签的，因为基于标签的方式简单，能够做初步筛选，其实就是做粗排，第二级别的是基于算法的，做精选。

Lookalike 营销用法

获取新客户：利用种子用户模型，精准找到潜在客户，快速扩大获客渠道。
扩展高价值用户群：针对付费用户或忠诚用户，寻找与他们相似的新用户，提高转化潜力。
降低广告成本：精准匹配潜在用户，减少无效曝光与点击，提高广告ROI。
分层投放策略
- 高相似度（1%-2%）受众：高转化优先投放
- 低相似度（5%-10%）受众：拓展潜力用户
结合再营销：先做再营销找到高价值用户，再用Lookalike扩展潜在客户池，形成获客闭环。

参考

A Sub-linear, Massive-scale Look-alike Audience Extension System
https://102.alibaba.com/detail?id=192
https://e.qq.com/ads/learning/data/new-ads/know/011/
https://toutiao.io/posts/eizmpv/preview

有疑问可以在底部留言