数据驱动归因的几个算法

Attribution Haran 4年前 (2020-06-16) 4007次浏览 6个评论

更新时间:2023年3月3号

数据驱动归因,英文是Data-Driven Attribution,简称DDA,或数据驱动归因模型,英文是Data-Driven Attribution Models,简称DDAM,也叫算法归因

自Google 宣布即将推出归因模型以来,广告主对新的数据驱动模型表现出很大兴趣。Google于2013年推出了Google Analytics Premium的数据驱动归因模型,并于2014年在AdWords中发布了该模型。

数据驱动归因是一种基于机器学习的归因模型,与基于规则的归因模型不同,数据驱动归因使用所有可用的路径数据,包括路径长度,曝光顺序和广告素材,来了解特定营销接触点的存在如何影响用户转化的可能性以更好地将功劳分配给任何接触点。

数据驱动归因是基于算法的,要想使用数据驱动归因,数据量需要积累到一定的规模才可以使用,目前数据驱动归因可在Google营销体系中的多个平台上使用:Google Attribution 360,Google Analytics 360,DoubleClick和AdWords,不同平台对数据量的要求是不一样的,具体如下:

数据驱动归因的几个算法

谷歌各平台对数据驱动归因的数据要求

算法或机器学习中有两大类算法:分类和回归,转化可以用0和1来表示,这类算法归因实际是一个分类问题,理论上能用于分类的算法都可以用于算法归因的。实际常用的算法有马尔科夫链、沙普利值、生存分析和Harsanyi Dividend

前面三个算法在学精算的有涉及到,马尔科夫链是随机过程,沙普利值是计算投资组合,生存分析是寿险精算,但都只记得个名字了?‍♀️

具体的算法原理和实现过程有兴趣自己去谷歌一下吧。

Markov Chain:马尔科夫链

马尔可夫链因俄国数学家Andrey Andreyevich Markov得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。
这里有个demo,可以去看看:https://adavide1982.shinyapps.io/ChannelAttribution/

Shapley Value:沙普利值

Shapley Value是由经济学诺贝尔奖获得者Lloyd S. Shapley开发的,它是一种在团队成员之间公平分配团队产出的方法。对于以数据为依据的归因,要分析的“团队”具有营销接触点(例如自然搜索,展示和电子邮件)作为“团队成员”,而团队的“输出”就是转化。数据驱动的归因算法计算每个营销接触点的反事实收益,即,将暴露于这些接触点的相似用户的转换概率与路径中未出现接触点之一的概率进行比较。

Survival Analysis:生存分析

生存分析是研究生存现象和响应时间数据及其统计规律的一门学科。是将事件的结果和出现这一结果所经历的时间结合起来分析的一种统计分析方法,目前在多个方面都有应用。

 

Harsanyi Dividend

Harsanyi Dividend是沙普利值的延伸。可能只有Adobe使用,网络上的信息非常少,Adobe也只是文档放了两个原文链接。

请参阅原文:

  • Shapley, Lloyd S. (1953). A value for n-person games. Contributions to the Theory of Games, 2(28) , 307-317.
  • Harsanyi, John C. (1963). A simplified bargaining model for the n-person cooperative game. International Economic Review 4(2) , 194-220

目前是Adobe Analytics的Ultimate才支持,如果你用的是Prime 或Select版本,是不支持的。

业界使用情况

目前国际一线互联网公司,谷歌在Google Analytics 360,DoubleClick、Ads都有使用数据驱动归因,在Google Analytics 4 归因默认使用数据驱动归因
数据驱动归因的几个算法
谷歌早期使用的是基于夏普值,后期使用基于Survival Analysis,目前在GA4和Ads用的是Survival Analysis生存分析。
Facebook也有使用归因算法,但并未公布使用的具体算法是哪个,只是说定期更新算法模型,Facebook的是预估增量影响为各个触点分配转化功,且只能衡量 Facebook、Instagram、Audience Network 和 Messenger 上的营销活动,我估计用的是增量模型(Uplift Modeling),这个模型在腾讯和阿里都有应用(Facebook的由于隐私保护的原因已经对外宣称停止)
Adobe Analytics是基于Harsanyi Dividend,随着Adobe Sensei的完善,使用的算法可能会改变。
国内有些公司使用的是Markov Chain。
目前国内很多互联网公司都在做这方便的研究和尝试。

参考内容


如有疑问,可以在文章底部留言或邮件(haran.huang@ichdata.com) 我~
喜欢 (9)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
(6)个小伙伴在吐槽
  1. 2)第2个问题,基于算法的归因结果,跟曝光转化归因的结果相比,哪个对于实际指导媒介选择和优化有参考意义,营销者在看待这2种分析的结果时,如何建立合理的对于结果的解释和认知。
    dspinkman2022-03-14 15:21 回复 Windows 10 | Chrome 99.0.4844.51
  2. 首先感谢,关注您的文章系列有些年了。想请问2个问题:1)如何看待数据驱动归因得到的结果,他对于指导媒介预算优化有参考意义么?如何让应用归因分析的结果
    dspinkman2022-03-14 15:17 回复 Windows 10 | Chrome 99.0.4844.51
    • Haran
      有,数据驱动归因它有一定的数据门槛才能用到这个算法,能够发现一些潜在的优质媒介/渠道,但有时会不太明显,跟最后点击的归因数据很接近,可以说是锦上添花的功能。
      黄业忠2022-03-14 16:36 回复 Mac OS X | Chrome 99.0.4844.51
      • 是这样,目前接触到的情况是,某3c客户同时在看直接转化,曝光转化和MTA;一定程度是因为直接转化的数字不好看,于是转而寻求其他归因的结果,来论证媒介投资的有效性。所以,想请问,从改善媒介投放带来的销售转化这个角度上,应该侧重看哪个(因为现在的问题是,付出很多额外的cost看MTA归因结果,但是又不知道产出的结果是否真的对媒介提效有帮助)
        dspinkman2022-03-14 16:58 回复 Windows 10 | Chrome 99.0.4844.51
        • Haran
          直接转化?你这里是用最后点击的归因方式看直接渠道?
          黄业忠2022-03-15 19:14 回复 Mac OS X | Chrome 99.0.4844.51
          • 是的。然后投后做曝光转化归因+MTA,预期用这些结果来证明广告钱没白花,并且指导后续的投放优化。
            dspinkman2022-03-15 19:28 Linux | Chrome 99.0.4844.58