深入解析 Adobe CDP Sources:数据接入全流程

Adobe Experience Platform Haran 5年前 (2021-06-03) 3278次浏览 0个评论
文章目录[隐藏]

在 Adobe Real‑Time Customer Data Platform(RTCDP)或更广义的 Adobe Experience Platform 中,Sources 模块是数据收集/接入(Data Ingestion)链路里的关键一环。下面我帮你从定义、组成、接入方式、注意事项(优缺点)以及在选型/实施中应关注的几点来详细介绍。你作为数据分析/数字营销服务商背景,与这一模块息息相关。

深入解析 Adobe CDP Sources:数据接入全流程

Sources是什么?

Sources” 在 Adobe Experience Platform 中指的是 将各种数据源系统(包括 Adobe 自有产品、第一方系统、第三方系统、离线数据等)中的数据接入到 Platform 的机制。

换句话说,在 RTCDP 使用场景里,“Sources”负责将外部或内部系统产生的用户行为数据、交易数据、CRM数据、忠诚度系统数据等“带入”平台,以便后续统一建模、身份解析、受众构建、激活。

因此,“Sources”是构建 “单一客户视图(single‑view)” 和 “实时画像(real‑time profile)” 的输入起点。

Sources 的组成/类型

Adobe Experience Platform 中,Sources 可以按接入方式、数据类型、频率等维度分类。以下是常见的组成和类型:

接入方式数据来源举例说明
批量批处理(batch ingestion)离线CRM导出、忠诚度系统定期导出、财务/交易系统数据适合周期性、历史数据或非实时场景
流式采集(streaming ingestion)Web行为事件、移动App事件、IoT设备数据、实时点击流数据用于近实时用户行为分析和画像构建
预建连接器(Connector)Adobe产品(如 Adobe Analytics、Adobe Campaign)、第三方系统(CRM、广告平台)Adobe官方或第三方提供的“即插即用”数据源
自定义接口/API/SDK自己搭建的数据采集接口、自定义数据上报的SDK用于特殊系统或定制化场景
离线导入/文件上载CSV、JSON、Parquet等文件形式导入较传统但仍常用于补数据、历史迁移阶段

 

Sources支持数据源类型

Adobe的CDP支持非常多的数据源,如Adobe应用程序、基于云的存储、数据库和许多其他资源。

深入解析 Adobe CDP Sources:数据接入全流程

Adobe applications(Adobe应用程序)

Adobe CDP允许从其他Adobe应用程序中摄取数据,支持如下类型: 

  • Adobe Analytics:Adobe Analytics源连接器将Adobe Analytics收集的数据实时流式传输到CDP,并将SCDS格式的Adobe Analytics数据转换为Experience Data Model (XDM)字段供CDP使用。一般是两分钟内,如果用户的启用A4T,那么最长是15分钟。
  • Adobe Audience Manager :允许Adobe Audience Manager中收集的第一方数据流化到Adobe Experience Platform,可以将实时数据和用户档案数据导入到CDP,实时数据是35分钟内,用户档案数据是两天内。
  • Customer Attributes:可以将客户属性用户档案数据引入CDP
  • Experience Platform Launch:可以将点击流或应用数据直接发送到CDP
  • Marketo Engage:目前处于测试状态。

现阶段支持上述Adobe应用程序,随时可能会新增其他的Adobe 应用程序。

需要注意,从Adobe应用程序导入数据,需要先在Adobe Admin Console做授权管理,响应Adobe应用程序的数据才可以导入到Adobe CDP,有两个权限类型:

  • View Sources​权限授予对​Catalog​选项卡中可用源和​Browse​选项卡中已验证源的只读访问权限
  • Manage Sources​权限授予对读取、创建、编辑和禁用源的完全访问权限。

Advertising(广告)

Adobe CDP支持从第三方广告系统中摄取数据,目前只有Adwords的,处于测试状态。 

  • Google AdWords 

Cloud Storage(云存储)

云存储源是用于存储数据,可以直接导出数据,有可以从平台导入数据。 收录的数据可以格式化为XDM JSON、XDM Perface或分隔。

  • Azure Data Lake Storage Gen2 
  • Azure Blob 
  • Amazon Kinesis 
  • Amazon S3 
  • Apache HDFS 
  • Azure Event Hubs 
  • Azure File Storage 
  • FTP 
  • Google Cloud Storage 
  • Google PubSub 
  • Oracle Object Storage 
  • SFTP 

Customer Relationship Management (CRM,客户关系管理)

Adobe CDP支持从Microsoft Dynamics 365和Salesforce获取CRM数据。

  • Microsoft Dynamics :Microsoft Dynamics源连接器当前不支持与平台的同一区域连接。 这意味着,如果您的Azure实例使用与平台相同的网络区域,则无法建立到平台源的连接。 
  • Salesforce 

Customer Success(客户成功)

Adobe CDP支持从第三方客户成功应用程序中获取数据。 

  • Salesforce Service Cloud 
  • ServiceNow 

Database(数据库)

Adobe CDP支持从第三方数据库中获取数据,目前市面上主流的基本都支持: 

  • Amazon Redshift :处于测试状态
  • Apache Hive on Azure HDInsights 
  • Apache Spark on Azure HDInsights 
  • Azure Data Explorer 
  • Azure Synapse Analytics 
  • Azure Table Storage 
  • Couchbase 
  • Google BigQuery 
  • GreenPlum 
  • HP Vertica 
  • IBM DB2 
  • MariaDB 
  • Microsoft SQL Server 
  • MySQL 
  • Oracle 
  • Phoenix 
  • PostgreSQL 

eCommerce(电子商务)

Adobe CDP支持从第三方电子商务系统中获取数据。 

  • Shopify

Marketing Automation(营销自动化)

Adobe CDP支持从第三方营销自动化系统中获取数据。 

  • HubSpot 连接器

Payments(支付)

Adobe CDP支持从第三方支付系统中获取数据。 

  • PayPal 

Protocols(协议)

Adobe CDP支持从第三方协议系统中获取数据。

  • Generic OData :测试版

Streaming(流)

Adobe CDP支持从流源中获取数据。 

  • HTTP API

Sources的介面导览

深入解析 Adobe CDP Sources:数据接入全流程

Sources主要有四大功能:

  • Catalog:数据源目录,设置数据源
  • Accounts:账号管理,如更新、删除都是在这个地方设置
  • Dataflows:数据流,数据流是一个计划任务,它从源中检索数据并将其引入CDP里面,其实就是做XDM数据映射管理,可以配置、更新和删除数据流。
  • Systemview:系统数据视图,看数据之前的关系情况,如下图:

深入解析 Adobe CDP Sources:数据接入全流程

可以知道数据的来源Sources和数据的用途Destination。

创建数据源的过程

在实际实施中,“配置数据源”概要步骤为:授权连接 → 选择要导入的数据表 → 映射数据到 XDM 模型。

选择数据源并授权连接

在 Platform 的 Sources 目录中选中一个预建连接器或创建新的连接,授权访问源系统(如CRM、广告平台)或配置SDK/API。

深入解析 Adobe CDP Sources:数据接入全流程

数据模型映射/XDM 映射

  • 将源系统字段映射到 Adobe 定义的 XDM 架构或自定义 Schema。
  • 检查字段类型、命名、必填性、标识符(如电子邮件、客户ID、设备ID)等。
  • 映射后可能进行预览数据与字段映射验证。 

 

数据上载/实时事件采集

  • 批量模式:上载数据文件,或通过连接器定期拉取。
  • 流式模式:事件采集 SDK、Server‑side 上报、Edge Network 等方式实时送达。

在 RTCDP 文档中被称作 “Ingest data from multiple sources” 的步骤。 

数据集 (Dataset)创建与存储

  • 上载/采集后的数据被归类为 Dataset,存储在 Experience Platform 的数据湖中。
  • 还可通过元数据、目录服务管理数据集。 

 

身份解析与 Profile Stitching

  • 虽然身份解析是 Profile 层,但数据进入后通过 Sources 字段“标识符”部分进行识别和关联。
  • 以便后续构建实时客户画像。

 

数据治理/标签标记

  • 在数据接入阶段,需要对数据源的数据字段应用数据使用标签(Data Usage Labels)和治理策略。 

 

Sources 的优点与挑战

优点

  • 能够 整合来自多个系统的数据源,帮助构建统一客户视图。
  • 支持批量与流式接入,满足历史数据迁移与实时数据场景。
  • 配合 XDM 架构,数据结构标准化、可复用。
  • 与 Adobe 生态(RTCDP、Profiles、Audiences、Destinations)天然集成。

挑战/注意事项

  • 数据源多样化带来映射复杂度:不同系统字段名称、类型、数据质量差异较大。
  • 实时流式场景中系统性能与延迟:流事件如果量大、解析慢,会影响画像更新时效。
  • 身份识别/合并问题:虽然不是 Sources 直接功能,但数据源中标识符缺失或冲突,会影响后继 Profile 建设。
  • 治理、隐私合规负担:需要在 Sources 阶段就贴标签、处理同意机制、打上使用限制。
  • 国内场景额外成本:对于中国市场,可能涉及本地数据接入、SDK支持、服务商定制等额外工作。

如有疑问,可以在文章底部留言或邮件(haran.huang@ichdata.com) 我~
喜欢 (3)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址