更新时间:2025年11月12日
在数字化时代,数据成了推动人工智能和大数据分析的核心动力。然而,数据往往包含个人隐私信息,比如用户的健康记录、银行交易或社交行为。在这样的背景下,如何在不泄露个人数据的前提下进行数据分析和建模,成为了科技领域的重要课题。近年来,几种关键技术逐渐兴起,包括联邦学习、差分隐私、同态加密和隐私保护集合交集。
联邦学习(Federated Learning, FL)是核心框架
Federated Learning,也叫Collaborative Learning,最初由谷歌在2016年提出,在国内叫联邦学习、协同学习。
传统的机器学习需要将数据集中到一个服务器上进行训练,而联邦学习则完全不同。它让数据留在用户端,只把模型参数或梯度传到服务器进行汇总更新,从而实现“模型训练不传数据”的目标。
- 举例说明:假设一家手机公司想训练一个智能输入法的词预测模型。如果采用传统方式,需要收集所有用户的输入记录,但这可能泄露隐私。而通过联邦学习,每个用户的手机本地训练模型,然后只把训练结果(比如权重更新)发送给服务器,服务器再聚合各地的模型更新,形成全局模型。
- 作用:允许多个数据拥有方在本地训练模型,只共享模型更新(如梯度或参数),而不上传原始数据。
- 特点:
- 数据不出本地 → 保护隐私
- 模型聚合在服务器完成
- 问题:单独使用FL,上传的梯度仍可能泄露信息(例如,梯度可能被逆推回原始数据)。
差分隐私(Differential Privacy,DP)提升输出隐私
差分隐私是一种数学方法,用于在统计和模型训练过程中保护个体信息。其核心思想是:即使有人知道所有其他数据,也无法从输出结果推断出某个个体的存在或信息。
举例说明:如果你发布了一个用户年龄的平均值,通过差分隐私方法,你会在平均值中加入一些随机噪声。
噪声不是随便加的,加得太大,数据失真,加得太少,起不到保护作用,噪声是有要求的,假设数据集D,现在加入噪声M等到数据集D’,将数据集D中随意拿到一个记录,再加入噪声M得到D”,对D’和D”的数据计算结果要一样的才可以。
详细原理示例:
假设现在有一家10个员工的公司,员工想知道自己的工资水平在公司的水平,但又不想直接将自己的工资数据分享出去,所以它们找了一个第三方的人,然后让第三方的人去统计平均工资:
但如果其中有一个人知道其他八个人的工资,只有一个人的是不知道:
如果他知道平均工资,那么可以推断出那个人是45K,为了防止这种情况出现,第三方的人在数据中加入噪声,使得即使减少掉一个人计算出来的平均值也是在合理范围内
然后计算平均薪酬,这个薪酬是添加了噪声之后计算,就倒推不出那个人的工资,从而保护用户的隐私:
- 作用:在模型参数或梯度上传前加入随机噪声,保证单个用户的数据无法被推断。
- 在FL中的关系:
- FL + DP → 即使聚合的梯度被泄露,也无法恢复用户的原始数据
- DP主要解决的是信息泄露风险。
差分隐私有两种工作模式:Global Privacy和Local Privacy。
Global Privacy
数据中心统一加噪声后再对外提供服务。
Local Privacy
在用户设备本地完成模型的训练,上传权重参数,而非数据,不再需要用户把数据发送到服务器,然后在服务器上进行模型训练,而是用户本地训练,加密上权重参数,服务器端会综合成千上万的用户模型后再反馈给用户模型改进方案。
在全球范围内,Local通常更准确,更为保守,更安全的模式。
这种方式也是有缺点的:首先对于小型数据不适用;其次要加入噪声,是对数据准确度要求高的也不适用,如做异常监测的时候,你给它加个干扰项?
同态加密(Homomorphic Encryption,HE)保证传输与计算安全
同态加密是一种加密技术,它允许在加密数据上直接进行运算,而无需先解密。运算结果解密后,和对原始数据进行运算得到的结果是一样的,从数据的角度如下图:
- 作用:对数据或梯度进行加密,服务器在加密状态下完成计算,解密后结果与明文计算一致。
- 在FL中的关系:
- FL + HE → 模型参数在传输和聚合过程中保持加密状态,服务器无法直接看到明文
- HE解决的是计算过程中的数据泄露问题。
同态加密可以分为以下4个步骤:
- 密钥生成算法:Keygen就是秘钥生成算法,它生成了秘钥EncKey和解密算法Deckey
- 加密算法:用秘钥算法生成的的秘钥Enckey对数据Plaintext做加密Encryption,生成加密的Cliphertext
- 计算算法:对加密数据Cliphertext做处理结算
- 解密算法:就是DecKey,可以将加密数据Cliphertext还原成Plaintext
全同态加密
全同态加密(Fully Homomorphic Encryption, FHE),自2009年提出经过10年的发展,已经有了很大的突破,可以分为三个阶段:
第一代方案:理想格(ideal lattice)
第一代方案其实是包含基于理想格和基于最大近似公因子问题的变种两种方案:
- 基于理想格(ideal lattice)的方案:Gentry 和 Halevi 在 2011 年提出的基于理想格的方案可以实现 72 bit 的安全强度,对应的公钥大小约为 2.3 GB,同时刷新密文的处理时间需要几十分钟。
- 基于整数上近似 GCD 问题的方案:Dijk 等人在 2010 年提出的方案(及后续方案)采用了更简化的概念模型,可以降低公钥大小至几十 MB 量级。
这一代方案缺点是密钥尺寸大、效率低下。
第二代方案:容错学习
第二代全同态加密方案通常基于(R)LWE假设,LWE全称是Learning with Eror,是有错误学习。
- BV方案(Brakerski-Vaikuntanathan):2011 年,Brakerski 和 Vaikuntanathan基于 LWE 与 RLWE 分别提出了全同态加密方案,其核心技术是再线性化和模数转换。他们还提出了循环安全的类同态加密方案,但由于不能自举,所以达不到全同态。
- BGV方案(Brakerski-Gentry-Vaikuntanathan ):依次使用模数转换能够很好的控制噪音的增长,层次型全同态加密可以同态计算任意多项式深度的电路,从而在实际应用中无需启用计算量过大的自举。
这一代方案计算是简单,缺点是在使用密钥交换技术时需要增加大量用于密钥交换的矩阵,从而导致公钥长度的增长。
第三代方案:特征向量
第三代是一种基于矩阵近似特征向量的全同态加密方案。
- GSW方案:Gentry 等人利用“ 近似特征向量”技术,设计了一个无需计算密钥的全同态加密方案。
- 此后很多方案都是基于GSW的优化。
不再需要密钥交换与模转换技术
半同态加密
半同态加密或部分同态加密,英文简称为SWHE(Somewhat Homomorphic Encryption)或PHE(Partially Homomorphic Encryption):
乘法同态
乘法同态性表现为 E(m1)E(m2)=E(m1m2):
- RSA算法:RSA 算法是建立在因子分解困难性假设基础上的公钥加密算法
- ElGamal算法:ElGamal算法建立在计算有限域上离散对数困难性假设基础上
加法同态
加法同态性表现为 E (m1 )E(m2)=E(m1+m2 mod n):
- Paillier:建立在合数模的高阶剩余计算困难性假设基础上
隐私保护集合交集(Private Set Intersection,PSI)用于多方样本匹配
PSI是一种密码学协议,用于让两方或多方在不暴露各自集合内容的前提下,计算集合的交集。
例如,医院想知道哪些患者同时在两家医院就诊,但又不想公开所有病人的信息。
举例说明:
- 医院A有病人ID集合
A={1,2,3,4} - 医院B有病人ID集合
B={3,4,5,6} - 通过PSI协议,两家医院可以得出交集
{3,4},而不会知道其他ID信息。
问题模型可以抽象为:
- 双方拥有的一定数量的用户,其中部分是共有的
- 在不泄露用户输入的任何隐私信息下,这些共同用户的数据打通
- 作用:允许多方在不泄露各自完整数据的前提下,计算集合交集。
- 在FL中的关系:
- 在跨机构合作训练模型前,PSI可以先找出共同样本或共同用户
- PSI主要解决的是数据对齐问题,而不是模型训练或加密计算。
逻辑关系图
参考
- Fully Homomorphic Encryption over the Integers
- Computing Arbitrary Functions of Encrypted Data
- https://www.accessnow.org/understanding-differential-privacy-matters-digital-rights/













