【论文选登】基于信息熵的数据集重标识风险评估方法

基于信息熵的数据集重标识风险评估方法


陈 磊1,2,薛见新1,2,张润滋1,2,刘文懋1

1.绿盟科技集团股份有限公司,北京100089;2.清华大学 自动化系,北京100084

摘要: 去标识化作为一种隐私保护技术,在数据发布领域得到了广泛应用。然而,在大数据时代下,攻击者可能获得了更多的关联数据,去标识数据集仍然存在重标识攻击的风险。基于Shannon信息熵,并结合信息安全风险评估框架,提出了一种综合的重标识风险评估方法。首先,将攻击者可能利用的数据集的各种属性组合归纳为若干个脆弱性,然后逐一对这些脆弱性从可能性和危害性两个维度进行评估。最后,为了综合评估整个数据集的重标识风险,构造了一种基于熵值增量和加权的评估算法。实验结果表明,所提评估方法可全面、直观地反映风险分布与趋势。


关键词:
隐私保护
去标识数据集
重标识风险评估
信息熵




中图分类号:TP399 文献标识码: A
DOI: 10.19358/j.issn.2096-5133.2020.12.001
引用格式:陈磊,薛见新,张润滋,等. 基于信息熵的数据集重标识风险评估方法[J].信息技术与网络安全,2020,39(12):1-7.

Re-identification risk assessment of de-identified datasets based on information entropy
Chen Lei12,Xue Jianxin1,2,Zhang Runzi1,2,Liu Wenmao1
1.Nsfocus Information Technology Co.,Ltd.,Beijing 100089,China;2.Department of Automation,Tsinghua University,Beijing 100084,China
Abstract: As a privacy protection technology, de-identification has been widely used in data publishing scenarios. However, in the era of big data, attackers may obtain more associated data, and there is still a risk of re-identification attacks on de-identified datasets. Based on information entropy and information security risk assessment framework, this paper proposes a comprehensive re-identification risk assessment method. Firstly, the various attribute combinations of a de-identified dataset that attackers may utilize are summarized into several vulnerabilities, and then these vulnerabilities are evaluated one by one from probability and impact dimension. Finally, in order to comprehensively evaluate the re-identification risk of the dataset, this paper constructs a fast evaluation algorithm based on entropy increments and weights. Extensive experimental results demonstrate that the proposed evaluation method can comprehensively and intuitively reflect the risk distribution and trend.
Key words : privacy protection;de-identified datasets;re-identification risk assessment;information entropy
0 引言
    在大数据时代下,数据共享、发布和交易等场景需求变得越来越多,一方面促进了数据流通与价值利用,另一方面引发的个人数据与隐私安全事件近年来呈现爆发趋势[1]
    为了应对挑战,在法规层面,全球掀起了数据隐私的立法热潮,如欧盟《通用数据保护条例》(GDPR)、美国《加州消费者隐私法案》(CCPA)等。我国2017年实施的《网络安全法》,其中一个章节专门明确个人信息安全;此外,我国《个人信息保护法》在加快立法与制定中。在技术层面,如何平衡数据利用与隐私保护问题,已经成为学术界和工业界的一大研究热点[2]。当前,已经发展出了保留格式加密(Format-Preserving Encryption,FPE)[3]、差分隐私(Differential Privacy,DP)[4]、K-匿名(K-Anonymity)[5]和L-多样性(L-Diversity)[6]以及去标识化(De-identification)[7]等技术。其中,去标识化技术通过对原始个人信息进行部分屏蔽、泛化和失真等数据变换操作,是一种意图消除“个人身份”的隐私保护技术。由于其处理规则简单灵活且易于并行处理(高效),目前在隐私保护的数据发布和数据挖掘等实际场景中有广泛应用与部署。通常,在工业界习惯称为“数据脱敏”。


本文详细内容请点击下载https://url.qingkuang.net/gjjvpm


添加回复:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。