生成合成数据的改进方法解决了研究中的主要隐私问题

缺乏数据是许多研究的主要瓶颈,尤其是开发更好的医疗方法和药物。这些数据极其敏感,可以理解的是,人们和公司都不愿意与他人分享他们的信息。

芬兰人工智能中心的研究人员开发了一种基于机器学习的方法,可以在原始数据集的基础上生成合成数据,使研究人员可以相互共享数据。这可以解决医学研究和其他信息敏感领域中持续存在的数据稀缺问题。

生成的数据保护隐私,与用于统计分析的原始数据保持足够相似。使用这种新方法,研究人员可以进行无数次分析,而不会影响原始实验中涉及的个体的身份。

“我们所做的是充分调整原始数据,以便我们可以在数学上保证没有人可以被识别,”阿尔托大学教授兼 FCAI 主任塞缪尔卡斯基解释说,他是该研究的合著者。

研究人员之前已经生成并使用过合成数据,但新研究解决了现有方法的一个主要问题。

“我们可能认为仅仅因为数据是合成的,它是安全的。但事实并非如此,”卡斯基解释道。

这是因为合成数据需要与原始数据集非常相似才能用于研究。在实践中,尽管进行了匿名化,偶尔也可以识别个人的身份。

为了解决这个问题,FCAI 研究人员利用了人工智能,特别是概率建模。这使他们能够使用关于原始数据的先验知识以及使其成为原始数据的过程——而不会过于接近用作合成数据基础的特定数据集的属性。例如,此类先验知识可能与酒精相关死亡率的已知性别差异有关,或者可能涉及有关如何收集特定数据集的领域知识。

利用先验知识也使合成数据集更有助于做出正确的统计发现——即使在原始数据集大小有限的情况下,这在医学研究中也是常见的。

“结合先验知识意味着我们可以使用我们拥有领域知识的小数据集的方法,”卡斯基说。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢