[科学技术]鱼与熊掌可以兼得-虎嗅科技日报

-“联邦移民学习”面临小数据和隐私问题的挑战

前海伟众银行和杨强科技大学

航空航天大学北航空计算机学院童永珍王盛宴

目前，人工智能领域发展迅速，市场前景广阔。2018年，独立咨询公司gartner提出，到2022年，人工智能的商业价值预计将达到3.9万亿美元。中国方面，清华大学发布的《中国人工智能发展报告2018》显示，2017年中国人工智能市场规模达到238亿元，同比增长67%。预计2019年中国人工智能市场增速将达到75%。

除了市场普遍看好，中国政府也非常重视人工智能的发展。2017年，《新一代人工智能发展规划》和《促进新一代人工智能产业发展三年行动计划》相继出台，旨在抓住重大战略机遇，引导产业发展。

算法、计算能力和数据是支撑人工智能发展的三大基石。近年来，以深度神经网络为代表的机器学习算法蓬勃发展，计算机硬件不断升级，算法和计算能力不足的问题得到了初步解决。互联网大数据的兴起，解决了过去数据不足的问题。第三波人工智能席卷而来。

人工智能遇到两大难题

现在我们终于打破了过去制约人工智能发展的种种障碍，人工智能未来的发展会是马平川吗？

现实没那么简单，尤其是对大数据的需求远远没有得到满足。大多数企事业单位都有大量的小数据，数据孤岛现象越来越严重。社会越来越重视隐私和安全，立法机关出台了相关的数据保护和隐私权法案。这些因素使得数据的获取、交换和聚合成为一个大问题，而这些困难很可能会导致这场人工智能浪潮由于数据的限制而再次陷入低谷。

[科学技术]鱼与熊掌可以兼得

首先，小数据的问题极大地限制了大数据的可用性。虽然互联网每天都会产生上亿的数据，但是真正有用的高维高质量数据却很少。另外，数据标签对于人工智能的分类任务来说是必不可少的，但是大部分数据缺乏分类标签，获取标签的成本巨大。数据标签的所有者(如金融机构)和用户的行为数据(如互联网企业)不能简单地交流自己的数据。在医学领域，具有专业素质的医生必须对数据进行标注。而医生的工作时间有限导致标记量的稀缺，极大地限制了高质量数据的生成。据估计，如果将医疗数据交给第三方公司进行标记，需要10，000人十年才能收集到有效数据。可见，人工智能在小数据、数据孤岛方面面临严峻的形势。

[科学技术]鱼与熊掌可以兼得

其次，近年来人们对数据隐私保护的关注，使得大数据的使用难度更大。2018年，欧盟颁布了《通用数据保护条例》(gdpr)，保护欧盟公民的数据隐私，违者将面临巨额罚款。该法案的许多条款将对人工智能产生影响，尤其是在数据的使用方面。例如，用户不仅可以拒绝贡献自己的数据，还可以后悔和撤回提交的数据。因此，如果数据采集器不能给出一个隐私保护的方法让用户放心，数据不足的问题就会成为人工智能发展的障碍。

[科学技术]鱼与熊掌可以兼得

即使用户同意贡献数据，也必须保证数据不能离开采集器，这对常见的多方合作训练模式影响很大。比如很多零售企业的数据无法连接形成大数据，每个公司只能用自己的小数据训练模型。这就是我们通常所说的“数据岛”。对隐私的担忧让数据像孤岛一样分散，无法聚集在一起产生更强大的效果。

总之，小数据和隐私关注这两大问题，在“数据”这个基石上制造了裂痕，随时都有可能让人工智能再次陷入低谷。

两个困境期待解决

事实上，已经有人试图解决这两个难题。但这些方案都是相对孤立的，并没有完全消除真正意义上使用大数据的隐患。

为了解决数据质量低、数据量小的问题，传统的解决方案是使用迁移学习。迁移学习，简而言之，就是将某一领域的数据或知识转移到其他类似领域，即使模型具有举一反三的能力。目前我们在一些领域已经有了足够的数据，已经有了训练结果比较成熟的模型。如果能把这些模型的能力“移植”到数据不足的领域，就能解决数据质量低或者标注不足的问题。目前比较成功的商业案例是第四范式公司提供的车贷营销模式。由于车贷样本数量少，没有标注，很难建模。但是微信上有大量的小额信贷数据，也可以建立一个效果不错的模型。因此，一个好的解决方案是先根据小额贷款数据建立模型，然后将模型迁移到车贷问题上，这样即使在数据不足的情况下，我们也可以使用迁移学习来达到良好的效果。

[科学技术]鱼与熊掌可以兼得

显然，迁移学习的结果可以基于多个数据所有者的合作。比如车贷的情况，需要车贷公司配合微信小额信贷，实现模式在类似领域之间的迁移。然而，当前的隐私问题使得直接迁移学习应用不再有效，因为传统的迁移学习没有考虑隐私安全。在包括上述gdpr在内的隐私法的限制下，企业之间的数据和模型合作将变得极其困难，数据匮乏领域的研究人员可能无法通过法律渠道获得其他领域的数据或模型。

[科学技术]鱼与熊掌可以兼得

其实也有尝试通过让个人或企业在隐私保护的约束下联合训练模型来打破数据孤岛的壁垒，这就是所谓的“联合学习”。它最早是由谷歌提出的，作为一种方法，让单个手机用户在原始数据不离开其手机终端的基础上，共同训练一个通用模型。具体来说，每个用户根据自己的私有数据在本地安卓手机上创建一个小模型，加密后上传到云，云将这些用户发送的小模型聚合成一个大模型，无需解密。由于用户上传的模型经过加密，数据安全，保护了用户的个人隐私，云通过聚合小模型实现了模型的联合训练。

[科学技术]鱼与熊掌可以兼得

我们的研究将联邦学习从Google的简单模型平均方法扩展到跨机构安全分布式联合建模，分为横向联邦学习和纵向联邦学习。横向联盟是针对用户特征相同但样本不同的Google用户，纵向联盟是针对用户样本重叠但特征不同的多机构合作建模场景。

然而，由于实际应用中数据量小的问题，很少有至少有一个相同样本维数或特征维数的数据。联邦学习虽然基本符合gdpr关于隐私保护的要求，但是并没有解决小数据的问题。那么，有什么办法可以同时解决这两个问题，让大数据的使用不再困难呢？我们给出一个可能的出路，那就是“联邦移民学习”。

“联邦移民学习”突破数据障碍

为了同时解决小数据和隐私问题，我们首先提出了联邦迁移学习的技术方案。该方案不需要聚合或交换多方数据，可以保证在小数据上使用迁移学习建模时隐私不被泄露，而在使用联合学习时知识可以迁移。

具体来说，我们考虑一个场景，其中有多个数据所有者，他们不能交换数据以保护隐私。同时，每个数据集中用户样本和用户特征的重叠部分很少，即它们各自的样本数据很少，数据不能聚合在一起。实际上，这样的场景目前非常常见，因为真实数据很难满足相同的样本或特征维度，而联邦迁移学习是解决这类建模场景的通用解决方案。它通过迁移学习解决了数据规模小、标签样本少的问题，同时可以基于联邦学习框架保护数据所有者的隐私，最终达到“有你的蛋糕也吃你的蛋糕”的效果。

[科学技术]鱼与熊掌可以兼得

为了更好地解释其具体过程，我们以两个数据所有者的场景为例，简要介绍联邦迁移学习。假设两个企业A和B想联合训练一个机器学习模型。他们有自己的用户数据，但是很少有共同的用户。同时两个企业位于不同的领域，所以用户特征的交集较少。为了保护用户隐私，A和B不能直接通过交换数据和迁移学习来训练模型。面对这样一个小数据和隐私保护的训练场景，我们可以使用联邦迁移学习方法来建模。

[科学技术]鱼与熊掌可以兼得

首先，对加密样本进行对齐。由于两个企业的用户之间只有很小的重叠，所以需要使用加密样本对齐的方法来确定共同用户。其次，训练加密的迁移学习模型，即在迁移学习过程中，通过加密传递计算的中间结果。该方法可同时应用于样本迁移、特征迁移和模型迁移。在整个训练过程中，A和B的数据都存储在本地，训练过程中的数据交换不会导致隐私泄露。最后，效果动机。

[科学技术]鱼与熊掌可以兼得

联邦迁移学习方法解决了为什么不同的组织要加入联邦一起建模的问题。我们可以利用一个永久性的数据记录机制(如区块链)来建立一个让所有参与者都满意的共识机制，从而估算各方的贡献。基于这一贡献，我们可以奖励对联盟有影响的组织，从而鼓励更多的数据所有者加入联盟。

实现垂直领域的技术落地

联邦迁移学习可以简单的扩展到多方合作，真正实现隐私保护下的小数据迁移学习。这里有两个案例来看看联邦移民学习技术如何与垂直领域相结合。

第一个例子是在金融领域的应用。金融行业非常重视数据的隐私性和安全性，不能直接收集不同机构的数据来训练模型。同时，小数据的问题一直困扰着金融业。因此，通过联邦迁移学习的方式训练联合模型是一个很好的选择。

以智能零售为例，这项业务涉及的特征主要包括用户购买行为、用户个人偏好和产品特征三部分，但这三部分数据很可能分散在三个不同的企业。比如银行有用户购买行为的数据，社交网站有用户个人喜好的数据，购物网站有产品的数据。在这样的场景下，数据壁垒很难打破，三方数据通常是异构的。传统的机器学习模型不能直接在异构数据上学习，联合迁移学习是解决这些问题的关键。首先，联邦学习法可以在保护企业数据隐私的前提下联合训练模型。其次，迁移学习的方法可以解决小数据和异构数据的问题。这样，联邦迁移学习突破了传统人工智能技术在金融领域的局限。

[科学技术]鱼与熊掌可以兼得

第二个例子是在医学领域的应用。以IBM“Watson”系统为例，作为人工智能在医学领域最著名的应用之一，最近被曝在一次模拟中错误开出了可能导致死亡的药物。为什么会有这样的误诊？沃森使用的训练数据应该包括症状、基因序列、检测结果等数据特征，但实际上这些数据都无法获得，大量数据缺乏标注。

数据的缺乏和标签的缺乏导致机器学习模型的训练效果不理想，成为目前智能医疗的瓶颈之一。如何突破这个瓶颈？如果所有医疗机构都可以收集数据来训练迁移学习模型，那么模型的质量会有质的突破，但是这种想法在现实中无法实现，因为医疗数据中包含了大量的敏感信息。联邦学习方法的应用可以在不收集各种医疗机构数据的情况下训练模型。同时，迁移学习可以解决标注数据严重缺失的问题，进一步提高模型效果。从这个角度来看，联邦移民学习将在智能医疗领域发挥重要作用。

[科学技术]鱼与熊掌可以兼得

目前，人工智能的发展面临着两个严峻的挑战:小数据和隐私问题。传统的迁移学习和新兴的联邦学习无法同时完美解决这两个问题。联邦迁移学习的提出，为打破数据壁垒，建立统一的解决方案框架提供了可能。可以利用多方数据和迁移学习技术，在不交换数据的情况下，联合训练模型，即“数据不动，模型动”。这种方法突破了数据壁垒，在保证隐私和数据安全的同时实现了双赢。预计未来联邦移民学习将在各个垂直领域开花结果，人工智能带来的红利将落实到社会的各个角落。

[科学技术]鱼与熊掌可以兼得