微软在开发AI模型时泄露了38TB敏感数据

作者:小编 更新时间2023-09-19 11:08:19 点击数:

微软近期的数据泄露事件凸显了AI模型训练过程中的安全风险和挑战。这一事件发生在GitHub公共存储库上,由于错误使用Azure平台的共享访问签名令牌(SAS),导致了38TB的私人数据泄露。

微软的AI研究人员通过一个权限过于宽松的SAS令牌在GitHub上分享文件,其中包括用于图像识别的开源代码和AI模型。然而,SAS令牌的危险在于缺乏监控和管理,因此难以追踪和控制。这使得微软的数据曝露了数年之久,严重威胁了数据的安全性。

微信图片_20230630144016.png

图源备注:图片由AI生成,图片授权服务商Midjourney

除了用于AI模型训练的数据,微软还泄露了两名员工工作站的磁盘备份,其中包括了“秘密”、私人加密密钥、密码以及属于359名微软员工的超过30,000条内部Microsoft Teams消息。总计有38TB的私人文件可能被任何人访问,直到微软于2023年6月24日吊销了危险的SAS令牌。

这次事件突显了SAS令牌的安全风险,因为它们缺乏监控和治理。Wiz指出,应尽量限制SAS令牌的使用,因为微软没有提供通过Azure门户进行集中管理的方式。

此外,SAS令牌可以配置为“实际上永久有效”,这使得难以追踪和控制其使用。首个微软提交到其AI GitHub存储库的令牌于2020年7月20日添加,有效期一直延续到2021年10月5日。随后又添加了第二个令牌,有效期设置为2051年10月6日。

总之,微软的这一多TB数据泄露事件凸显了AI模型训练的风险。这种新兴技术需要大规模的数据来进行训练,许多开发团队需要处理大量数据,与同行分享数据,或者参与公共开源项目的合作。然而,类似微软的事件变得越来越难以监控和避免,因此需要更强的安全措施和协同工作来确保数据的安全性和隐私保护。


Tag: AI数据 微软
首页 资讯 AI写作 我的