公共代码库中 AI 机密泄露：对开发者的警告

2025年6月19日

软件开发领域正经历一场变革，人工智能（AI）正在以惊人的速度融入我们的工作流程。AI 驱动的代码生成工具承诺提高效率并加速创新。然而，这种快速采用也带来了一系列新的安全隐患，尤其是敏感信息意外泄露到公共代码仓库中的风险。本文将深入探讨这一趋势，分析其原因、风险以及可行的应对措施，为软件开发者和组织提供一份警示。

AI 带来的可见性和安全漏洞

越来越多的组织开始在软件开发流程中采用 AI 模型，其中许多开发者利用生成式 AI 进行代码生成和自动化。然而，安全团队对这些 AI 工具的使用情况往往缺乏可见性，导致软件供应链中出现盲点。调查显示，几乎所有的安全专业人士都认为需要在开发环境中加强对基于 AI 的解决方案的监管。

毒性组合：AI 使用与松散的控制

研究表明，71% 的组织使用 AI 模型进行源代码开发，其中 46% 的组织以冒险的方式进行，例如在没有强制代码审查或分支保护的情况下将 AI 生成的代码推送到代码仓库。这形成了一种“毒性组合”，使得漏洞和敏感信息容易在公共代码库中被忽视。在某些情况下，开发者会使用信誉较低或维护不善的 AI 模型，这可能会引入恶意代码或窃取敏感数据。

现实世界的事件和风险

近年来，与 AI 生成代码相关的网络事件数量急剧增加。研究发现，近一半的 AI 生成代码片段包含错误或漏洞，并且有几起公开的泄密事件源于公共代码仓库中暴露的敏感信息或配置错误。攻击者通常不使用先进的 AI 技术，而是利用基本的疏忽行为，例如未修补的软件、被盗的凭证或缺失的安全审查。

AI 包中的漏洞

在流行的开源 AI 框架中发现了严重的漏洞，例如最近在基于 Python 的 Langflow 包中发现的远程代码执行漏洞（CVE-2025-3248）。此漏洞允许未经身份验证的攻击者通过公共端点在服务器上执行任意代码，表明与 AI 相关的包如果不妥善保护，可能会成为大规模攻击的载体。

OWASP AI 风险

与 AI 和大型语言模型 (LLM) 相关的常见漏洞包括：

提示注入攻击：通过操纵模型输出或泄露机密数据。
敏感信息泄露：通过意外或恶意提示进行信息披露。
供应链风险：来自不可信的第三方模型或插件。
数据/模型中毒：不当的输出处理和过度资源使用。

这些风险在 AI 生成的代码推送到公共代码仓库时尤为严重，因为敏感信息和漏洞很容易被发现和利用。

最佳实践与建议

为了降低敏感信息泄露和漏洞的风险，建议采取以下措施：

加强代码审查和分支保护

对所有代码仓库实施严格的代码审查和分支保护策略，尤其是在使用 AI 生成代码的仓库中。确保任何推送到公共存储库的代码都经过仔细审查，以识别并纠正任何潜在的安全问题。

审计和监控 AI 模型的使用

定期审计和监控开发环境中 AI 模型和工具的使用情况。了解正在使用的特定模型，并评估其安全性和可靠性。

避免使用低信誉的第三方 AI 包

避免使用信誉较低或维护不善的第三方 AI 包。选择来自受信任供应商的成熟且经过良好测试的软件包。

定期扫描代码库

定期扫描代码库，查找暴露的敏感信息、凭证和敏感数据。使用自动化扫描工具来简化此过程。

遵循安全框架

遵循既定的网络安全框架，并更新依赖管理实践，以保护开发团队免受上游风险。持续关注软件供应链的安全。

结论

将 AI 整合到软件开发中既带来了效率和创新，也引入了新的风险，尤其是敏感信息意外泄露到公共代码仓库中的风险。开发者和组织必须优先考虑安全控制、代码审查和警惕的监控，以保护敏感信息并维护对软件供应链的信任。在这个快速发展的 AI 时代，持续学习和适应是保障软件安全的关键。

john zhu

A4U信息网