AI 安全性：新一轮初创企业竞相保护 AI 技术栈安全性

在纷纷投身生成式人工智能（AI）应用的浪潮中，各企业共同面临一个突出问题：安全性。

特别引人关注的是，构成现代 AI 技术堆栈核心的 AI 模型。这些模型需要处理大量的敏感企业数据，依赖难以精确控制的自我学习机制，并且常常部署在容易出错的环境中。与此同时，装备同样先进技术的网络犯罪分子正以空前的速度制造新威胁。AI 技术的广泛应用增大了受到网络攻击的风险面，大型语言模型（LLM）因此成为了诱人的攻击目标。

利用现有工具来保护这些模型已被证明是不可能的。因此，企业客户变得极为谨慎，他们的采纳速度并未能跟上市场的热度。（Menlo 的一份关于企业采用 AI 的报告特别指出，在大规模部署这些模型之前，客户希望得到数据交换安全和开源模型安全的保证。）

揭示生成式 AI 采用主要障碍的图表

这一挑战的复杂性和机遇的巨大规模促发了一波安全创新的潮流。以下，我们将概述当前市场的状况，指出 Menlo Ventures 将进行投资的领域，并强调那些为安全且可扩展的部署开辟道路的有前途的公司。

GenAI：新的威胁来源#

AI 模型日益成为网络攻击的目标。去年十一月，OpenAI 确认他们遭受了一次对其 API 和 ChatGPT 流量造成多次中断的 DoS 攻击。像 Anthropic* 和 OpenAI 这样的基础模型提供者已经表达了保护模型权重以防模型被盗的需求，这种盗窃可能通过泄露的认证信息或供应链攻击实现。

在使用中，LLM 容易受到提示注入、不安全的输出处理、敏感信息泄露和不安全的插件设计等问题的影响（来源：OWASP）。在 2023 年的 Black Hat 会议上，网络安全专家公开演示了一种合成的 ChatGPT 妥协方式，通过间接的提示注入修改聊天机器人，诱导用户泄露敏感信息。在其他场景下，提示注入可以驱动 LLM 生成恶意软件、进行诈骗（如钓鱼邮件）或发起不当的 API 调用。

LLM 在开发阶段也容易受到攻击。例如，Mithril Security 在 Hugging Face 上发布了一个经过篡改的开源 GPT-J-6B 模型，该模型针对特定提示生成假新闻。直到其公开该模型之前，Mithril 的篡改操作未被发现，该模型可供企业整合并部署。虽然这只是一个例子，但它清楚地传达了一个信息：被恶意利用的 LLM 可以造成广泛的破坏，难以被发现，更难以被解决。

幸运的是，网络安全和 AI 专家正在联合努力，正面应对这些挑战。

投资的时机已到：治理、可观察性和安全领域的巨大机遇#

我们将新兴技术分为三大类：治理、可观察性和安全，并认为采

纳将遵循这一顺序进行。然而，某些保护措施的紧迫性超过其他。由于模型消费威胁会将模型暴露给外部因素，这是一个迫在眉睫的问题，企业客户必须予以考虑。未来的 AI 防火墙和安全措施需在此方面缓解企业的担忧。对操作者而言，更复杂的攻击方式，如提示注入，也将成为关注重点。

治理解决方案，如 Cranium 和 Credo，帮助组织建立内部开发和第三方解决方案的 AI 服务、工具和负责人目录。它们为安全性和安全措施分配风险评分，并帮助评估业务风险。了解组织内部 AI 的使用情况是监测和保护 LLM 模型的第一步。

可观察性工具，无论是用于模型监控的广泛工具，如 Helicone，还是针对特定安全用例的工具，如 CalypsoAI，使组织能够汇总访问、输入和输出的日志，以便检测滥用行为并完整审计解决方案栈。

安全解决方案专注于在模型构建和使用过程中建立信任边界。对于内部和外部模型，严格控制模型使用边界至关重要。我们在 Menlo 特别看好 AI 防火墙提供商，如 Robust Intelligence、Lakera 和 Prompt Security，他们通过检查输入输出的合法性，防止提示注入，并侦测个人身份信息（PII）/ 敏感数据。同时，像 Private AI 和 Nightfall 这样的公司帮助企业识别和删除输入输出中的 PII 数据。重要的是，企业必须持续监视对 LLM 模型的威胁和攻击影响，并执行持续的红队测试。像 Lakera 和 Adversa 这样的公司致力于自动化红队活动，以帮助组织评估他们安全措施的坚固程度。此外，威胁检测与响应方案，如 Hiddenlayer 和 Lasso Security，旨在识别异常和可能的恶意行为，以对抗对 LLM 的攻击。

从许可第三方模型到微调或自主训练定制模型，构建模型的方法多种多样。任何进行微调或自定义构建 LLM 的过程中，都必须向模型输入大量的商业 / 专有数据，这可能包含财务数据、健康记录或用户日志等敏感信息。联邦学习方案，如 DynamoFL 和 FedML，通过在本地数据样本上训练本地模型，无需中心化数据交换，仅交换模型参数，来满足安全需求。Tonic 和 Gretel 通过生成合成数据来避免向 LLM 输入敏感数据的担忧。PII 识别 / 隐去解决方案，如 Private AI 或 Kobalt Labs，助力识别并隐去 LLM 数据存储中的敏感信息。当企业在可能存在成千上万漏洞的开源模型上进行构建时，如 Protect AI 提供的生产前代码扫描解决方案至关重要。最后，生产监控工具，如 Giskard，致力于持续寻找、识别并优先处理模型在生产中的漏洞。

值得一提的是，这一领域的发展速度比以往任何时候都快。尽管公司可能起步于市场的某一细分领域（例如，建立 AI 防火墙），但它们迅速扩展其功能，跨越整个市场图谱（例如，到数据丢失预防、漏洞扫描、可观察性等）。

Menlo 长期投资于如 Abnormal Security、BitSight、Obsidian Security、Signifyd 和 Immersive Labs 这样的网络安全领域的先锋公司。我们热切期待投资于那些拥有深厚 AI 基础设施、治理和安全专长的团队，他们正面对着不断演变、日益复杂的网络威胁景观 —— 尤其是在 AI 模型遭受攻

击日益频繁的背景下。如果您是一位在 AI 安全解决方案领域进行创新的创始人，我们非常希望与您取得联系。