AI 安全性：新一輪初創企業競相保護 AI 技術棧安全性

在紛紛投身生成式人工智慧（AI）應用的浪潮中，各企業共同面臨一個突出問題：安全性。

特別引人關注的是，構成現代 AI 技術堆疊核心的 AI 模型。這些模型需要處理大量的敏感企業數據，依賴難以精確控制的自我學習機制，並且常常部署在容易出錯的環境中。與此同時，裝備同樣先進技術的網路犯罪分子正以空前的速度製造新威脅。AI 技術的廣泛應用增大了受到網路攻擊的風險面，大型語言模型（LLM）因此成為了誘人的攻擊目標。

利用現有工具來保護這些模型已被證明是不可能的。因此，企業客戶變得極為謹慎，他們的採納速度並未能跟上市場的熱度。（Menlo 的一份關於企業採用 AI 的報告特別指出，在大規模部署這些模型之前，客戶希望得到數據交換安全和開源模型安全的保證。）

揭示生成式 AI 採用主要障礙的圖表

這一挑戰的複雜性和機遇的巨大規模促發了一波安全創新的潮流。以下，我們將概述當前市場的狀況，指出 Menlo Ventures 將進行投資的領域，並強調那些為安全且可擴展的部署開闢道路的有前途的公司。

GenAI：新的威脅來源#

AI 模型日益成為網路攻擊的目標。去年十一月，OpenAI 確認他們遭受了一次對其 API 和 ChatGPT 流量造成多次中斷的 DoS 攻擊。像 Anthropic* 和 OpenAI 這樣的基礎模型提供者已經表達了保護模型權重以防模型被盜的需求，這種盜竊可能通過洩露的認證信息或供應鏈攻擊實現。

在使用中，LLM 容易受到提示注入、不安全的輸出處理、敏感信息洩露和不安全的插件設計等問題的影響（來源：OWASP）。在 2023 年的 Black Hat 會議上，網路安全專家公開演示了一種合成的 ChatGPT 妥協方式，通過間接的提示注入修改聊天機器人，誘導用戶洩露敏感信息。在其他場景下，提示注入可以驅動 LLM 生成惡意軟體、進行詐騙（如釣魚郵件）或發起不當的 API 調用。

LLM 在開發階段也容易受到攻擊。例如，Mithril Security 在 Hugging Face 上發布了一個經過篡改的開源 GPT-J-6B 模型，該模型針對特定提示生成假新聞。直到其公開該模型之前，Mithril 的篡改操作未被發現，該模型可供企業整合並部署。雖然這只是個例子，但它清楚地傳達了一個信息：被惡意利用的 LLM 可以造成廣泛的破壞，難以被發現，更難以被解決。

幸運的是，網路安全和 AI 專家正在聯合努力，正面應對這些挑戰。

投資的時機已到：治理、可觀察性和安全領域的巨大機遇#

我們將新興技術分為三大類：治理、可觀察性和安全，並認為採納將遵循這一順序進行。然而，某些保護措施的緊迫性超過其他。由於模型消耗威脅會將模型暴露給外部因素，這是一個迫在眉睫的問題，企業客戶必須予以考慮。未來的 AI 防火牆和安全措施需在此方面緩解企業的擔憂。對操作者而言，更複雜的攻擊方式，如提示注入，也將成為關注重點。

治理解決方案，如 Cranium 和 Credo，幫助組織建立內部開發和第三方解決方案的 AI 服務、工具和負責人目錄。它們為安全性和安全措施分配風險評分，並幫助評估業務風險。了解組織內部 AI 的使用情況是監測和保護 LLM 模型的第一步。

可觀察性工具，無論是用於模型監控的廣泛工具，如 Helicone，還是針對特定安全用例的工具，如 CalypsoAI，使組織能夠彙總訪問、輸入和輸出的日誌，以便檢測濫用行為並完整審計解決方案堆疊。

安全解決方案專注於在模型構建和使用過程中建立信任邊界。對於內部和外部模型，嚴格控制模型使用邊界至關重要。我們在 Menlo 特別看好 AI 防火牆提供商，如 Robust Intelligence、Lakera 和 Prompt Security，他們通過檢查輸入輸出的合法性，防止提示注入，並偵測個人身份信息（PII）/ 敏感數據。同時，像 Private AI 和 Nightfall 這樣的公司幫助企業識別和刪除輸入輸出中的 PII 數據。重要的是，企業必須持續監視對 LLM 模型的威脅和攻擊影響，並執行持續的紅隊測試。像 Lakera 和 Adversa 這樣的公司致力於自動化紅隊活動，以幫助組織評估他們安全措施的堅固程度。此外，威脅檢測與響應方案，如 Hiddenlayer 和 Lasso Security，旨在識別異常和可能的惡意行為，以對抗對 LLM 的攻擊。

從許可第三方模型到微調或自主訓練定制模型，構建模型的方法多種多樣。任何進行微調或自定義構建 LLM 的過程中，都必須向模型輸入大量的商業 / 專有數據，這可能包含財務數據、健康記錄或用戶日誌等敏感信息。聯邦學習方案，如 DynamoFL 和 FedML，通過在本地數據樣本上訓練本地模型，無需中心化數據交換，僅交換模型參數，來滿足安全需求。Tonic 和 Gretel 通過生成合成數據來避免向 LLM 輸入敏感數據的擔憂。PII 識別 / 隱去解決方案，如 Private AI 或 Kobalt Labs，助力識別並隱去 LLM 數據存儲中的敏感信息。當企業在可能存在成千上萬漏洞的開源模型上進行構建時，如 Protect AI 提供的生產前代碼掃描解決方案至關重要。最後，生產監控工具，如 Giskard，致力於持續尋找、識別並優先處理模型在生產中的漏洞。

值得一提的是，這一領域的發展速度比以往任何時候都快。儘管公司可能起步於市場的某一細分領域（例如，建立 AI 防火牆），但它們迅速擴展其功能，跨越整個市場圖譜（例如，到數據丟失預防、漏洞掃描、可觀察性等）。

Menlo 長期投資於如 Abnormal Security、BitSight、Obsidian Security、Signifyd 和 Immersive Labs 這樣的網路安全領域的先鋒公司。我們熱切期待投資於那些擁有深厚 AI 基礎設施、治理和安全專長的團隊，他們正面對著不斷演變、日益複雜的網路威脅景觀 —— 尤其是在 AI 模型遭受攻擊日益頻繁的背景下。如果您是一位在 AI 安全解決方案領域進行創新的創始人，我們非常希望與您取得聯繫。