LLM02: Proprietary Algorithm Exposure

專有演算法洩露

模擬情境

一間求職網站「未來職涯」提供「AI 履歷分析健檢服務」，幫助求職者優化履歷。然而，攻擊者在履歷中植入隱藏指令，誘騙 AI 洩漏其賴以維生的「履歷篩選模型」核心演算法，此演算法是該公司的重要商業機密。

技術剖析

系統指令偽裝 (System Prompt Disguise): 攻擊者將惡意指令包裝成看似合法的系統內部命令（例如 `SYSTEM_DIAGNOSTIC_OVERRIDE`），誘使 AI 認為這是一個用於校準或除錯的高權限請求，而非普通用戶輸入。

上下文注入 (Contextual Injection): 惡意指令被巧妙地嵌入到正常的履歷內容中。AI 在處理其主要任務（分析履歷）時，會將整個文本作為上下文，從而無差別地讀取並執行了這段惡意指令，未能將其與普通履歷文字區分開來。

防護邊界繞過 (Guardrail Bypassing): 儘管 AI 的初始設定（System Prompt）明確禁止透露演算法細節，但偽裝成系統命令的注入式指令具有更高的迷惑性，成功繞過了 AI 的安全護欄，導致模型洩漏了其設計者意圖保護的敏感資訊和商業機密。