語意相似性混淆 (Semantic Similarity Confusion): RAG
系統的核心是透過向量嵌入來尋找與使用者查詢語意最相近的文件。攻擊者可以設計一個巧妙的提示,使其在語意上同時與多個(甚至衝突的)規則文件高度相關。
上下文拼接錯誤 (Context Splicing Error): 當 AI
檢索到多個看似相關但實則互斥的規則片段時(例如,一個說「哩程票不可升等」,另一個說「白金會員可付費升等」),它可能缺乏足夠的邏輯推理能力來辨識其衝突,反而會錯誤地將這些片段拼接成一個看似合理但實際上不存在的新規則。
缺乏消歧能力 (Failure to Disambiguate): 漏洞的根本原因在於 RAG
系統在檢索階段未能有效消除衝突資訊的歧義。它只是將最相關的幾個文件區塊提供給 LLM,而 LLM
在生成答案時,可能會優先考慮使用者提示中更具誘導性的部分(如「我是白金會員」、「我要支付$2000」),從而忽略了原始規則中的限制條件。