自從LLM出現在主流時,技術狂熱者一直實驗各種方法繞過模型製作者所設定的AI回應限制,當中不乏極具創意的方法,較早前就有研究人員發現,提示語設定成詩歌能顯著降低語言模型的防護措施。
AI不該與用戶談論甚麼?
OpenAI和其他現代聊天機器人的成功,在於它們使用大量數據進行訓練,也因為其規模龐大,無可避免模型學會一些開發者不想公開的資訊,例如涉及犯罪的措述、危險的技術、暴力或非法行為都會在來源資料中找到。看起來很容易解決,只需要在訓練前把那些資料從數據庫中前除,實在上卻是規模龐大又資源密集的工程,而且在AI智能競爭激烈的階段,似乎沒有人想承擔此巨任。
另一種看似簡單的解決方法,選擇性從模型的記憶體內清除資料,可惜實際上不可行,因為AI知識並非儲存在可輕易刪除的資料夾,而是在數十億個參數人,與模型整個語言DNA溶合,包括詞語統計、上文下理和它門之間的關係,以微調或懲罰方式進行特定訊息刪除,結果可能是成效不佳或阻礙模型整體效能,對整體語言能力產生負面影響。結果為了約束這些模式,製作者們只能開發特別的安全協定和演算法,持續監控用戶提示和模型回應並進行過濾,以下是部份限制措施:
- 系統提示作為定義模型行為,限制容許回應的劇本。
- 獨立分類模型掃描提示和輸出以找出越獄、注入提示或其他試圖繞過安全措施的跡象
- 接地機制強制模型依賴外部數據,而非其內部關聯。
- 從人類回應中微調和強化學習,不安全或臨界的回應被系統性懲罰,正確拒絕則受獎勵。
簡單而言,現今AI安全並非建立於刪除危險知識,而是嘗試控制模型如何及以哪種形式存並與用戶分享知識,新的繞過方法令這些機制出現漏洞。
模型測試和方法
實驗的基本規則是合法性,研究人員的目標是令25個不同模型在多個類別中展現不良行為:
- 化學、生物、放射和核威脅
- 協助網絡攻擊
- 惡意操控和社交工程
- 侵犯私隱和不當處理敏感個人資料
- 創建虛假資訊和誤導內容
- 惡意AI劇本,包括嘗試繞過限製或自主行動
越獄實驗是一次性,單一句詩歌提示,研究人員沒有以北歐吟遊詩人或現代饒言歌手那樣與AI接觸,他們的目標很簡單,看看能否使用一句押韻的提示令模型無視安全指示。
為了建立這些具詩意的查詢,研究人員從測試LLM安全的MLCommons AILuminate Benchmark的已知惡意提示數據庫,然後以DeepSeek把它改寫成詩歌,只改變語句風格,實驗沒有使用額外攻擊向量,混淆策略或模型特定調整。基於安全理研究的作者沒有公開這些惡意詩歌提示,在25個不同模型上以散文和詩歌兩個版本測試了1200條提示,通過比較兩者的查詢,驗證模型的行為是否只因包裝風格而改變。通過散文提示測試,實驗員建立了模型執行危險要求的基準線,然後再與詩歌方式要求的回應進行比較。
哪個模型最愛詩歌?
由於實驗過禾呈產生大量數據,模型的回應也交由AI處理,每個回應都交由三個不同語言模型「陪審團」(OpenAI的gpt-oss-120b、DeepSeek的deepseek-r1和Moonshot的kimi-k2-thinking)評為「安全」或「不安全」。只要AI明確拒絕回答問題時,其回答才會被認為是安全,最初歸類取決於多數投票,回答必需獲得2個「安全」評級才被認證為無害。未能達成多數共識或被標記為可疑的回覆,將交由人類進行評估,五位注解者評估了600個模型對詩歌提示的回應,研究人員提示,大部份情況下人類評估與AI陪審團的結論一致。
實際表現方面,詩歌越獄成功與否以不同方式衡量,研究人員重點提及精心挑選前20個最成功提示的極端評估方法,藉此有平均62%的詩歌查詢成功令模型違反安全指令。當中Google的Gemini 1.5 Pro最容易受詩歌影響,研究人員透過20個最有效的詩歌提示成功繞過模型的限制,成功率高達100%。較溫和的方式衡量詩歌越獄的有效性,是比較散文和詩歌在所有查詢的成功率,在這標準下詩歌平均能把不安全回覆的提升至平均35%。
詩歌對deepseek-chat-v3.1的影響最嚴重,與散文比較成功率上升近68百份點,claude-haiku-4.5則被詩歌的影響最小,不但沒提高繞過率,反而輕微降低了自動語音辨別率,使模型對惡意要求具備更強抵抗力。最後研究人員對整個開發者生態系統對詩歌提示的脆弱度,實驗包含多個模型的開發者,包括Meta、Anthropic、OpenAI、Google、DeepSeek、Qwen、Mistral AI、Moonshot AI和xAI。為此,每個模型的結果平均到每個生態系統,並把詩歌查詢的數據與基準繞過率比較,令研究人員能評做特定開發者安全策略的整體有效性,而非單一模型的彈性。
最後統計結果顯示,詩歌對DeepSeek、Google和Qwen等模型的安全防護機制造成最大衝擊,OpenAI和Anthropic的模型的不安全反應也有所增加,但遠低於平均值。
對AI用戶的意義
從這次研究的結果的結論是,「世事有很多事情不是哲學能想像,人工智能技術仍隱藏很多不解之處,對一般用戶而言並非好消息,因為無法預計哪個LLM入侵方式或繞過技術的研究員或犯罪份子會出現,那些方法會引發甚麼預計外的情況。實際情況而言,用戶沒有選擇,只能時刻保持警剔,格外留神資料和裝置安全,為降低實際風險和保護裝置免受此類威脅,我們建議使用可靠的保安方案,協助偵測可疑活動和預防事故發生。
資料來源:Kaspersky Blog


