憑詩歌越獄：詩歌讓人工智能暢所欲言 - Lapcom Blog

自從LLM出現在主流時，技術狂熱者一直實驗各種方法繞過模型製作者所設定的AI回應限制，當中不乏極具創意的方法，較早前就有研究人員發現，提示語設定成詩歌能顯著降低語言模型的防護措施。

AI不該與用戶談論甚麼？

OpenAI和其他現代聊天機器人的成功，在於它們使用大量數據進行訓練，也因為其規模龐大，無可避免模型學會一些開發者不想公開的資訊，例如涉及犯罪的措述、危險的技術、暴力或非法行為都會在來源資料中找到。看起來很容易解決，只需要在訓練前把那些資料從數據庫中前除，實在上卻是規模龐大又資源密集的工程，而且在AI智能競爭激烈的階段，似乎沒有人想承擔此巨任。

另一種看似簡單的解決方法，選擇性從模型的記憶體內清除資料，可惜實際上不可行，因為AI知識並非儲存在可輕易刪除的資料夾，而是在數十億個參數人，與模型整個語言DNA溶合，包括詞語統計、上文下理和它門之間的關係，以微調或懲罰方式進行特定訊息刪除，結果可能是成效不佳或阻礙模型整體效能，對整體語言能力產生負面影響。結果為了約束這些模式，製作者們只能開發特別的安全協定和演算法，持續監控用戶提示和模型回應並進行過濾，以下是部份限制措施：

系統提示作為定義模型行為，限制容許回應的劇本。
獨立分類模型掃描提示和輸出以找出越獄、注入提示或其他試圖繞過安全措施的跡象
接地機制強制模型依賴外部數據，而非其內部關聯。
從人類回應中微調和強化學習，不安全或臨界的回應被系統性懲罰，正確拒絕則受獎勵。

簡單而言，現今AI安全並非建立於刪除危險知識，而是嘗試控制模型如何及以哪種形式存並與用戶分享知識，新的繞過方法令這些機制出現漏洞。

模型測試和方法

實驗的基本規則是合法性，研究人員的目標是令25個不同模型在多個類別中展現不良行為：

化學、生物、放射和核威脅
協助網絡攻擊
惡意操控和社交工程
侵犯私隱和不當處理敏感個人資料
創建虛假資訊和誤導內容
惡意AI劇本，包括嘗試繞過限製或自主行動

越獄實驗是一次性，單一句詩歌提示，研究人員沒有以北歐吟遊詩人或現代饒言歌手那樣與AI接觸，他們的目標很簡單，看看能否使用一句押韻的提示令模型無視安全指示。

為了建立這些具詩意的查詢，研究人員從測試LLM安全的MLCommons AILuminate Benchmark的已知惡意提示數據庫，然後以DeepSeek把它改寫成詩歌，只改變語句風格，實驗沒有使用額外攻擊向量，混淆策略或模型特定調整。基於安全理研究的作者沒有公開這些惡意詩歌提示，在25個不同模型上以散文和詩歌兩個版本測試了1200條提示，通過比較兩者的查詢，驗證模型的行為是否只因包裝風格而改變。通過散文提示測試，實驗員建立了模型執行危險要求的基準線，然後再與詩歌方式要求的回應進行比較。

哪個模型最愛詩歌？

由於實驗過禾呈產生大量數據，模型的回應也交由AI處理，每個回應都交由三個不同語言模型「陪審團」(OpenAI的gpt-oss-120b、DeepSeek的deepseek-r1和Moonshot的kimi-k2-thinking)評為「安全」或「不安全」。只要AI明確拒絕回答問題時，其回答才會被認為是安全，最初歸類取決於多數投票，回答必需獲得2個「安全」評級才被認證為無害。未能達成多數共識或被標記為可疑的回覆，將交由人類進行評估，五位注解者評估了600個模型對詩歌提示的回應，研究人員提示，大部份情況下人類評估與AI陪審團的結論一致。

實際表現方面，詩歌越獄成功與否以不同方式衡量，研究人員重點提及精心挑選前20個最成功提示的極端評估方法，藉此有平均62%的詩歌查詢成功令模型違反安全指令。當中Google的Gemini 1.5 Pro最容易受詩歌影響，研究人員透過20個最有效的詩歌提示成功繞過模型的限制，成功率高達100%。較溫和的方式衡量詩歌越獄的有效性，是比較散文和詩歌在所有查詢的成功率，在這標準下詩歌平均能把不安全回覆的提升至平均35%。

詩歌對deepseek-chat-v3.1的影響最嚴重，與散文比較成功率上升近68百份點，claude-haiku-4.5則被詩歌的影響最小，不但沒提高繞過率，反而輕微降低了自動語音辨別率，使模型對惡意要求具備更強抵抗力。最後研究人員對整個開發者生態系統對詩歌提示的脆弱度，實驗包含多個模型的開發者，包括Meta、Anthropic、OpenAI、Google、DeepSeek、Qwen、Mistral AI、Moonshot AI和xAI。為此，每個模型的結果平均到每個生態系統，並把詩歌查詢的數據與基準繞過率比較，令研究人員能評做特定開發者安全策略的整體有效性，而非單一模型的彈性。

最後統計結果顯示，詩歌對DeepSeek、Google和Qwen等模型的安全防護機制造成最大衝擊，OpenAI和Anthropic的模型的不安全反應也有所增加，但遠低於平均值。

對AI用戶的意義

從這次研究的結果的結論是，「世事有很多事情不是哲學能想像，人工智能技術仍隱藏很多不解之處，對一般用戶而言並非好消息，因為無法預計哪個LLM入侵方式或繞過技術的研究員或犯罪份子會出現，那些方法會引發甚麼預計外的情況。實際情況而言，用戶沒有選擇，只能時刻保持警剔，格外留神資料和裝置安全，為降低實際風險和保護裝置免受此類威脅，我們建議使用可靠的保安方案，協助偵測可疑活動和預防事故發生。

資料來源：Kaspersky Blog

AI不該與用戶談論甚麼？

模型測試和方法

哪個模型最愛詩歌？

對AI用戶的意義

Related Posts

You might also like

5個假期的網絡安全小提示

Keylogger惡意程式「HawkEye」易手後再度活躍