神經網絡上的竊聽

攻擊者可以透過Whisper Leak攻擊猜測用戶與AI助手之間的對話主題,而且無需進行解密,只需要分析加密資料封包的收發時間模式,相信不乏人士希望加以利用,對於用戶又應該怎樣保護自與AI之間的對話。

Whisper Leak攻擊的運作

所有語言模型都會逐步產生輸生,用戶看起來就像另一個人正在逐個字輸入一樣,不過事實上語言模型的操作並非以單字或詞語,而是透過token(大型語言模型的一種語義單元),人工智能的回應會在產生這種token時顯示在螢光幕,這種輸出模式被稱為串流(streaming),結果透過計算串流的特徵來推斷對話主題,以前已經有過分析機器人發送token的長度,準確重組機器人之間聊天的文字。微軟的研究人員更進一步分析了30個不同AI模型的11800個提示的回應特徵,使用了100個圍繞著不同主題的提示。

在比較伺服器回應的延遲、封包大小和封包數量,研究人員能非常準確地分辨「危險」與「普通」的查詢,他們也使用了神經網絡分析,而不是大型語言模型,根據研究的模型,辨別「危險」主題的準確率在71%至100%之間,30個模型中有19個準確率高於97%。研究人員然後進行更複雜和真實性的實驗,他們對1萬個隨機對話的資料集進行測試,其中只有1個聚集於選定主題,結果更多變化,但模擬攻擊仍然頗成功,部份模型能在噪音中成功偵測訊號達50%,而且沒有出現誤報。

也有一些模型的成功率只有20%,但仍然沒有出現誤報,需要考慮的關鍵之一是結果不僅取決於特定AI模型,還有運行模型的伺服器配置,所以即使是相同的模型在微軟和OpenAI的伺服器上都可能有不同的結果,所有開源的模型也依照相同規律。

實際應用需要的條件

如果資源充足的攻擊者能存取受害者網絡流量的話,例如控制ISP或機構內的路由器,可以通過測量發送到AI助手伺服器流量,藉此偵測大比例的對話主題,而且錯誤率非常低。但是這並非自動偵測任何對話主題,攻擊者必需先針對特定主題對偵測系統訓練,該模型將只能夠辨別該主題。這威脅並非流於理論,執法機構可以監控與武器或毒品製造相關的主題,公司則能追蹤員工的求職查詢,不過倚靠這技術進行過百或千個主題的大型監控則不太可行,當中牽涉太多資源。

為了應對這研究,部份知名的AI服務已更改他們伺服器的演算法,令攻擊更加難以實行。

防範Whisper Leak攻擊

應對Whisper Leak攻擊的第一道防線應該由AI模型供應商負責,他們需要防範因token產生模式而被辨別產生文字,多家主要供應商已宣佈正應對這項威脅,在神經網絡發送封包中加入隱形充填,藉此干擾Whisper Leak演算法,值得注意的是Anthropic的模型從一開始就不受這種攻擊影響。用戶想採取防預措施可以考慮以下建議:

  • 處理敏感主題時使用本地AI模型
  • 配備使用非串流輸出的模型,令所有回應一次傳遞而並非逐個字傳遞。
  • 連線非信任網絡時避免討論敏感主題
  • 使用可靠的VPN增加連線保安
  • 謹記最有可能洩露資料的是電腦,安裝可靠的保安方案到電腦和智能手機。

資料來源:Kaspersky Blog