CLOUDFLARE 打造的 theNet

處理 AI 產生的錯誤資訊

最大限度地降低 AI 模型錯誤推斷的風險和後果

AI 產生的錯誤資訊正在增加,這一問題日益引起關注。來自 Google 和幾個事實核查組織的研究人員表示,自 2023 年年中以來,AI 模型產生的誤導性內容數量急劇增加。

我們大多數人都渴望使用 AI 來提高效率、推動創新、增強網路安全等等。但我們需要意識到,AI 也可能產生錯誤資訊,這可能會對個人、企業和社會造成嚴重後果。

AI 模型會產生哪些類型的錯誤資訊?它們為什麼會產生不準確的資訊?作為安全領導者,我們該如何維護組織和公眾的利益?


AI 模型的一些限制

AI 產生的錯誤資訊問題部分源自於目前 AI 模型的限制。我們經常聽到關於 AI 推斷的說法,即 AI 模型依據新的即時資料進行推理或得出結論的能力。正如我之前所寫,AI 模型目前還無法真正進行推理,它們從即時資料中得出有意義見解的能力也遠非完美。

AI 模型最擅長的就是提供基於事實的答案。如果您讓一個大型語言模型 (LLM) 告訴您哥倫布登陸美洲的年份,它應該會給出正確的答案——除非該模型的建立或訓練方式有問題。

然而,AI 模型也可能將某個觀點當成事實來提供。例如,如果您問歐洲人是否有權定居美洲,AI 模型會提供一個觀點,但不會告訴您這是一個觀點。在商業環境中,一家公司的 AI 聊天機器人可能向客戶提供更多來自行銷內容而非事實的產品資訊。

AI 模型有時會同時呈現多種相互矛盾的觀點,這反而可能造成另一種困擾。舉例來說,若您向 ChatGPT 這類 LLM 詢問「史上最偉大的棒球選手是誰」,它會羅列各種觀點並為每種觀點提供基本論據。這些觀點或論證本身或許都「無誤」,但模型往往無法有效區分哪些觀點更具說服力,哪些相對薄弱。


是什麼導致 AI 產生的錯誤資訊?

錯誤的答案、被當作事實呈現的觀點,以及被當作具有同等價值的多種觀點,都可能被視為錯誤資訊。這些錯誤資訊可能是有意或無意產生的。

故意

AI 模型可以被操縱(或「投毒」),以產生特定的答案。例如,網路攻擊者可能會毒害某個企業用於訓練 LLM 的資料。攻擊者可能想透過操縱 LLM 在 AI 聊天機器人或基於 AI 的應用程式中產生錯誤答案,而使該企業難堪並損害其聲譽。

當然,模型投毒並非網路攻擊者的獨有伎倆。政治候選人或政府也可能故意將資料引入 AI 模型或使用其他操縱技術來傳播虛假資訊,從而散佈錯誤訊息。

另一種情況是,個人或組織可能會故意操縱其模型中的資料或資訊,以強化其特定觀點。電視新聞網路可能會對一位政治家進行正面描繪,並故意在選舉模式中排除某些資料,以暗示該政治人物很有可能獲勝。

例如,網路可以有意選擇對某位政治人物有利的資料點,而忽略對其不利的資料。網路能夠以類似的方式建構敘事,突顯事實上的成功或積極的政策建議,同時忽略政客的任何爭議或失敗。

無意

錯誤資訊也可能是無意的。組織可能會在不知情的情況下向模型提供有偏見的資料,導致得出扭曲的結論。以同樣的電視新聞網路為例:該網路可能會無意中忽略某些資訊或增加其他資訊的權重,即便並非出於惡意。結果仍然是模型產生誤導性預測。在很多情況下,模型傳遞錯誤資訊只是因為資料不足。您可能沒有收集到足夠的資料來提供準確的答案。此外,如果資訊順序對決策很重要,那麼資料輸入模型的時機也可能導致問題。

找到錯誤資訊的來源並確定它是否是有意為之可能非常困難,尤其因為 AI 模型通常存在於封閉、不透明的系統中。使用傳統的機器學習 (ML),您可以查看並理解模型背後的決策。但使用基於神經網路的 LLM,決策邏輯被隱藏在隱藏層中。LLM 會彙總資料並(從使用者的角度看來)施展魔法般地提供答案。使用者無權參與決策過程。因此,他們無法輕易找到潛在錯誤資訊的來源。


AI 錯誤資訊的影響

個人可能會根據 AI 產生的結果做出錯誤的決策。例如,AI 聊天機器人給出的錯誤答案可能會導致錯誤的投資、醫療保健、法律或工作決策。

同樣,企業領導者可能基於 AI 產生的錯誤資訊做出錯誤的決策。AI 模型可能會強調錯誤類型的網路安全威脅,導致安全領導者以錯誤的方式調整策略或實施次優解決方案。或者更普遍地說,領導者可能會在沒有足夠人工監督的情況下相信 AI 產生的見解。AI 模型可能無法考慮到細微的人為因素或道德考量。

更糟糕的是,它們可能完全遺漏某個威脅。假設您的團隊在某個惡意程式碼樣本中提交了 8 個登錄機碼。您的模型可能會錯誤地判定這不是惡意程式碼,而是軟體。為什麼?因為您之前提交的任何惡意程式碼的登錄機碼均不超過八個。因此,您的組織很容易受到任何不符合先前範本的惡意程式碼的攻擊。

錯誤資訊並非只存在於某個人或某家公司,而是可能造成廣泛影響。例如,傳播有關大型上市公司的虛假資訊可能會破壞金融市場的穩定。同樣,有關一個國家/地區的虛假資訊可能會影響地緣政治關係或外交政策,而 AI 模型可能會加劇這些問題。


調整預期

問題不僅在於 AI 模型會產生錯誤資訊,還在於我們總是想當然地認為這些 AI 產生的答案總是正確的。在我與其他公司安全團隊的互動中,我注意到有些人認為 AI 會提供正確的答案,並簡單地解決他們的問題——這令人不安。

AI 模型不是絕對的。它們不一定提供單一、明確的答案。以地圖軟體為例:若我要求導航應用程式規劃前往數州外某地的車行路線,它可能會列出多種選項。軟體可能會因為資料不足,無法計算出最短路徑;也可能會推薦一條快速但存在安全隱患的路線。

應用程式也可能建議一些各有優缺點的選項。例如,它可能會建議一條直接但無趣的高速公路路線。它也可能會建議一條風景更優美但耗時更長的路線。哪個更好?沒有唯一的「正確」答案。

我們也期望 AI 模型能夠準確預測未來會發生什麼。模型可以預測結果,但這些預測是基於過去的事件和資料。隨著新的、更相關的資料出現,必須將其納入現有模型。即便如此,模型也無法確定會發生什麼事。它們無法 100% 準確地預測接下來會發生什麼。

調整對 AI 的預期是關鍵。但是,當然,我們仍然需要盡一切努力降低它們產生錯誤資訊的可能性。


對抗錯誤資訊

我們可採取多種策略來減少 AI 模型產生的錯誤資訊。綜合運用這些策略,將有助於我們最大程度減少推斷錯誤——即使我們必須調整對 AI 的預期成效。隨著各國政府頒布新的 AI 使用法規(例如歐盟的《人工智慧法案》和美國聯邦貿易委員會的「人工智慧合規行動」),實施對抗錯誤資訊的策略對於避免罰款或其他監管行動至關重要。

  1. 收集更多資料:一般來說,擁有最多資料的 AI 模型開發人員最有可能做出準確的回應。然而,收集資料只是第一步。模型和應用程式建立者需要將這些資料轉化為能夠解決特定問題的功能。

  2. 實施資料品質和完整性措施:不良的資料治理可能導致錯誤資訊。當 AI 模型基於不完整、不准確、不一致、損壞或錯誤/異常值資料建置時,它們會提供不正確的答案。我們需要定期檢查和稽核,以驗證資料來源合法且未被篡改。

  3. 驗證輸出:除了驗證輸入資料外,我們還應該篩選 LLM 產生的內容,同時監控使用模式和提示。驗證輸出讓我們能夠在將錯誤資訊用於決策之前發現這些錯誤資訊——無論這些錯誤資訊時有意為之還是無意產生。實際上,我們可以用 AI 模型來驗證其他 AI 模型的輸出(和輸入)。這樣做可以幫助我們確保答案在事實準確的範圍內。

  4. 控制對開放原始碼模型的存取:影子 AI(特別是未經授權使用開放原始碼的公用 AI 模型)可能會放大錯誤資訊對企業的影響。監控企業內部這些模型的使用情況,有助於防止敏感性資訊洩露,並最大限度地降低員工根據錯誤資訊做出錯誤決策的風險。

  5. 加強內部模型的安全性:透過嚴格的存取控制、版本追蹤、加密和數位憑證鎖定內部 AI 模型,有助於防止有意或無意的投毒。我們應該密切注意模型的使用和部署方式,以發現任何篡改或盜竊行為。

  6. 為錯誤資訊攻擊做好準備:所有組織都應為錯誤資訊攻擊做好準備。就像防範 DDoS勒索軟體攻擊一樣,我們應該制定計畫來偵測攻擊、報告事件、控制損害,並與客戶、合作夥伴和公眾溝通問題。此類計畫的大部分內容應與典型的危機溝通策略保持一致。

  7. 使用人類判斷:我們需要辨別真假,而 AI 的出現正使這變得越來越困難。例如,「深度偽造」正變得越來越逼真,並且會隨著時間的推移而不斷改進。與此同時,個人和組織正在製作大量由 AI 產生的虛假文章、社群媒體貼文和貼文評論。不幸的是,我們遇到某個想法或所謂的事實越多,就越容易相信它是真實的——即使它並非如此。

人類的判斷力對於判斷我們接收到的是錯誤資訊還是虛假資訊至關重要。我們不需要知道問題的正確答案(如果只有一個正確答案),我們只需要根據自身過去的經驗,判斷答案是否在一系列可能性範圍內。就像有人誇大其詞或講述荒誕故事一樣,我們必須判斷哪些是事實,哪些是虛構。透過建立批判性思維、透明度和持續學習的環境,我們可以減輕 AI 產生的錯誤資訊帶來的風險。


AI 錯誤資訊的未來

毫無疑問,AI 將在我們的日常生活和工作中扮演越來越重要的角色。在我們為 AI 的近期和遠期發展做準備時,我們需要意識到 AI 可能產生錯誤資訊,並找到將其後果降至最低的方法。

通用人工智慧 (AGI) 的發展或許能幫助我們更好地識別模型的潛在問題。這個領域致力於創造更接近人類的智慧,可能開啟 AI 模型的封閉系統。我們或許能夠確定模型是如何得出特定答案的,並判斷該答案是否正確。

然而,就目前而言,最重要的工具之一就是我們自身強大的推理能力。我們需要對資訊保持懷疑態度。僅僅只是讀到一些內容或看了一段影片,並不意味著它就是真的。對抗錯誤資訊的最佳方法是運用我們傳統的常識。

Cloudflare 就影響當今技術決策者的最新趨勢和主題發表了一系列文章,本文為其中之一。



深入探討這個主題。

閱讀面向 CISO 的《AI 安全指南》,瞭解如何大規模建置、使用和保護生成式 AI。

作者

——Cloudflare 資安長 Grant Bourzikas (@rantbourzikas)



重點

閱讀本文後,您將能夠瞭解:

  • 導致 AI 錯誤資訊的原因

  • 根據 AI 模型的錯誤推斷做出決策的後果

  • 如何對抗錯誤資訊


相關資源


收到最熱門網際網路深入解析的每月回顧!