theNet by Cloudflare

解决 AI 生成的虚假信息

最大限度地降低 AI 模型推理缺陷的风险和后果

AI 生成的虚假信息不断增加,这成为越来越令人担忧的问题。根据 Google 以及几家事实核查机构的研究人员所述,自 2023 年年中以来,AI 模型生成的误导性内容数量急剧增加。

大多数人都渴望利用 AI 来提高效率、推动创新、增强网络安全等。但人们须知,AI 也可能生成虚假信息,这可能会对个人、企业和社会造成严重后果。

AI 模型可能会生成哪些类型的虚假信息?它们为什么会生成不准确的信息?作为安全领导者,我们应该采取哪些措施来维护企业利益和公共利益?


AI 模型的一些局限性

AI 生成的虚假信息问题在某种程度上源于 AI 模型当前的局限性。我们经常听到 AI 推理,它是指 AI 模型根据新的实时数据进行推理或得出结论的能力。正如我之前所写,AI 模型目前还无法真正进行推理,而且 AI 模型根据实时数据生成有意义的见解的能力也还很不完善。

AI 模型擅长的是提供基于事实的答案。如果让大型语言模型 (LLM) 告诉你哥伦布登上美洲大陆的年份,它应该会给出正确答案,除非模型的构建或训练方式出了问题。

然而,AI 模型也可能提供一种观点,把它当作事实。因此,如果提问欧洲人是否有权定居美洲,AI 模型可能会提供一种观点,但不告诉你这是一种意见。在商业环境中,公司的 AI 聊天机器人可能会为客户提供更多源于营销内容(而非事实)的产品信息。

AI 模型也可能提供多种相互矛盾的观点,在某种程度上可能无益。如果是向 ChatGPT 这样的 LLM 询问谁是有史以来最伟大的棒球运动员,它会提供多种观点并为每种观点提供一般性论据。这些观点或论据可能实际上不是“错误的”,但 AI 模型可能无法充分区分哪些观点更中肯,哪些观点更糟糕。


哪些因素导致 AI 生成虚假信息?

错误答案、被当作事实展现的观点,以及被当作具有同等价值的多种观点,这些可能都被视虚假信息。可能是有意或无意地生成了虚假信息。

故意的

AI 模型可能被操纵,或者说“投毒”,以生成特定的答案。例如,网络攻击者可能会企业用来训练 LLM 的数据投毒。攻击者可能想要通过操纵 LLM 在 AI 聊天机器人或基于 AI 的应用中生成错误的答案,让企业陷入麻烦和声誉受损。

当然,模型投毒并非网络攻击者的独有伎俩。政治候选人或政府也可能有意传播虚假信息,通过故意将数据引入 AI 模型或使用其他操纵技术来散布虚假信息

另一种情况是个人或企业可以故意操纵其模型中的数据或信息,以强化其特定观点。电视新闻网络可能会将某位政客描绘成正面人物,并故意在选举模型中排除某些数据,以暗示该政客非常有机会赢得选举。

例如,新闻网络可能会选择性地选取对某位政客有利的数据点,而忽略对其不利的数据。新闻网络可能会采用类似的方式构建叙事,强调某位政客事实上取得的成功或积极的政策建议,而对其争议言论或失败视而不见。

无意的

虚假信息也可能是无意之举。企业可能会不知情地为模型提供有偏差的数据,导致得出扭曲的结论。还是以电视新闻网络为例:新闻网络可能无意中忽视了某些信息,或增加了其他信息的权重,但这并非出于恶意。结果依然是模型生成了误导性的预测。 在许多情况下,模型输出虚假信息仅仅只是因为数据不足。可能没有收集到足够的数据,导致无法提供准确的答案。此外,如果信息顺序是做出决策的关键,则输入模型数据的时间也可能会导致出现问题。

可能非常难以找到虚假信息的来源并确定其是否为蓄意行为的结果,尤其是因为 AI 模型通常存在于封闭、不透明的系统中。使用传统的机器学习 (ML),您可以看到并理解模型背后的决策依据。但如果使用基于神经网络构建的 LLM,其决策逻辑掩蔽在隐藏层中。LLM 会汇总数据,并且从用户的角度来看,LLM 会施展一些魔法来提供答案。用户无权参与决策流程。因此,他们无法轻松找到潜在虚假信息的来源。


AI 虚假信息的影响

个人可能会根据 AI 生成的结果,做出不明智的决策。例如,AI 聊天机器人提供的错误答案,可能会导致糟糕的投资、医疗、法律或工作决策。

同样,企业领导者可能会根据 AI 生成的虚假信息做出糟糕的决策。AI 模型可能会强调错误的网络安全威胁类型,从而导致安全领导者采用错误方法来调整策略或实施次优解决方案。或者更笼统地说,领导者可能在缺乏充分的人为监督的情况下信任 AI 生成的见解。AI 模型可能无法考虑微妙的人为因素或道德考量。

更糟糕的是,他们可能完全遗漏了一个威胁。假设团队提交了八个注册表项作为恶意软件样本的一部分。AI 模型可能会错误地认为这不是恶意软件,而是常规合法软件。为什么?因为之前提交的恶意软件都没有超过八个注册表项。因此,如果恶意软件不符合上述模板的条件,企业将容易受到攻击。

虚假信息并非仅限于个人或公司,它可能会造成广泛影响。例如,传播关于大型上市公司的虚假信息可能会破坏金融市场的稳定。同样地,传播关于某个国家/地区的虚假信息可能会影响地缘政治关系或外交政策,而 AI 模型可能会加剧这些问题。


调整预期

问题不仅在于 AI 模型会生成虚假信息,还在于我们假设这些 AI 生成的答案始终正确无误。在与其他公司的安全团队互动交流时,我注意到,有些人认为 AI 会提供正确答案并简单地解决其问题,这有点令人不安。

AI 模型不是绝对的。它们不一定提供单一、明确的答案。以地图软件为例。如果我要求地图应用绘制一条前往几个州之外特定目的地的汽车驾驶路线,它可能会提供多种选择。软件可能没有足够的数据,无法计算最快捷的路径。或者,它可能会推荐一条不安全的快速路线。

应用也可能会推荐一些具有明显优缺点的选项。例如,它可能会展示一条笔直但枯燥乏味的高速公路路线。它也可能推荐一条风景更美、但更耗时的路线。哪一条路线更好?没有单一的“正确”答案。

我们还期望 AI 模型能够准确预测未来会发生的事情。模型可以预测结果,但这些预测均基于过去的事件和数据。随着关联性更强的新数据的出现,必须将其纳入现有模型。即便如此,模型也不确定接下来会发生什么。它们无法凭直觉 100% 准确地知道接下来会发生的事情。

调整对 AI 的预期是关键。但是,当然了,我们仍然需要竭尽全力降低 AI 生成虚假信息的可能性。


打击虚假信息

有多种策略可以帮助我们减少 AI 模型生成的虚假信息。这些策略结合起来,即使我们降低了预期,也能最大限度地减少推理错误。随着各国政府颁布新的 AI 使用法规(例如欧盟的《人工智能法案》和美国联邦贸易委员会的“人工智能合规行动”),实施打击虚假信息的策略是避免罚款或其他监管行动的关键。

  1. 收集更多数据:通常,拥有最多数据的 AI 模型开发人员最有可能生成准确的答案。然而,收集数据只是第一步。模型和应用构建者,需要将这些数据转化为能够解答特定问题的功能。

  2. 实施数据质量和数据完整性措施:糟糕的数据治理可能会导致产生虚假信息。如果 AI 模型是在不完整、不准确、不一致、已损坏或错误/异常数据的基础上构建,它们会提供错误答案。我们需要定期运行检查和审计,以核实数据来源是否合法,以及数据是否已被篡改。

  3. 验证输出:除了验证输入数据之外,我们还应该过滤 LLM 生成的内容,同时监测使用模式和提示。验证输出让我们能够在利用虚假信息做决策之前加以识别(无论是有意还是无意)。实际上,我们可以使用 AI 模型来验证其他 AI 模型的输出(和输入)。这样做可以有助于确保答案在符合事实、准确的范围内。

  4. 控制对开源模型的访问:影子 AI,尤其是未经授权使用开源的公共 AI 模型,会放大虚假信息对企业的影响。监测企业内部对这些 AI 模型的使用,有助于保护敏感信息免遭泄露,并最大限度地降低员工根据虚假信息做出错误决策的风险。

  5. 加强内部模型的安全性:通过严格的访问控制、版本跟踪、加密和数字证书来锁定内部 AI 模型,有助于防止有意和无意的投毒。我们应该密切关注模型的使用和部署方式,以发现任何篡改或盗窃行为。

  6. 防范虚假信息攻击:所有企业都应做好应对虚假信息攻击的准备。就像准备应对 DDoS勒索软件攻击一样,我们应该制定计划来检测攻击、报告事件、控制损失,以及与客户、合作伙伴和公众沟通问题。此类计划的大部分内容应与常规的危机沟通策略保持一致。

  7. 运用人类的判断力:我们需要辨别真假,而使用 AI 时却变得更加难以识别。例如,“Deepfakes”(深度伪造)正变得越来越逼真,并且它会随着时间的推移不断改进。与此同时,个人和企业也创建了大量由 AI 生成的虚假文章、社交媒体帖子和帖子评论。遗憾的是,人们接触某个想法或所谓的事实越多,就越容易相信它是真实的,即使它并不是真实的。

人类的判断力是确定接收的是无意的虚假信息还是蓄意的虚假信息的关键。我们不需要知道问题的正确答案(如果只有一个正确答案),只需要根据自己过去的经验,判断答案是否处于一系列可能性范围中。这就像有人夸大其词或编造荒诞故事一样,我们必须判断哪些是事实,哪些是虚构。通过营造批判性思维、透明和持续学习的环境,我们可以减轻 AI 生成的虚假信息带来的风险。


AI 虚假信息的未来

毫无疑问,AI 将在我们的日常生活和工作中发挥日益重要的作用。在我们为 AI 的近期和远期发展做准备时,我们需要意识到 AI 可能会生成虚假信息,并找到将其不利影响降至最低的方法。

通用人工智能 (AGI) 的发展可以帮助我们更好地识别模型的潜在问题。这个领域致力于构建更像人类的智能,它可能会打开 AI 模型的封闭系统。我们也许能够确定一个模型如何得出特定答案,并判断它是否错误。

然而,就目前而言,一些最重要的工具是人类强大的推理能力。我们需要对信息保持怀疑态度。仅仅因为我们阅读了一些内容或观看了一个视频,并不意味着它是真的。对抗虚假信息的最佳方法是运用古典的传统常识。

本文来自有关影响当今技术决策者的最新趋势和主题的系列文章。



深入探讨这个话题

阅读面向 CISO 的《确保安全的 AI 实践指南》,了解如何大规模构建、使用和保护生成式 AI。

作者

Grant Bourzikas — @grantbourzikas
Cloudflare 首席安全官



关键要点

阅读本文后,您将能够了解:

  • 哪些因素导致 AI 生成虚假信息

  • 根据 AI 模型存在缺陷的推理做决策的后果

  • 如何应对虚假信息


相关资源


接收有关最流行互联网见解的每月总结。