AI工具可揭露匿名账户
AI工具可揭露匿名账户作者:James Bentley
来源:The Verge
引用:https://www.theverge.com/ai-artificial-intelligence/889395/ai-agents-unmask-anonymous-online-accounts
伦敦的《The Verge》记者,专注于人工智能报道,同时也是高级塔贝尔尔研究员。此前,他为《福布斯》撰写关于健康、科学和技术的文章。
如果你有Reddit的副账户、秘密的X账户、finsta账户或Glassdoor账户,用来抱怨你的上司?AI可能刚刚使揭露你的身份变得容易得多。这是最近一项研究的结论,它暗示了保持网络隐私的一些令人不安的后果——即使现在还不是为匿名举行葬礼的时候。
这项研究尚未经过同行评审,由苏黎世联邦理工学院、Anthropic和机器学习对齐与理论学者项目的研究人员完成。他们构建了一个由AI代理组成的自动化系统,使用未指定的模型——能够像人类调查员一样在网络上搜索和互动信息——以测试大型语言模型在重新识别匿名材料方面的有效性。该系统在去匿名化账户方面“显著优于”传统的计算技术,在大规模上搜索文本中的个人细节。
该系统通过将帖子或其他文本视为一组线索来工作。它分析文本中的模式——写作习惯、零散的传记细节、发帖频率和时间——这些可能暗示某人的身份。然后,它扫描其他账户,可能是数百万个账户,寻找相同的特质组合。可能的匹配项被标记出来,进行更详细的比较,并缩小到一份可能的身份名单。
团队不是针对不知情的用户,而是使用从公开可用的帖子构建的数据集评估了该系统,包括来自Hacker News和LinkedIn的内容、Anthropic对科学家如何使用AI的访谈记录,以及Reddit账户被故意分成两个用于测试的匿名部分。论文报告称,在每种情况下,基于LLM的方法都正确地识别了多达68%的匹配账户,精确度为90%。相比之下,类似的非LLM方法,如在大数据集中连接散点数据,几乎无法识别。
结果并非在所有数据集中都一致,并且,不出所料,当模型有更多结构化信息可供工作时,其表现更好。在一个实验中,研究人员检查了Reddit用户在r/movies主版块和较小的电影社区中发布关于电影的帖子,该系统能够在90%的精确度下将大约3%的提及一部电影的账户联系起来。当用户提及10部或更多电影时,成功率上升到近一半。
同时,使用Anthropic对科学家的调查进行的实验中,识别了125名受访者中的9名,召回率约为7%。在该测试中,系统根据受访者的回答中的线索为每位受访者建立了一个档案,然后在网络上搜索可能匹配的公开可用信息。在匹配的一个例子中,研究人员强调,提到“导师”可能表明是博士生,而使用英国英语可能暗示与英国的关联。结合提到物理科学背景和当前在生物研究工作,系统能够将范围缩小到特定的候选人。
尽管如此,研究人员认为,仅从非结构化文本中识别任何受访者的能力值得关注,这可以在几分钟内完成,而人类调查员可能需要数小时。此外,他们告诉《The Verge》,随着AI系统变得更加有能力并获得更大的数据池,性能可能会提高。更广泛地说,他们警告说,发布匿名帖子可能不再安全,可以保护在线身份,无论是过去还是未来。
“LLM找到的每一件事原则上都可以由人类调查员找到。”
“互联网上的信息永远存在,”苏黎世联邦理工学院的研究员、该研究的作者之一丹尼尔·帕莱卡说。这种持久性可能给依赖化名进行报道的记者、持不同政见者和活动家带来实际的风险,同时也能够实现“高度定向的广告”和“高度个性化的”诈骗。
去匿名化账户的风险并非新颖,也并非仅限于AI。帕莱卡告诉《The Verge》:“LLM找到的每一件事原则上都可以由人类调查员找到。”
帕莱卡认为,新的东西是端到端的自动化。曾经需要勤奋的调查员耐心地筛选帖子以寻找小信息的工作,现在可以更容易地完成,并且可以针对更多的目标。
它也很便宜。研究人员表示,他们的实验花费不到2000美元,每个他们运行的AI代理的成本在1到4美元之间。合著者西蒙·勒梅尔告诉《The Verge》,现在“经济学完全不同了”,较低的入门门槛可能会扩大有能力并有意尝试突破在线匿名的人。他说,那些历史上“隐于无形”的团体可能会发现很难继续这样做。
人们“可能误解了这项重要的研究,并得出结论说隐私已经死亡。”并不是这样。
重要的是不要过分夸大研究结果。牛津互联网学院的副教授卢克·罗谢告诉《The Verge》:“虽然这些算法正在改进,但它们仍然远远达不到人类的能力。”这项工作并不完美地映射到现实世界;实验是在实验室条件下进行的,使用的是为测试目的而精心策划和匿名的数据集。他们说,他们担心人们“可能误解了这项重要的研究,并得出结论说隐私已经死亡。”他们争辩说,隐私并没有死亡。
尽管在旨在揭露匿名用户的技术方面取得了多年的渐进式进步,“比特币的发明者中本聪的身份在十多年后仍然是个谜”,罗谢说。他们补充说,告密者仍然可以与记者联系而不会被揭露,并且像Signal这样的工具“到目前为止在保护我们的集体隐私方面已经取得了成功”。
在论文中,研究人员表示,他们为了避免道德问题而没有在真正的化名用户上测试他们的系统。出于类似的原因,他们没有发布他们方法的完整技术细节,并且在被要求时拒绝提供演示。该团队还表示,他们没有在研究范围之外测试该系统,再次引用道德问题,留下了一个问题,即它在对现实世界的账户进行测试时有多可靠。
对于已经深深致力于匿名的人来说,实际影响可能有限。基本预防措施——保持账户分开、限制个人细节、避免可识别的模式,如只在你的时区内醒着的时候发帖——仍然至关重要。
对于更随意地对待化名的人来说,帕莱卡和勒梅尔建议用户仔细思考在公共论坛上发布的内容,即使是感觉匿名的账户,并记住已经发布的内容可能比许多人想象的更容易拼凑起来。
研究人员争辩说,责任不应完全落在用户身上。勒梅尔说,AI实验室应监测其工具的使用方式,并建立阻止它们被用于去匿名化的保障措施。他补充说,社交媒体平台可以打击使这种努力成为可能的数据抓取和大规模数据提取。
换句话说,中本聪可能不会受到AI侦探的威胁。你在Reddit上发布的临时AITA帖子?那可能又是另一回事了。
页:
[1]