研究在人工智能图像数据集中发现虐待儿童图像的痕迹

2023-12-21 10:09:29
导读 人工智能每天都在进步;我们知道。它生成图像的能力长期以来一直是讨论的话题。即使在最近,此类图像也被用来操纵信息和制作捏造的媒体。为...

人工智能每天都在进步;我们知道。它生成图像的能力长期以来一直是讨论的话题。即使在最近,此类图像也被用来操纵信息和制作捏造的媒体。为了在一定程度上解决这个问题,谷歌发布了“关于此图像”工具,该工具提供图像的来源和背景,包括元数据(如果可以访问)。该工具首次在2023年GoogleI/O开发者大会期间发布。然而,最近的披露表明,人工智能图像生成的训练数据集包含虐待儿童图像的链接。鉴于全球范围内对此类内容的流通有严格的规定,这不仅是个问题,而且非常令人担忧。例如,美国联邦法律规定其为非法;如果罪名成立,可能面临终身监禁和最高25万美元的罚款。

斯坦福大学研究人员在生成人工智能中发现了虐待儿童图像的痕迹

斯坦福大学(斯坦福互联网观测站)的研究人员研究了AI图像生成数据集。他们发现StabilityAI的StableDiffusion和Google的Imagen图像生成器使用的LAION-5B数据集因包含至少1,679张来自各种社交媒体帖子和著名成人网站的非法图像而受到审查。

从2023年9月开始,一组研究人员仔细检查了LAION数据集,以确定它是否包含任何不当的儿童图像。他们主要使用称为“图像哈希”的特殊代码来检查图像。然后他们使用PhotoDNA等工具来证实他们的发现,加拿大儿童保护中心的专家也审查并同意他们的结果。

许多人认为LAION数据集存储的是真实的图片,但这并不准确。相反,它充当综合索引或列表,引导用户到可以在线查找图像的位置。它存储这些图像的网络链接以及随附的文本描述。

LAION做出回应,并确认其“零容忍政策”。

管理数据集的非营利组织LAION告诉彭博社,他们对有害内容保持“零容忍政策”。他们会暂时使数据集离线。在回应同一份报告时,StabilityAI强调了其防止滥用其平台的政策。他们澄清说,尽管他们的模型是使用LAION-5B数据集的部分内容进行训练的。不过,他们出于安全考虑,专门对其进行了细化和调整。

尽管研究人员强调了数据集中虐待儿童图像的痕迹,但他们解释说,这并不一定会影响模型的结果。然而,他们告说,仍然存在模型可能从图像中提取不需要的信息的潜在风险。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。