Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the advanced-cron-manager domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /www/wwwroot/www.help4uu.com/wp-includes/functions.php on line 6121
苹果、NVIDIA和Anthropic涉嫌未经许可使用YouTube转录文本训练AI模型 | 科技云

苹果、NVIDIA和Anthropic涉嫌未经许可使用YouTube转录文本训练AI模型

近日,Proof News的一项新调查发现,全球一些最大的科技公司在未经许可的情况下,使用了包含超过173,000个YouTube视频转录文本的数据集来训练其AI模型。这个数据集由非营利组织EleutherAI创建,包含来自超过48,000个频道的YouTube视频转录文本,包括苹果NVIDIAAnthropic等公司都使用了该数据集。这项调查揭示了AI技术的一个不为人知的事实:大部分AI技术是建立在未经过创作者同意或补偿的数据基础上的。

该数据集不包括任何来自YouTube的视频或图像,但包含了该平台上一些最大创作者的视频转录文本,例如Marques Brownlee和MrBeast,以及大型新闻出版商如《纽约时报》、BBC和ABC新闻。Engadget的视频字幕也在数据集中。

Marques Brownlee在X平台上发布称,“苹果从多家公司获取了他们的AI数据,其中之一从YouTube视频中抓取了大量数据/转录文本,包括我的视频。”他补充道:“这将会是一个长期存在的问题。”

Google的一位发言人告诉Engadget,YouTube CEO Neal Mohan之前的评论仍然有效,即使用YouTube数据来训练AI模型将违反平台的服务条款。苹果、NVIDIA、Anthropic和EleutherAI都没有回应Engadget的评论请求。

到目前为止,AI公司对于用于训练其模型的数据一直不够透明。本月早些时候,艺术家和摄影师批评苹果没有透露用于训练其Apple Intelligence的训练数据来源,这是一种即将推出的生成式AI技术,将应用于数百万苹果设备。

YouTube是世界上最大的视频存储库,不仅包含转录文本,还包含音频、视频和图像,使其成为训练AI模型的宝贵数据集。今年早些时候,OpenAI的首席技术官Mira Murati在接受《华尔街日报》采访时,回避了关于公司是否使用YouTube视频来训练其即将推出的AI视频生成工具Sora的问题。Murati当时表示:“我不会详细说明所使用的数据,但它是公开可用的或有许可的数据。”Alphabet CEO Sundar Pichai也曾表示,使用YouTube数据来训练AI模型的公司将违反平台的服务条款。

如果你想查看你或你喜欢的频道的YouTube视频字幕是否包含在数据集中,可以访问Proof News的查询工具。

文章来源于互联网:https://www.tephone.com/article/26734

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注