Nature封面:AI训AI 越训越傻

AI训练AI,可能会让AI变傻?!

来自牛津、剑桥等学校机构的研究人员最新发现,使用合成数据训练,大模型可能会崩溃。其研究成果被选为最新的Nature封面

直接一个:GARBAGE OUT!

Nature封面:AI训AI 越训越傻

要知道,现在绝大部分科技公司的大模型都在用合成数据来缓解数据荒。这下无疑是整个行业浇了一波冷水。

研究团队给了这样一个例子。

他们测试了Meta的OPT-125m模型,询问了关于中世纪建筑的相关信息。

Nature封面:AI训AI 越训越傻

每一次微调都是由上一次生成的数据来训练。结果前面几轮回答还好。结果就在第九次,就开始胡说八道

扯到兔子是什么鬼?!

该论文主要作者表示,他们曾考虑过合成数据可能对大模型造成误差,但未曾预料到模型的恶化速度会如此迅速。

三个误差导致模型崩溃

首先,团队定义了什么是模型崩溃。

模型崩溃是一个退化过程,模型生成的内容会污染下一代的训练数据集。而在被污染的数据上训练之后,新一代模型就容易误解现实。

以此循环往复,一代更比一代差。

Nature封面:AI训AI 越训越傻

按照时间推移,主要分为两种情况:早期模型崩溃和晚期模型崩溃。

早期模型崩溃中,模型开始丢失一些尾部信息。(类似概率分布中一些低概率事件) 而在晚期模型崩溃,模型将收敛到同原始分布几乎没有任何相似之处。

这一过程的发生,同模型设计、学习过程和所用数据质量有关。

具体到理论中,主要包括了这三个误差导致大模型同原始模型的偏离。

统计近似误差。这是主要类型的误差,由于样本数量有限而产生,并随着样本数量趋于无穷大而消失。这是因为在重新采样的每一步中信息都有可能丢失,这种概率不为零。函数表达性误差。这种误差是由于函数近似表达能力有限而产生的。特别是,神经网络只有在其规模达到无穷大时才是通用近似值。不过,在没有其他两种误差的情况下,这种误差只会发生在第一代。函数近似误差。主要由学习过程局限性引起,例如随机梯度下降的结构偏差或目标的选择。这种误差可以看作是在无限数据和每一代都具有完美表达能力的情况下产生的误差。

对语言模型的影响

随后研究人员评估了模型崩溃对语言模型的影响。由于从头开始训练大模型成本非常高,他们选择评估语言模型最常见的设置:微调设置

每个训练周期都从具有最新数据的预训练模型开始。训练数据来自另一个经过微调的预训练模型。

他们用Meta因果语言模型OPT-125m,在wikitext2上进行了微调。

为了从训练好的模型中生成数据,团队使用了five-way波束搜索。他们将训练序列设为 64 个token长度;然后对于训练集中的每个token序列,要求模型预测下一个64个token。

他们会浏览所有原始训练数据集,并生成一个相同大小的人工数据集。如果模型的误差为0,它就会生成原始的wikitext2数据集。

为了进一步感受区别,他们采用两种不同的设置:一组是除了最开始训练,后续过程没有任何原始训练数据;另一组则是保留10%的原始数据。

Nature封面:AI训AI 越训越傻

结果显示,随着时间推移,模型产生的错误会增加。在模型完全崩溃之前,它还会导致模型遗忘数据集中低概率事件,他们的输出也变得更加同质化。最终也就出现了开头这一现象。

另外在VAE、GMM模型中看到了类似模型崩溃的现象。

Nature封面:AI训AI 越训越傻

Nature封面:AI训AI 越训越傻

来自杜克大学的Emily Wenger教授表示,到目前为止,要缓解这一问题并非易事。

有领先的科技公司已经部署了一项技术,即嵌入水印——

标记AI生成的内容,让其在训练数据中排除。但困难在于,这需要科技公司之间的协调,因此不太具有商业可行性。

这样一来,那从之前互联网获取数据的公司,他们训练的模型更能代表现实世界。所以,最开始那一波大模型算是有了先发优势。

对于这一观点,你怎么看呢?

以上就是关于【Nature封面:AI训AI 越训越傻】的相关消息了,希望对大家有所帮助!

文章来源于网络。发布者:北方经济网,转转请注明出处:https://www.hujinzicha.net/2024/07/28/6923.html

(0)
北方经济网的头像北方经济网
上一篇 2024 年 7 月 28 日 下午12:13
下一篇 2024 年 7 月 28 日 下午12:13

相关推荐

  • 轻松查询二手车交强险信息,安全购车无忧出行

    您是否在购买二手车时对交强险信息的查询感到困惑?现在,我们为您揭晓如何轻松查询二手车交强险信息,让您安心购车,无忧出行。 首先,您可以通过车辆登记地的保险公司网站、APP或微信公众号进行查询。输入车辆的车辆识别代码(VIN),即可获取该车辆的交强险信息。这一过程简单快捷,无需耗费过多时间。 此外,您还可以通过第三方查询平台进行查询。现在二手车商一般会在微信小…

    2024 年 9 月 1 日
    2100
  • 超国标6倍!奇瑞星纪元ES 120km/h三车夹击对撞:碰撞结果出炉

    快科技7月16日消息,日前,奇瑞在天津的中汽中心试验室,进行了星纪元ES进行了超高速120km/h三车夹击对撞实验,并全程直播碰撞挑战。 奇瑞官方介绍,两台子弹车从180°、30°固定轨道,以60km/h速度撞击星纪元ES的两侧,模拟了车辆在掉头过程中,遇到的双向车道车辆夹击的场景。 相比2021版C-NCAP侧碰来看,除了夹击碰撞速度更快,…

    2024 年 7 月 24 日
    3900
  • 漫威粉丝狂喜!小米POCO F6死侍限量版发布:售价约2560元

    快科技8月8日消息,小米子品牌POCO最新在印度发布了POCO F6死侍限量版,12+256GB售价29999卢比,约2730元人民币。 这款手机其实就是Redmi Turbo 3的海外版本,这次限量版基于普通版定制了外观和配件、包装等内容,延续了小米定制版一贯的诚意。 整机背壳采用死侍经典的红色调,下方有死侍和金刚狼的图案,非常帅气,闪光灯的位置还刚好放置…

    2024 年 8 月 8 日
    2400
  • 生物科技行业通往复苏之路(下)

    在科技和疗法创新以及融资并购回暖的双重提振下,美股医药板块再度受到市场关注。 上周四(6.20),美国抗病毒巨头吉利德科学表示,其研发的新药在艾滋病毒(HIV)暴露前的预防方面,显示出了100%的有效性;6月24日,美股生物科技公司阿里拉姆制药宣布其研发的RNAi药物vutrisiran在Ⅲ期HELIOS-B研究中取得了积极的顶线结果,研究结果显示,vutr…

    2024 年 7 月 24 日
    2800
  • Intel酷睿Ultra 300系列曝光!5种SKU、集显性能强悍

    快科技9月7日消息,作为继Lunar Lake之后的新一代产品,英特尔酷睿Ultra 300系列Panther Lake笔记本处理器信息近日得到曝光。 据泄露的信息显示,Panther Lake系列处理器将采用英特尔最新的18A工艺制造,结合Cougar Cove P-Cores、Skymont E-Cores以及Xe3核显。 这一混合核心设计可提升移动设备…

    2024 年 9 月 7 日
    1400

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信