对于 ChatGPT 变笨原因,学术界又有了一种新解释。
加州大学圣克鲁兹分校一项研究指出:
在训练数据截止之前的任务上,大模型表现明显更好。
论文重点研究了“任务污染”问题,也就是大模型在训练时期就见识过很多任务示例,给人一种 AI 拥有零样本或少样本能力的错误印象。
也有学者从另一个角度指出,大模型训练后参数冻结,人们不断提出新的任务也就是输入分布不断变化。如果模型不能不断适应这种变化,就表现成能力慢慢退化。
人们以为只提了个问题 AI 就能回答,其实是在训练时见过大多数常见任务。
随时间推移,人们开始提出更多新问题,AI 表现就不行了。
比如对于代码问题,编程语言还在持续发展变化,迟早有一天效率会低到不可接受。
这是所有不具备持续学习能力模型的命运。
任务污染有多严重?
研究团队一共评估了 12 种模型,从 ChatGPT 之前的 GPT-3 系列、OPT、Bloom,到最新的 GPT-3.5-turbo、羊驼家族 Llama、Alpaca 和 Vicuna 等。
它们都存在类似问题,也就是在训练截止之前的任务上表现明显更好。
评估任务污染非常困难,闭源模型根本不会公布训练数据,大多数开源模型也只是声明了来源,而不发布数据本身。
如果研究者重新爬取互联网数据,也有可能与模型训练时相比发生了变化。
对此,团队采用 4 种方法来测量任务污染程度:
检查训练数据:直接搜索有没有相应的任务示例
在开源模型 Alpaca 和 Vicuna 上,存在训练数据污染的任务表现就比原版 Llama 更好的趋势明显。
提取任务示例:通过调整提示词,让模型自己把训练数据中的任务示例背出来
从 GPT-3 davinci-001 版本到 GPT-3.5-Turbo,这个问题越来越严重了。
图中 X 代表模型复述出了训练数据中的原始任务示例,绿色代表经过指令微调的模型没有复述训练数据。
灰色代表未经过指令微调的模型无法根据提示词指示复述训练数据,但不代表问题不存在。
成员推断(只适用于生成任务):检查模型生成的答案是否与原始数据完全相同
按时间顺序分析:对于已知训练数据收集时间的模型,测量已知发布时间数据集上的表现并使用按时间顺序的证据检查数据污染证据
前三种方法精度较高,但召回率较低。如果在任务的训练数据中找到数据,则可以肯定它已经看到了示例。
但由于数据格式的变化、关键字的变化以及数据集的大小,使用前三种方法没有找到证据并不意味着数据污染不存在。
第四种方法召回率高但精度低,容易受干扰因素影响。
特别是对于 GPT-3 系列,目前人们假设其能力提高来自于指令微调,但研究团队认为事实并非如此。
虽然在 2021 年之前的数据集上,davinci-002 比 davinci-001 的性能有所提高,但在 2021 年之后的数据集上性能却相应下降,
通这表明 GPT-3 系列的指令微调只适用于某些早期数据集。
最后团队的结论为:
由于任务污染,闭源模型可能会在零样本或少样本评估中表现的比实际好,特别是经过 RLHF 微调的模型。污染的程度仍不清楚,因此我们建议谨慎行事。
在实验中,对于没有任务污染可能性的分类任务,大模型很少在零样本和少样本设置中表现出相对于大多数基线具有统计学意义的显著改进。
随着时间推移,观察到 GPT-3 系列模型在许多下游任务的零样本或少样本性能有所增加,这可能是由于任务污染造成的。
即使对于开源模型,检查训练数据的任务污染也很困难。
鼓励公开发布训练数据,以便检查任务污染问题。
有人总结到:
用现有数据训练 AI
人们过多使用 AI,以至于改变了现实世界
AI 无法适应改变后的世界,变得低效
这是一个循环。
论文:
https://arxiv.org/abs/2312.16337
参考链接:
-
[1]https://twitter.com/ChombaBupe/status/1741531065032798360
猜您喜欢
-
ChatGPT Windows版客户端将于今年晚些时候发布 Mac版客户端现已推出
前沿科技Highlights: 昨天OpenAI发布了一款新的ChatGPT原生桌面App 该应用仅发布在MacOS上(Mac版目前已经向ChatGPT Plus用户推送),Windows版客户端应用将在今年晚些时候发布 即使微软向OpenAI投资了100多亿美元,Windows版应用···
-
传苹果接近与OpenAI达成协议 将ChatGPT技术引入到iPhone
前沿科技此前有报道称,有研究机构的分析师对苹果今年的iPhone 16系列升级持怀疑态度,虽然配备了更大的内存、装备更好的麦克风、以及升级神经引擎,以更好地满足运行生成式AI任务的要求,传闻iOS 18更新本身就会进一步整合AI技术,但是iPho···
-
传OpenAI最快下周一公布自家搜索引擎 ChatGPT驱动
前沿科技据路透社报道,OpenAI将在下周一公布自家搜索引擎,由人工智能ChatGPT驱动,对标世界第一搜索引擎谷歌。 据两位知情人士透露, OpenAI计划下周宣布其人工智能搜索产品,这将加剧其与搜索巨头谷歌的竞争。宣布日期可能是在下···
-
OpenAI澄清:下周不会发布搜索引擎
前沿科技当地时间5月10日,OpenAI澄清了将推出AI搜索引擎的传言。 OpenAI在社交平台上宣布,下周一将以直播形式宣布ChatGPT和GPT-4的更新。“不是GPT-5,不是搜索引擎,我们在努力开发一些认为人们会喜欢的东西。”OpenAI CEO奥尔特曼···
-
ChatGPT之父认为iPhone是最伟大的技术产品
前沿科技ChatGPT之父、OpenAI首席执行官山姆·奥特曼日前参加了播客节目“All-in Podcast”。 在访谈中奥特曼表示,iPhone是人类历史上制造出的最伟大的技术产品之一。 当被问及“语言模型在设备端的情况如何呢”时,奥特曼回答称对这···
-
阿里云发布通义千问2.5 全面赶超GPT-4 Turbo
前沿科技快科技5月9日消息,阿里云正式发布了通义千问2.5,模型性能全面赶超GPT-4 Turbo,声称地表最强中文大模型。 据了解,通义千问2.5最新开源的1100亿参数模型在多个基准测评中均取得了最佳成绩,成功超越了Meta的Llama-3-70B模···
-
OpenAI以泄密为由解雇两名研究人员 包括首席科学家盟友
前沿科技据可靠消息透露,人工智能初创公司OpenAI最近解雇了两名涉嫌泄密的研究人员,此事在业界引起了广泛关注。 据悉,这两名研究人员分别是利奥波德·阿申布伦纳(Leopold Aschenbrenner)和帕维尔·伊兹梅洛夫(Pavel Izmailov)。···
-
OpenAI高管:2024年是AI的“应用之年”
前沿科技美东时间周四,OpenAI的首席运营官Brad Lightcap预测,2024年是人工智能(AI)的“应用之年”,已经看到了这种巨大的趋势。 在当天接受媒体采访时,Lightcap透露,尽管面临越来越多同行竞争,但ChatGPT企业版需求正在急剧增长。···