Science 正刊发表对 ChatGPT 的观察陈诉,《天生式人工智能对生产力影响的实验证据》 对于一些文书任务,ChatGPT 不但能在节省 40% 时间的同时提高 18% 的绩效,还降低了不同人之间的绩效差异。 MIT 官方也对这一研究成果进行了报道。对照组也会偷用这场实验一共邀请了 453 名受试者,分为实验组和对照组。 这些受试者是来自不同范畴、受过高等教诲的专业人士。 两个组中人员的薪资水平、职业等信息如下表所示: 在为期一个月的实验中,他们被要求完成与职业相干的写作任务。这些任务包罗撰写新闻稿、简短陈诉、分析筹划和电子邮件,时长约为 20 到 30 分钟。 评估的指标包罗服从和质量两部门,每份成果分别交由三名相干范畴的专业人士进行盲评(1-7 分)。 效果体现,实验组所用时间镌汰了 0.75 个标准差(约 11 分钟),评分则提高了 0.41 个标准差。 如果换算成百分数,时间缩短和质量提高的比例分别是 40% 和 18%。 具体而言,实验组起首被安排完成一项任务,之后注册 ChatGPT(3.5 版本)。他们被告知,如果以为 ChatGPT 好用,那么就要在第二个任务中使用。 而对照组则被要求注册一款 LaTex 编辑器(注册复杂度与 ChatGPT 相当),但没有类似的告知。 效果,有 80% 的实验组人员在第二个任务中使用了 ChatGPT,而对照组中只有不到 5% 使用了 LaTex 工具。 对于第二个任务,实验组均匀耗时为 17 分钟,比对照组少了 10 分钟。 质量方面,实验组的均匀成绩为 4.53,对照组的均匀成绩则为 3.802。 除了提质增效,ChatGPT 还降低了不同人之间工作质量的差异。根据第一个任务完成环境的不同,研究人员将这些人第二次任务的评分进行了线性拟合。 效果体现,实验组评分的拟合斜率为 0.414,比对照组低了 0.272。 那么这些人又是如何使用 ChatGPT 的呢?是直接使用输出效果或仅做微调,还是只用来打草稿?跟踪效果体现,有 33% 的受试者提交的是原汁原味的 ChatGPT 效果,而 53% 进行了修改。 但这些修改可能非常微小,比如只是调解一下格式等等。 得出这一结论的理由是,他们在 ChatGPT 天生复兴后的均匀活动之间只有 3.3 分钟,且大部门位于 0-2 分钟之间。 必要说明的是,在实验开始之前,70% 的受试人员已经听说过 ChatGPT,32% 曾经使用过。所以,在实验过程中,研究人员发现,对照组中也有 10~20% 的人使用了 ChatGPT。 这一现象对实验效果存在一定影响,研究人员使用了统计学方法进行修正。 实验结束后,研究人员还对这些受试者进行了两次回访,分别有 92% 和 83% 的人给出了复兴。 第一次回访是在实验结束后两周,实验组和对照组分别有 34% 和 18% 的人仍在使用 ChatGPT。六周之后,也就是实验结束后两个月,这组数字分别提拔到了 42% 和 27%。 综上所述,研究人员以为,ChatGPT 在提拔工作质效方面确实有显著作用,但其可否代替人类仍不明确。 |