89% 美国大学生用 ChatGPT 写作业,纽约大学教授警告:用 AI 就是剽窃
新浪科技 · 2023-01-30 20:23:13 · 热度:加载中...
调查发现,89% 的美国大学生已经在用 ChatGPT 写作业了,而其中的 72% 也同时支持封杀。对此,老师们的态度倒是褒贬不一,值得玩味。

  调查发现,89% 的美国大学生已经在用 ChatGPT 写作业了,而其中的 72% 也同时支持封杀。对此,老师们的态度倒是褒贬不一,值得玩味。

  ChatGPT 诞生才两个月,但它给全世界投下的‘重磅炸弹’就没停下来过。

  虽然在很多学校,老师们防 ChatGPT 如洪水猛兽,却还是屡禁不止。

  一项调查显示,现在美国 89% 的大学生都是用 ChatGPT 做作业的。

  89%?没错,甚至,真实的比例更高。

  虽然此前,纽约的教育系统全面封杀了 ChatGPT,但凭学生们的聪明才智,怎么可能真正把它禁掉呢?

  果然,现在教育工作者们不得不直面现实:学生们已经在用 ChatGPT 肆无忌惮地作弊了。

  比如,北密歇根大学哲学教授 Antony Aumann 在为自己的评分时发现,全班第一的论文竟然是用 ChatGPT 写的。

  在线课程供应商 Study.com 向 1,000 名 18 岁以上的学生中发起一项调查,询问了他们在课堂上使用 ChatGPT 的情况。

  结果显示 ——

  这些高得惊人的数据,令我们不得不正视这个现象:AI 已经融入了人类的社会结构,且产生了广泛而深远的后果。

  有趣的是,虽然有将近 90% 的学生在家里用 ChatGPT 做作业,但也有将近四分之三的学生希望 ChatGPT 在学校被禁。

  也就是说,不患寡而患不均,无论是在哪个场景,学生们都希望站在同一起跑线上。

  要么大家一起用,要么就都不用。

  同时,Study.com 也调查了 100 多名教育工作者,以便深入了解他们对 ChatGPT 的感受。

  看来,老师们远比我们想象得开明。那么他们打算如何使用 ChatGPT 呢?

  根据 Study.com 的调查,已经有 21% 的老师开始用 ChatGPT 辅助教学工作了 ——

  可以看到,与我们的印象不同,参与调查的老师中,大部分人对于 AI 的态度是相对开明的,66% 的人认为 ChatGPT 可以作为帮助学生的资源。

  与之相比,反倒是学生们自己的信任度要低得多,高达 72% 的人认为 ChatGPT 在学校里应该被禁。

  在整个人类历史上,一项新事物的诞生,往往伴随着诸多争议。

  很显然,面对 ChatGPT 这个诞生两个月的‘新生儿’,教师团队内部也并没有统一意见。

  其中一部分教师,对于学生使用 ChatGPT 的态度非常鲜明 —— 就是纯纯的作弊!

  这几天,美国的很多学校开学了,师生中最热门的话题,无疑就是 ChatGPT。

  在纽约大学,教学大纲的‘学术诚信’部分已经明确把使用 AI 视为作弊行为,明令禁止。

  此外,学生们在上课第一天也收到了教授的警告。

  在纽约大学 Tisch 艺术学院的一堂课上,教授在教学大纲上直截了当地写道 ——

  ‘问:使用 ChatGPT 或其他生成文本或内容的 AI 工具是否视为作弊?答:是的。’

  即使在不需要写论文的课上,教授也提出了 ChatGPT 警告。

  一份宏观经济学教学大纲这样写道:‘我们刻意把时间限制得很紧,所以你不可能有时间查阅书籍、ChatGPT 或其他资源,同时还能完成测试。在测验的 24 小时中,学生不得与任何人(包括 ChatGPT)交流。’

  当然,众所周知 ChatGPT 面对数学题时常犯蠢,因此数学系的教授们倒是免了这一层担忧。

  纽约大学文理学院副院长 Jenni Quilter 表示,现在教授们都在担心学生会使用 ChatGPT 作弊。

  据 Quilter 介绍,早在 12 月,就有学生使用 ChatGPT 的事件发生。

  ‘在未经允许的情况下使用 ChatGPT,后果等同于任何学术剽窃事件,处理结果包括重做作业、扣分、写检查。’

  纽约大学古典学教授 David Levene 表示,他正在密切关注所有与 ChatGTP 相关的剽窃行为。

  ‘我已经明确警告学生,除非有我的许可,否则无论以任何形式使用 ChatGPT,都是作弊。’

  ‘我还跟他们说,我已经试过用 ChatGPT 写论文,它的最好成绩是 B-,最差是 F。所以如果他们想得到比 B-更高的成绩,就应该像避瘟神一样避开它!’

  纽约大学教授们的担心并非杞人忧天。

  根据斯坦福日报进行的一项调查,17% 的学生曾使用 ChatGPT 来完成秋季学期的作业和考试。

  不过,比起 Study.com 的 89% 和 48%,斯坦福这边的比例显然要低了很多。

  很多教授在担心,AI 聊天机器人会对教育产生灾难性影响。

  ‘仅仅因为有一台机器可以帮助我举起哑铃,并不意味着我的肌肉就会发达,’西华盛顿大学历史学教授 Johann Neem 接受《华尔街日报》采访时说。

  ‘同样地,有一台可以写论文的机器并不意味着我的思维就会发展。’

  但其他教授认为,应该利用 ChatGPT 强大的技术,让学生为新的现实做好准备。

  韦伯州立大学教授 Alex Lawrence 表示:‘我希望它能给你足够的启发和教育,让你想要学习如何利用这些工具,而不仅仅是学会更好地作弊。’

  而宾夕法尼亚大学的 Ethan Mollick 说,他希望自己文学系的学生能够利用技术‘写得更多’和‘写得更好’。

  ‘ChatGPT 是写作的力量倍增器,’Mollick 补充道。‘我希望他们使用它。’

  虽然引发了学术诚信的风暴,但许多专家认为,这项技术只是一个新学习时代的开始 ——AI 写作工具是学习的未来。

  迪肯大学数字研究中心主任 Phillip Dawson 表示:‘我认为这是人类能力提升的一个重大时刻。’

  ‘在我看来,五年后毕业的学生比现在的学生能做的事情要多得多,因为他们有这些 AI 工具。’

  他把写论文的学生与驾驶现代飞机的飞行员做了类比。‘是的,你必须学会使用所有的仪器,你需要知道这些仪器是如何工作的,但你也需要在仪器出现故障时驾驶飞机。’

  阿德莱德大学计算机与数学学院讲师 Cheryl Pope 博士表示,ChatGPT 非常适合编写初稿,但无法取代人工编辑和事实核查的需求。‘你需要理解这个话题,才能评论它产生的答案。’

  ChatGPT 能让你走出几步,但不能让你获得高分。但它的可能性让人兴奋,能让我们走向更高的标准。就像我们对两个小时的笔试和两个月写出的论文有不同的期待。

  还有一个原因是,获得帮助需要大量的社会资源。

  问别人一个蠢问题,会让人很羞愧,但是面对 AI,我们永远不会有这样的担心。

  有攻就有防,能为老师们解忧的 AI 作弊检测工具,也火速诞生了。

  最近,来自斯坦福大学的研究团队就提出了一种用于检测 AI 生成文本的全新方法 ——DetectGPT。

  概括来说:

  DetectGPT 通过利用模型的对数概率函数的局部曲率(由 LLM 生成的往往占据负曲率区域),来检测文本是否出自预训练语言模型。

  DetectGPT 只使用兴趣模型计算出的对数概率和来自另一个通用预训练语言模型(如 T5)的随机扰动,无需训练单独的分类器,收集真实或生成的段落数据集,或给生成文本加水印。

  DetectGPT 的检测效果比现有的零样本(zero-shot)方法更好,特别是将 20B 参数 GPT-NeoX 生成的假新闻的检测率从 0.81 AUROC 提高到了 0.95 AUROC。

  我们可以观察到,机器生成的文本(左)有位于对数负曲率区域的趋势,而附近的样本平均具有较低的模型对数概率。

  相比之下,人类的文本(右)则不会明显占据负对数概率曲率区域。

  接下来,想要确定一段文字是否由一个特定的 LLM 产生,如 GPT-3。

  首先需要 DetectGPT 使用一个通用的预训练模型(如 T5)对该段落产生轻微的扰动。然后再让 DetectGPT 比较原始样本与每个扰动样本的对数概率。

  如果平均对数比很高,则该样本很可能来自源模型。

  具体的测试结果如下:

  此外,经过真实和生成文本的大型数据集训练的有监督检测模型,在分布式文本上的表现与 DetectGPT 一样,甚至更好。(上)

  然而,对于新的领域,如 PubMed 医学文本和来自 WMT16 的德国新闻数据,zero-shot 是开箱即用的,而有监督的检测方法则会由于过度的分布偏移而垮掉。(下)

  不过,DetectGPT 自身也存在着明显的限制。

  首先,DetectGPT 基于的是白盒假设,即我们可以评估有关模型的对数概率。对于那些 API 背后的模型(如 GPT-3),评估概率还需要花钱。

  其次,DetectGPT 需要获得一个合理的扰动函数。虽然在这项工作中,作者使用了现成的掩码模型,如 T5 和 mT5(用于非英语语言),但如果现有的模型不能很好地对空间进行表征,那么 DetectGPT 在一些领域的性能就可能会降低。

  最后,DetectGPT 比其他检测方法的计算量更大,因为它需要对每个候选段落的扰动集进行抽样和评分,而不是仅仅对候选段落进行评分。

  虽然 DetectGPT 现阶段还没开放,但问题不大。

  毕竟,市面上还有很多工具可以直接使用。

  尤其是 GPTZero,不仅免费,而且效果拔群。

  小编亲测发现,最新版本的 GPTZero 甚至可以明确地指出一段文字中,哪段是 AI 生成的,哪段是人类写的。

  原理上,GPTZero 主要靠‘困惑度’(文本的随机性)和‘突发性’(困惑度的变化)作为指标进行判断。

  在每次测试中,GPTZero 还会挑选出困惑度最高的那个句子,也就是 AI 写出的最像人话的句子。

  参考资料:

  本文来自微信公众号:新智元 (ID:AI_era)

  责任编辑:王茂桦

本文来源:新浪科技