业余时间读了《纽约客》杂志上的一篇文章。这篇文章探讨了AI与校园作弊的关系。我觉得一些观点说得还是很好的,试着翻译了下,有一些不足之处,我觉得多少和文章背景和外国文化有关吧。还请读者诸君体谅。
人工智能(AI)真得会加剧校园作弊吗?
原标题:Does AI really encourage Cheating in School?
作者:Jay Caspian Kang
日期:2024.08.30
出处:The New Yorker杂志网站
翻译:尔行
在过去的这个春天,图尼汀——一家制作反作弊工具来检测学生论文中AI使用情况的公司,公布了基于它的软件检测的2亿样本的调查结果。(其结果显示)有3%的论文或多或少都有完全用AI写成的内容,另外,有10%的论文都有一些使用AI的痕迹。依赖于一家盈利公司用它自身产品调查出的数据从不可靠,(即便可靠)这些数字也并不意味着作弊盛行。其他研究表明,自从大语言模型如ChatGPT问世并流行后,学生作弊并没有显著增长。整体上说,学生作弊似乎更多了——70%多的学生说上个月至少都有一次作弊,但是在AI出现前仍有相同比例的学生在作弊。
越来越多的老师和成年人似乎都坚信所有孩子都在作弊。由民主科学中心作出的研究表明,大多数老师都说生成式AI使他们对学生作业是否由学生自己完成更加不信任。不仅有这样的怀疑,还有对AI检测工具的功效的质疑,比如有关研究发现AI检测器更可能标记出非英语母语者的写作痕迹。这种不确定性,以及许多校区出台的清晰而全面的AI政策都失败的事实,在教育界又激起了另一层有关如何处理涉嫌作弊案例的争论。最近堪萨斯大学的卓越教育中心制定了一套使用图尼汀的指导原则,它警告老师不要以这家公司的软件为依据对学生作业(作弊与否)作出快速评判,同时还建议老师要采取更多步骤来收集信息,比如将这次作业与之前的作业做对比,给学生第二次机会,和学生交谈。(这个月早些时候,华尔街日报报道,开发ChatGPT的公司OpenAI已经建立了它自己的检测工具。这个软件的水平比它竞争对手的要高得多,但是OpenAI公司延迟了它的发布,因为若承认学生确实使用了ChatGPT作弊,这将对它的生意不利。)
教育数据是出了名的不可靠。有非常多,比如孩子每天都在做测试,从五岁开始这些孩子的所有教育历程几乎都被记录了下来。但是,如果你深挖这些教育研究成果的话,你只能发现噪音而找不到什么有用信息。比如,当你试图分析全州阅读分数和被分派的某项目间的关系时,你做到最好也就是:看着这些数据,试着发现一些更宏观的趋势,然后心不在焉地将其呈现出来。我认为目前ChatGPT在学校中的情况是这样的:老师有些过度怀疑学生,部分原因是他们拥有了抓住作弊者的工具。这些使作弊一览无余的工具很可能阻拦一部分学生作弊,但是该作弊的人还是会作弊。在我上高中时,图形计算器因会被学生用来作弊而饱受责备。十年以后,在教室中随处可见的智能手机在全国激起了这样一幅画面——当老师背朝学生时,学生们都在用手机给彼此发送考试答案。维基百科曾经也被认为是学校研究论文和知识的破坏者;今天,我们很清楚地知道维基百科对于社会大有益处,同时它还要比它所取代的《大英百科全书》更加准确、有更少的偏见。
这种情形让我想起了”体育赌博手机APP”的问题。赌博和作弊一样,并不是什么新问题。如果你把一百个一生都没下注过的人放在一个赌场,有很小一部分明天还会再回来,后天还会,大后天还会。其余的要么永远不会再踏进赌场,要么只是偶尔地或有节制地赌一下。我觉得校园里的作弊是个与此类似的现象。或许大部分孩子确实在完成作业时都会做一点点弊,但是有一部分孩子从不会这样做,而且许多孩子更倾向于在最不重要的(考试)情况下作弊(或说尝试作弊)。科技确实会改变人们的生活体验,它会鼓励游走在(违规)边缘的群体开始在赌桌上下注或要求ChatGPT写一篇论文。但是,在绝大多数情况下,这并不是成年人赌博的原因,也不是学生作弊的原因。维基百科并没有毁掉书面文字,它很大程度上通过简化了解某一学科时的入门性工作,提升了学生写论文时所做研究的质量,正如此一样,五段式论文也将在大语言模型时代生存下来。
人们急于解决AI作弊的热潮,以及(因AI作弊而被)研发出来的卖给全国学校的教育工具,这两者衍生出了另一个相关问题,这要比书面文字是否会继续存在的问题有趣得多。当我们在审查学生作业时,我们该如何区分哪些部分是他们正发育的头脑中涌现出的东西,哪些又不是呢?这条线在哪里?
在跨学科科目中,界限更清晰一点。如果一个学生仅仅偷看了相邻学生的作业,写下来相同的答案,大多数人认为这就是在作弊。但是如果一名学生正在尝试证明他知道该如何解开一道包含一些乘法的复杂数学题,那么使用计算器就意味着他在作弊吗?我们并不是在测试他是否会算乘法,那我们为什么要(让他手算)浪费时间,同时还引入这些因粗心可能会导致的错误呢?我认为,用Chat GPT写论文和解决某一复杂数学题时用计算器省去简单低级的工作是不一样的事,但是很值得一问的是,(相比于计算自动化)我们为什么会对书面文字的自动、写论文时所做研究的自动化感觉不一样呢(有所排斥呢)?即便是在美术领域,资助人和鉴赏者也早已接受了这一事实,即画家并不必亲自完成画作中、雕塑中、大型安装中的点点滴滴工作。安迪·沃霍尔,达米恩·赫斯特,杰夫·昆斯,这些艺术家的作品的完成过程中的都有一小群无名助手参与,这时不时就会引发一些争议但并不足够终止这种做法。如果一个机器做了助手的所有工作,我们会轻视这些艺术家吗?
这些问题既抽象又荒谬,但是它们确实反映了我们在思考“什么构成作弊什么不”这一问题时随意武断的思考方式。除去明目张胆的作弊行为,判断人文学科中学生作弊与否的方法似乎取决于学生完成某课题所需的时间长度。比如,两个学生都要研究在诺曼底登陆后一周内所发生的事:一个学生去图书馆档案室找到相关的缩微胶卷,将其放在古老的(播放)机器中(放映),认真尽责地记下笔记(完成作业);另一位学生则用谷歌引擎找到一篇现成的文章(这当然比他转述某些维基百科编辑对同一篇文章的解读要好得多)。我们可能会高度赞扬前者所做出的努力。
在这样的逻辑下,学校(多指大学)存在的目的不是创立新的奖学金也不是正确地回答问题,而是教给学生良好的工作习惯。一个花时间去图书馆的年轻人更有可能养成这种工作习惯,这习惯将会使他有能力找到一些可能对他写小说、算法亦或有说服力的观点有帮助的附带信息。抛开明显的不诚实行为不谈,作弊问题的严重性并不在于学生跳过了解释所学内容这一过程,而是在于这剥夺了他们本能够花时间获得的成长——他们本该花时间切实地读完某本书、亲自敲出某些句子、沉思某些(电脑程序)提示。
互联网给学校所带来的最根本的危机之一是:因为历史和事实的参考资料不再需要被记在脑子里,所以也就没什么知识需要再被学习。搜索引擎、维基百科、ChatGPT都在要求我们回答一个问题:如果我们有了这些工具,这些课程还有什么意义(多指人文学科)?即便教育潮流变化多端,学校通常改变缓慢。这是件好事,主要是因为优秀的教师都有很长的职业生涯。但是,自从我从2005年左右做老师到现在,我注意到了家长对孩子在人文学科中应该学什么的看法有细微变化。在很大程度上,想要孩子记忆好的教育观念已经消失。孩子不再被强迫地快速背出布拉格首次被驱逐的日期和相同的词汇列表。与此同时,人们如今陷入的大多数有关学校的政治争斗都与课程选择有关,我觉得这些既愚蠢又离题万里。仅凭一本零星的书或课程就改变孩子的信念是非常难的。但是,我有时又会觉得当今学校中教条主义的推行、有关如何教历史或数学的激烈争论、在某些州严格的禁书令,这种种是否都来自一种集体恐惧——恐惧学校的知识保留功能或许已经过时。由于很难证明“孩子学习日期和词汇列表等类似知识”的必要性,我们现在已经慢慢把学校存在的目的转变为:教给孩子,作为一个好人,应该相信什么,以及该如何度过这一生。这是一个令人敬佩的目标,但是通常会结束在哪种价值观更重要的激烈争论中。
通常来讲,教育方面的观点改变很快,往往是以保守的形式。但是任何共识的实际落实都需要数十年才能完成。这种低效率会有伤害——比如说我们花了很长的时间才将手机从校园中移除出去,但是它引发了轻微恐慌,如当前面对用大语言模型作弊的这种情绪。我认为AI并没有以某种革命性的方式加剧作弊情况,同时我认为任何作弊情况的增多更多是与大学入学考试所带来的巨大压力有关,与在许多高中所存在的过度竞争气氛有关。如果这些情况没有改变,一些孩子就会想办法将任何新的手机APP变成作弊工具,教育科技公司就会售卖屏蔽器(给学校),这恶性循环就会不断重复。它不必非得如此。AI作弊所引发的恐慌给了我们一个机会重新强调学校教育中“工作习惯”的部分,同时远离那种观点——即认为孩子读的书是危险的、只可以教一种历史版本。应该说,这与全国成千上万的老师看待自己工作的想法没什么不同,但是学校所做的那部分工作却比过往要粗俗得许多,全国的学校取消了家庭作业,更多地专注于培养学生对某学科的热爱或发展某学科中隐含的政治性。在小学和初中在课堂上用纸笔写包含一点复仇主义的文章,可能还有很长的路要走。上课总是课程内容的实际应用,而不是学到一些事实。