最近,俄罗斯、韩国、赞比亚等11名外国留学生完成了特别的中文答案,这个中文答案不是老师评分,而是AI评价的。 这些考生也成为了世界上第一个接受AI评价的学生。
用二百字作文找出八处错误
考试前,老师给他们做了一篇题为“请写下你的兴趣爱好”的作文题目。 半小时后,轮到AI工作了。 但是,AI也不能直接评价试卷,首先扫描试卷,将扫描图像转换成文字显示在电脑上,不到几十秒,AI在不到200个文字的作文中发现了8个错误。
(图像来自微博)
在这篇作文中,“但是汉语的难点不是字,而是像她一样变好”这个词,AI把Redundant (多语)记在“是”下面,把Selection (错字)记在“并且”下面。 另外,Missing和Word Order等错误也按照每个AI标记在文章中的对应位置。
据说这个AI来自阿里巴巴,应用于外国人评分汉语答案在世界上还是首次。 在具有考卷能力之前,该AI经历了大量汉语语言体系的学习,扫描仪扫描考卷信息,使用OCR技术转换为文章后,AI利用自然语言处理算法分析文章内容,识别错误比特的类型和位置,最后将考卷载入考卷。 从现在的测试情况来看,这个AI在精度方面接近人的水平。
AI评估引擎可靠吗?
通常考试答案包括主观问题和客观问题两方面。 其中,AI参与客观问题的评价比较常见,客观问题有标准答案,将考生的答案与预存的标准答案相比较,作出正确对待是一个极其简单的过程。
上位的AI在判断正邪后,可以说明选项,让考生理解自己选择的正邪和原因。 再加上,收集所有考生的客观答案,综合分析各题的得分率、各选项的选择率等,是更高级的AI,这关系到数据分析的水平。
目前,在AI评价客观问题正误的模式得到了很多人的认可,提高了评价引擎的效率,保证了评价引擎的质量。 用AI来评估主观问题的好坏会怎样?
某年高考作文等级评定标准
主观问题是用人的思维来解答,以作文问题为例。 上图为小编选定某年高考作文等级评定标准。 由上表可知,人们把作文等级从内容、表现及特征三个方面分为1、2、3、4等。 但是,小编认为,如果AI参加这样的作文评价的话,在表现部分就可以得到最严格和公正的评价。
如前所述的蚂蚁AI,可以对文本结构、词句的语气、语言的流畅度进行比较公正的评价,对于笔迹,也可以通过算法比较考生的笔迹和标准字体之间的相似度进行评分。 尽管蚂蚁AI已经达到了很高的标准,小编还是要找出AI检测不到的错误,在“但是不放弃”这个词中“的”这个字母也必须标记为Selection (错字)。 这说明AI的某些句子的理解仍然不足。
再者,中文博大精深,一句话就有各种各样的理解。 考生写的内容是否符合问题,文章是否有文采,对AI来说可能是一个重大挑战。
其次,作文的核心是考生的表现思想,人的感情是AI永远学不到的。 AI即使能评价作文的语法正邪,也不能理解人的喜怒哀乐,也不能评价文章的内容和感情。
“文无第一,武无第二”,文学创作本来就没有统一标准。 AI评价引擎容易限制考生的思维,使能够表现考生才能的作文千篇一律。 在这方面,人工评价引擎反而可以掌握更多。
有人认为AI评价引擎的出现给教师增加了很多负担。 与人工评估引擎相比,AI能够提高评估效率,即使面对作文这一主观问题,也能够实施统一的评估标准,有效避免人工评估引擎主观因素造成的评估差异,使作文评估机制更加合理、公正。
总之,新技术的出现总是争论很多,千读者眼中有一千哈姆雷特,你觉得AI评估引擎是否可靠?