2024年8月4日星期日

文章一二九:教育数据的扯谈

 以下文章已刊登于 21/07/2024 【东方日报】:

     我们先听一则古老的寓言,再看一个现代的模型,后提教育数据的收集和扯谈。

      有一则叫【棘刺为猴】的古代寓言:燕王喜欢小巧玲珑的东西。有个卫国人请求为他在酸枣刺的尖端上雕刻猕猴。燕王非常高兴,就用三十平方土地的优厚俸禄供养他。有一天,燕王对卫人说:『我想看看你是怎样在酸枣刺上雕刻猕猴的。』卫人说:『国君如果想看它,必须半年不到内宫住宿、不喝酒吃肉,然后等一天雨停日出、阴晴交错时,您站在阴暗的地方看,才能看见酸枣刺上的猕猴。』燕王只好继续供养卫人,却始终看不到他刻的猕猴。

    郑国台下地方有个铁匠,对燕王说:『我是做刻刀的人。各种精细的东西都是用刻刀刻出来的,而被刻的东西一定要比刻刀的刀锋大。现在,酸枣刺的尖端容纳不了刻刀的刀锋,怎么能刻出一个猕猴来呢?国君只要看看他的刻刀,能不能刻出猕猴就一清二楚了。』燕王说:『好。』于是便把卫人找来,对他说:『你是用什么在酸枣刺上制作猕猴的?』卫人说:『用刻刀。』燕王说:『我想看看你的刻刀。』卫人说:『请让我回到我住的地方去取来吧。』于是就趁机逃跑了。

      美国西雅图的华盛顿大学在2017年开了一门课,叫做Calling Bullshit (下文简称 CB),中文有人直译为抵制狗屁。Bullshit一词,南方朔翻译成『扯谈』,比较温和与斯文。CB 授课老师是生物系的Carl T. Bergstrom和信息学院的Jevin D. West。网上已有完整的讲课录影,书也出版了,谁愿意对自己有点素养要求、学学如何理智应对数据、错误和虚假信息的,可以看看这本书。

      今天,信息大爆炸,数据动辄海量,同时收集数据也得助于科技而变得简易。这时,不管你爱说什么,只要能伴随一组数据,必然更有说服力、震慑力。无论你在哪个机构哪个部门做领导,以数据辅佐你所说、所写,是一个必须有的真本事,或伪装能力。

      数据之所以具震慑力的原因在于不是每个人都具备处理和读懂数据的能力。我小时看见别人西装笔挺,总以为他们必然是成熟之人。道理一样,有人看你手握数据就以为你另有能耐,却不知那可以是一个假象。

      CB的作者教人怎么绕过这个障碍。他们建议,不必理会数据是怎么处理的,只管看数据是怎么获得的及检视其质量,然后看数据被处理后的结果,包括如何被诠释和应用,即可知以数据支撑的陈述、论述是不是扯谈。也就是说,根据图,黑箱中的数据处理机制可以不管,只看左边的数据输入和右边的数据处理后结果即可。


      CB 作者说这一招常常管用,省得打开黑箱,就可辨识扯谈。19世纪时有位意大利犯罪学家 Lombroso 认为一个人的犯罪是遗传的,我们可以通过外表识别"生来就是罪犯 "的人。他的理论在二十世纪前半叶被驳倒,之后不复存在。但在 2016, 上海交通大学的两位学者发表了一篇学术文章,提出通过机器学习 (machine learning),他们能根据人脸特征以接近90%的准确率分辨犯罪者和非犯罪者。

      CB作者认为两位学者的数据是有问题的。经一番检验,他们发现学者用以训练机器学习演算法(即图一的黑箱)的是1800张的人头像,像中人年龄介于1855岁之间。其中大约1100张是非犯罪者,700张是犯罪者。前者照片取自社交网站、专业公司员工列表等等,而后者则由警察部门提供,取自官方身份证。这样获取的数据本身就隐含偏差,两类照片的拍摄设定有差别,观感也不同。各位如果抱怨过自己的护照、驾照等照片不好看,马上就能明白其中的道理。

      CB作者认为在数据处理的结果方面也是有问题的。经两位学者训练的机器学习演算法根据几项人脸特征判定某人是否为犯罪者,其中两点是:犯罪者口角和鼻柱所形成的角度较小、上唇曲率较大。但微笑的人由于口角向外张,上述角度会变大,而下唇曲率会变小。按常理想一想:上述两组照片中,哪一组人拍照时比较可能微笑?

      在无需理会机器学习演算法是怎么一回事下,根据以上检验,CB作者认为通过样貌判定一个人是不是犯罪者,是扯谈。

      【棘刺为猴】中的铁匠给燕王建议的方法和CB作者的方法相似,虽则前者不涉及大数据。酸枣刺是制作猕猴的材料,犹如图一中的数据。在酸枣刺上雕刻是处理材料,是卫国人不让外人看见的过程,犹如图一的黑箱。而雕刻品猕猴是产品,犹如黑箱输出的结果。(请比较图一和图二以明白两者的关系。)卫国人聪明,但取酸枣刺为雕刻材料,是百密一疏,犹如两位学者选取两组照片时不自觉纳入偏差一样。而忽略了刻刀刀刃必须比被刻的东西小这层关系,却声称能有这样的产品,这犹如忽略了拍生活照的人比较可能微笑(以致口角和鼻柱之间的角度较大)而声称他们不会是犯罪者一样。


铁匠的建议之巧和CB作者的模型之巧相似。既然卫国人有意不让燕王观看制作过程,那么只要看看刻刀的大小(并和酸枣刺之大小比较),就可以知道卫国人声称的结果是否可能。这是个在思维层次上有趣的古今联系。

      在教育界,老师经常需要做数据的收集、处理和诠释工作。做好数据的收集这一环是很难的。如何才算『明白』?不同的老师对这个概念有不同层面和深度的了解,因此也就有不同的设题方式去评估学生对某一概念的了解和掌握。最差的老师不考量这些,只从参考书、网络上搬运题目拼凑卷纸,学生能作答就算是明白,不能作答就算是不明白。

许多人以为选择题是最容易设的,这反映出对『明白』一事没多少关注和思考。而把题目设得难或简单都是容易的,把题目设得符合学生的程度和课纲水平,才是考老师的本事。评估工具建设不好,收集到的数据带出的讯息就不全、扭曲甚至跑题。学校派发下来的一些调查问卷有时被家长一遍填一边诅咒,这是其一原因。

    处理好考试成绩后,在予以诠释方面,许多是扯谈。若是成绩不理想,他们就说学生学习态度、心态和方法有问题。如果成绩理想,就说这一回题目比以往的容易。遇上疫情,网课成了用来解释考试成绩不好的万全原因,而且还耐用。高思维教育提出初期,老师说学生差是因为高思维能力不足,而学生杰出则是因为高思维能力强,真是成也高思维,败也高思维。

      扯谈的人不关心事实真相,看着数据想当然尔就胡说一通,反正没人能驳倒我。小学、中学的老师是这样,在科研中必须用统计学分析数据的讲师是这样,部长也是这样。大数据时代,催生扯谈文化。


没有评论:

发表评论