您的位置: 泰州信息港 > 游戏

谈预测的学问为何百度可以预测高考作文

发布时间:2019-05-15 02:55:20

很多中学老师认为高考题目是可以预测的,他们宣称自己能感觉到出题的趋势,并且在考前帮着学生押题。我上学的时候总觉得押题是个不靠谱的事,难道出题的人没有自由意志吗?事实是,我们都没有自由意志。

百度预测

百度近出了个新东西,百度预测,目前提供针对世界杯、城市、景点和高考四大项目的预测。

百度预测之高考预测

尤其在高考方面,百度通过数据分析认为[1]2014年高考作文题目将会出现在时间的馈赠、生命的多彩等六个领域之中,并且给出了各领域命中的精确概率。直接告诉你高考作文题是什么固然不可能,但是有了这个范围,学生们需要准备的话题就从无限多变成有限多了。百度说这个预测是基于海量作文范文和搜索数据。各领域下列举的作文题目关键词,比如时间的馈赠中的关键词包括记忆、未来、成长、忘记等,都是中学生作文的常用词。

百度预测之作文预测

也就是说,百度用数据分析预测出来的高考作文题,都是常见的作文题,都是俗套。换句话说,用数据分析搞预测的隐含假定是未来事件会继续落入近流行的俗套。

可是高考出题的人有必要尊重俗套吗?难道出《让未来记住今天》或者《守住心灵的那扇门》这种俗不可耐的题目不是可耻的吗?在回答这个问题之前我们先研究一个更大的问题:到底什么样的东西是可预测的,什么样的东西是不可预测的。

近几年美国出了一位预测牛人,Nate Silver。美国人很喜欢体育数据,有些棒球杂志上更是连篇累牍全是各种细致的数据。Silver基于统计模型,自己搞了个软件来通过分析职业棒球的数据去预测各个球员未来的表现。结果他的预测结果超越了所有有经验的球探。不但如此,他的政治预测成绩更使人瞠目结舌。2008年大选,对各州总统选举结果,50个州Silver预测对了49个;对35个参议员席位,Silver全部命中。更关键的是,他的预测跟政治专家的预测相差极大事实证明听专家的远远不如听数据分析的。Silver 2012年出了本书,The Signal and the Noise(《信号与噪声》),谈预测的学问。

Silver在书里说,你别看我预测水平高,其实我预测的东西是容易预测的。比如说棒球,我们都知道这个比赛相当沉闷外行看着感觉一点都不热闹。棒球的特点恰恰是运动员具有相当的独立性。一个球员的水平是什么样就是什么样,他对球队的贡献非常稳定,并不怎么依赖队友的发挥和对手的表现,场上的随机因素也比较少。相对而言足球就不是这样,一个球员水平再高也得依赖队友、教练和对手,乃至包括裁判,有时候一着不慎满盘皆输。

关键在于,像棒球这样的简单系统,里面没有连锁反应。我们都听过一个笑话说拿破仑之所以在滑铁卢战败是由于他穿了紧身裤。紧身裤导致拿破仑得了痔疮。痔疮导致他在战斗的关键时刻未能居中指挥这就是连锁反应。连锁反应通常是正反馈的进程,每一环带来的破坏都可能比上一环更大,而且都可能直接激起下一环。对预测者来讲更麻烦的是这种反应充满偶然,大多数情况下反应不了几环就会终止,有时候却可能导致大麻烦。

简单的系统容易预测,因为一个个体哪怕出点预测范围以外的波动,对全部系统也不会有大影响。而如果一个系统中包含各种正反馈机制,它就是不好预测的复杂系统,一个个体的小波动就有可能通过连锁反应层层放大出现蝴蝶效应。比如现代金融体制就是一个复杂系统。地产下跌可能会致使人们还不起房贷,房贷还不上会致使银行受不了,银行1收紧信贷其它行业又受不了,可能就是大规模的金融危机。Silver说,那些信誉评级机构,给这个评个AAA,给那个评个AA+,这些所谓评级都是根据市场正常情况下的数据分析而来,可是一旦发生连锁反应,市场就不正常了,你的那些数据就根本没用!复杂系统,是可能出黑天鹅的系统。

黑天鹅这个比喻的发明人 Nassim Nicholas Taleb 有个思想很有意思[2]。他说自然本来就是个复杂系统,它的本性其实是充满波动的,时不时就会出点事 可是现代化的政府机构却总是谋求让社会能够稳定地运行。Taleb认为时不时出点小事其实是可以锻炼人的;你如果一味追求人为的稳定,反而可能会让整个系统变得脆弱,一旦保持不了稳定就会出大事。

我们不管Taleb后面一句话对不对,单论政府机构谋求稳定这一点,那是没错。

那么高考是个简单系统还是复杂系统?当然是简单系统!弄预测的人怕黑天鹅,高考出题者更怕黑天鹅。高考的任务并不是探索先进文化,而是给大学招生。这个任务甚至不是给的大学招天才学生,而是给全国所有大学招各种水平的学生。每个考区只有一套试题,不管你报考的是北京大学中文系还是三峡大学科技学院,你都要面对同样的作文题。

在这种情况下出题者必须让所有人都能有所发挥。他们不会让你谈对乌克兰局势的看法,也不会像法国高考那样让你分析笛卡尔著作[3],否则对那些只想上个普通大学将来谋个普通工作的学生是不公平的。学生水平不一以外,还必须考虑各地文化氛围也不一样,边远地区的孩子可能跟本没看过美剧,这种情况下出题可以涉及《非诚勿扰》,而绝不可能涉及《24小时》。我国古代科举考试出题范围只限于四书五经,也是这个道理。

不能考太深,不能考太广,出题者还剩下多少选择?在出题者和考生之间只有单向关系,出题者不需要什么反馈,更不需要正反馈!他们要确保那些稍微聪明一点用功一点的孩子都能考上,把偶然因素降到。他们不想看到的就是一道标新立异的作文题激发社会的强烈反响,他们决不允许任何事故。他们完全不指望用高考题促进社会进步,也不打算通过出题让自己青史留名。他们的使命就是给不确定的世界增加一点确定性。

所以他们必然诉诸俗套。俗套安全。数据分析指向哪里,他们就打向哪里。

那么面对一道俗套的作文题,你应当怎么写作文呢?答案是写俗套的作文。高考不是施展写作才华的地方,你有才华阅卷人也看不出来。事实上何止是高考,就连美国中学的英文课老师,也看不出来真正的好作品。列纳德蒙洛迪诺是一位非常的科普作家,他跟霍金合写了《时间简史》和《大设计》。蒙洛迪诺有一次替自己十五岁的儿子写了一篇作文,交上去结果只得了A-[4]。他震惊之余问了另外一位作家朋友,那人经常在纽约时报之类的地方发表文章,给女儿写作文却只得了个B。

你知道阅卷老师读完一份作文并且给出评分总共用长时间吗?十分钟?五分钟?两分钟?答案是新手50秒,老手34秒[5]!在这么短的时间内没人会品评你的美句,没人会研究你的新思想,你真写一篇惊世骇俗的策论出来可能性是阅卷者没看懂直接给个低分。在这个机械化的业务中谁也别期望出奇制胜 除非你古文写得好,那可能另当别论,古文的确一眼就能被看出来,也许老师们会乐于在枯燥的阅卷工作中拿你的文章消遣一下。如果你酷爱写作可以没事在上写写,高考作文是个拿点经验值赶忙走人的项目。

所以如果百度能掌握到像职业棒球那样全面的数据,它就不但能预测作文题,还能根据题目和平时习作成绩预测每一个学生的作文得分!

如果你觉得这种作文考试非常可悲,我要说的就是现实比这个还可悲。在高考中出题人的寻求是好使,而受众则大多是俗人,双方都没有甚么创新的需求。还有甚么项目也是这种局面呢?

比如说娱乐业。超人蜘蛛人蝙蝠侠钢铁侠,好莱坞为什么翻来覆去总拍这些老超级英雄的故事?难道不应当常常推陈出新吗?因为这些人物的故事好使。这是一项完全成熟的业务,观众知道自己花钱买票能得到甚么,好莱坞也知道这么拍一定会获得稳定的回报。观众和电影制作者达成默契,谁也不用担心谁。一个电影的投资规模越大,它的剧情就越俗套,大制作常常甚至干脆重拍一个所有人都知道的故事,由于大投入要求更小的风险。

俗套好使!所以越流行的东西常常越俗套,这就是为何真正的文艺青年都以不爱流行文化为荣。汪峰能泡章子怡肯定够酷吧?可是有人统计了汪峰在大陆发行的9张专辑共117首歌曲的歌词[6],发现其用词大量重复:爱出现54次,生命出现50次,碎和路各37次,哭35次,孤独34次。从他有限的辞汇表里随便选几个词就能组合成一句汪峰风格的歌词,比如不再迷惘的生命,被燃碎了千万次,也依然坚强。谁说数据分析不能创作艺术?

汪峰演唱会8分钟告白章子怡

汪峰人称浪子 这个词的字面涵义似乎就是行动不可预测,但事实证明汪峰老师除了感情生活经常给人惊喜,其他方面还是很好预测的。

来源:知道 作者:同人于野

注释:

[1] 百度预测之【高考作文预测】

[2] 这些思想在他的Antifragile(《反脆弱》)一书中有很详细的解释。

[3]《围观法国高考作文题:培养真正的思辨能力》

[4] 此事见 The Drunkards Walk1书。

[5] 百度文库,《高考作文阅卷老师心得》

[6] 这篇流传很广的文章叫《怎样快速写出一首汪峰老师风格的歌曲》,作者不详,早可能发表在水木社区。

人流后恢复要多久时间
白带粘稠有异味怎么办
白带多平时注意什么
猜你会喜欢的
猜你会喜欢的