填志愿,选专业——从分数线中我们能知道什么? chenqin,数据帝 一年一度的高考结束,现在正是考生们选择学校、专业以及填写志愿的日子。选了好专业,生怕不上线;选了稳妥专业,又怕浪费分数。这填写志愿,在专业和分数之间,少不了一番纠结。然而,正是这一番纠结使得分数线这个数据显得尤其有意思。 填志愿就像是一种特殊的拍卖,主要特殊在两点: 每个出价人不仅不知道其他所有人的出价分布,有时连自己的出价都搞不清(虽然近年来绝大部分地区都改为出分后填志愿的方式,但仍然有考前填志愿的某直辖市)。 出价人对标的物知之甚少。填志愿时你所知道的最真实的信息,竟然只有这个标的物在过去的成交价格,也就是过去数年的分数线,至于这个学校这个专业到底怎么样,是不是适合考生前去就读,未来前景如何,都并无十足把握。 在这些因素的影响下,同一个学校、同一个专业的分数线一方面会表现出高度的连续性,去年比一本线高出 100 分的专业,不太可能今年就比一本线低 100 分。但另一方面,人们又会对不同的学校和专业产生大小年的先验判断,即一个专业的分数线如果今年特别高,明年就会没人敢报,于是就可能就会低一些。最后,由于很大程度上选择专业相当于对未来职业道路的选择,我们会发现一些专业在一些年份很受欢迎,而在另外一些年份变得不再受欢迎。 今天我们可以使用一个独特的分数线数据库来完成这项工作。我收集了中国所有 985、211 学校(共 112 所,实际上由于军事院校的分数线难以搜集,所以仅有 108 所学校)从 2005 年至 2014 年在各省、各专业的理科分数线数据,包括最高分、最低分与平均分,共有 564399 条数据,相当于每所学校每年在每个省招生 17 个专业。很可惜这个数据库中暂时没有每个专业的计划招生人数和实际招生人数,也不包括文科考生的分数线,但当前的数据量已经足够我们进行有趣的分析了。 一,高分学生喜欢哪些学校? 我们首先将每个年度每个省的专业平均分排序,将平均分排名在该省当年前 5%的专业抽出来,将他们定义为每个年度的「前 5%高分专业」。用一个学校的「前 5%高分专业」的数量除以该校在每个省投放的专业总数,可以得到每一个学校的「前 5%专业占比」。在一个学校内部招生专业人数大致相等的假设下,我们可以近似地将「前 5%专业占比」理解为「前 5%学生占比」。当然要注意到,这个「前 5%学生占比」指的是考取了 985 或者 211 大学的考生的前 5%,即 50 多万高分考生的前 5%,而不是近 1000 万高考报名总人数的前 5%。 上表显示了不同学校在两个时间段的「前 5%学生占比」。一个很明显的趋势是,在平行志愿下,高分考生由于志愿没有填好而去了一个一般的学校的概率越来越低,这导致高分学生向优秀学校集中的趋势正在提高。 清华和北大的「前 5%学生占比」原本就已经很高,变动不大。但华东五校(复旦、交大、浙大、中科大、南大)加上人民大学的「前 5%学生占比」就从 35.1%至 71.8%提高至 74.3%至 84.4%之间。同时我们也可以看到在这五年间上升势头最快的两所大学——上海财经大学与中央财经大学,他们的「前 5%学生占比」都由原本的不足 10%增加至 30%左右。在 2014 年,上海财经大学和中央财经大学的「前 5%学生占比」都超过了三分之一。 将 5%的比例缩小到 1%,能算出一个能体现出最高分学生集中度的指标——「前 1%学生占比」,见下表: 从上表可以发现,北京三校(清北人)与上海二校(复旦交大)这 5 所学校的「前 1%学生占比」在这五年间变得越来越高,而其他学校的「前 1%学生占比」降低了。这张表与上表其实表达了相同的趋势——顶尖学校的掐尖非常成功,导致其他学校能招到的高分考生减少,原本次好学校用最好的专业来吸引最高分考生的手段已经不再起作用了。 当然,我还可以把前 1%的比例缩小到 5‰甚至是 1‰,还能看到更有趣的现象。但是鉴于某两校针对招生一事已经剑拔弩张,我就不火上浇油了。 二,考生青睐哪些专业? 一个学生如果已经拥有前 5%的高考分数,他就有很高的概率能够进入第一张表的十几所高校中。在这些高校中,他会选择什么专业呢? 为了排除排名靠前学校的影响,我们首先计算每个专业在每个学校内部的排序,之后保留总排序在前 5%的专业,再去掉一些只有少部分高校会开设的专业,最后计算每种专业的校内排序平均值(如果不计算校内排序的平均值,那么专业的排序就会完全反映出清华北大的专业结构),可以得到下表(点开大图细看): 可以看到,金融和会计稳稳地占据了前 5%考生的选择前两名。理科试验班的排名从 2005 年的第一名开始逐年下降,最终稳定在 7-8 名左右。生物科学在 2005 年时曾经出现在第 4 名的位置上,然而在 2006 年排名第 9 之后,就再也没有出现在前十名的位置中。出现类似下降的还有国际经济与贸易专业。 令人稍微有些惊讶的是,在医生的处境日益艰难的今天,临床医学专业反而在 2013 与 2014 年进入了前 5%考生的前十名选择中。 考虑所有考生所有专业的情况,可以计算出每一个专业的平均校内排序水平。我选取了 25 个招生最多的专业,做出下图。每一张小图的横轴表示年份,纵轴表示该年份中这个专业在每个学校内部的平均排序情况。 从总体排序里可以看到很多有趣的内容,比如: 金融学始终排在接近 1 的位置,即几乎在每个学校金融学都排名第一; 数学专业、理科试验班等原本排名较高,但近来排名有所下降; 生物科学的下降更是显著,原本分数只低于 16%的专业,2014 年时分数低于 44%的专业。 计算机专业走了一个深 V,逆势反弹,在 2010 年之后重新成为最受欢迎的专业。 能源动力和工程学专业的排序快速上升。 如果不同的专业会在很大程度上影响学生的未来职业,又如果考生会充分考虑到这样的影响,那么这些不同专业的走势则反映的是中国不同专业的劳动力情况:到底是供大于求还是供不应求。例如生物和数理基础专业的排位下降,工程类、能源动力类专业的排位上升,都能够体现中国经济和劳动力市场的某些侧面。 三,大年和小年存在吗? 所谓大年和小年,就是在去除了高考分数本身的涨落之后,一个专业今年的排序偏高可能会导致下一年的考生不敢填报而排序偏低。将每个学校每个专业进行排序,并且将相邻两年的排序情况画一个散点图: 图中横轴为某专业的去年排序,纵轴为某专业的今年排序,排序在 0-1 之间,越接近 1 表示排名越高。首先可以看到相邻两年同一个学校同一个专业排序的高度相关性。但同时也可以注意到,这样的相关性对于不同排序的专业似乎有一些不同。将上图的两个红色方框分别作图: 从右图可知,如果一个专业去年的分数线在中等水平,我们将无法在一个较小的区间内断言该专业今年的排序位置;但是由左图可知,去年排位较高的专业,今年也几乎不会变动多少位置。为了检验大年和小年的存在,我们简单地做一个回归: 表示某专业在期某省的排序。如果我们以每个专业在这 10 年的平均值作为一个该专业的「正常排序」,那么如果该专业在去年的排序比这个「正常排序」高 1%,今年的期望排序就会比「正常排序」高%。如果大小年情况存在,即去年偏高会导致今年偏低,那么应当小于零;如果大小年情况非常明显,那么应当接近 -1 左右甚至更小。按照 5%一个区间,我们对不同分数段的专业计算 20 次,结果如下: 其中纵轴是前面所要计算的,蓝色区间是 5%置信区间,横轴为专业分位点。可以看到: 分数最低的专业的大小年现象为 -0.2 左右; 中等专业的大小年现象高达 -0.35 以上。也就是说,如果去年是某中等专业大年的话,他排序偏高的情况会在今年以反方向三分之一左右的幅度体现出来,变成一个明显的小年。 最高 5%专业几乎不存在大小年现象,两年间的排序几乎没有关系,去年偏高于平均值的高分专业,今年有可能偏低,但幅度会非常小,随机因素为主。 要记住的是,这条规律建立在对每个专业以往分数线的充分研究上,才能够算出某个专业到底是偏高还是偏低了。而且,如果人人都会对分数线有如此深入的研究,都明白大小年现象存在时,大小年反而就应该消失了。 结语 分数线对于大多数考生来说,仍然存在「一考定终身」功能。他是人们高度复杂的博弈的一项结果,存在一些可以摸清的规律;他本身的变动也可以反映一些隐藏于数据之下的社会经济状况。 希望以上几点粗浅分析能够为填写志愿的家长们提供一些简单的参考。同时,也欢迎告诉我你们对分数线数据的有趣想法。 本文首发澎湃,可使用知乎 app 或者知乎网页的内置转载功能,其他形式的转载请私信,未经允许一律不得转载,否则将出动维权使者死磕到底。 ——————————————— 发自知乎专栏「Clean Data」