随着实证研究方法在人文社科领域的推广,越来越多教育学科的学者和学生,在研究过程中开始采用数据收集、整理和分析的方法。用数据描述和解释教育中的问题或现象,发现其背后的本质规律,进而对未来发展趋势做出预判,是数据分析在教育研究中通常采用的实现路径。
质化研究范式侧重于通过归纳、生成假设和理论探究的模式获得知识,通常需要研究者具有敏锐的观察力、独特的创新思维和较高的理论素养,研究者往往从自身的经验出发,用思辨的方法对教育现象进行研究,其研究结果受研究者的个人主观影响颇深。相对而言,在量化研究范式中,由于数据挖掘技术的原理和方法已在数理统计学得到推导和证明,因而只要研究者所采集的数据可靠,所选择的处理方法得当,所采用的数据分析技术合理,就可较为容易地从大量的数据资料中概括出蕴含在其背后的本质规律。可见,数据分析在教育研究中的应用,关键依靠的是数据来源的可靠性、处理过程的科学性以及分析方法的合理性。然而,在这些环节中,数据来源可以说是整个数据分析过程中最为关键的“源头”问题,因为数据不仅是分析的“素材”之源,也是课题研究的关键对象,数据来源的可得性和可靠性是研究过程的根本保障和立题之本。
通常在定量研究过程中,大多数学者采集数据的渠道分为两种:第一种是依靠某项课题的研究团队,或者是研究者个体通过发放问卷、访谈或实验等途径获得,此类属于一手数据;第二种则是依靠政府部门或相关组织机构得到或提供的现有统计,通常属于二手数据。二手数据的获取通常包括三种形式:一是以出版资料或数据库形式存在的,如国内外政府部门或组织机构的官方统计数据,国际上有OECD组织官网、世界银行官网中与教育相关的统计数据,各国教育部网站的相关统计等,国内有国家统计局官网统计、《中国教育事业统计年鉴》《中国教育经费统计年鉴》,以及相关的网络数据库等;二是专业数据服务机构提供的二手数据,如中国人民大学中国调查与数据中心每年连续开展的中国综合社会调查(CGSS)数据、麦可思研究院定期公布的年度大学生就业报告数据等;三是从组织或机构自身得到的内部数据,如某高校内部在经费收支、教师结构、生源状况等方面做的统计等。
总体来说,无论是一手数据还是二手数据都有优点和劣势,如一手数据与研究问题的相关性和针对性都更强,且时效性极高,缺点是获取的成本相对较高,数据采集的时间也较长;二手数据则相反,成本较低、获取容易且速度较快,但缺点也在于与当前研究问题的需求之间存在着一定的出入,时效性也普遍较低。
此外,在数据采集的过程中,还需特别注意的是,通过发放问卷等形式获取的一手数据,对于问卷设计的科学性有着较高的要求,不仅需要在预调研的基础上进行信效度的检验才可大规模地开展调查,同时,问卷发放样本对象的代表性及样本量的大小也会在很大程度上影响最终的研究结论。因此,在没有特定“命题”要求的前提下,部分教育学科的研究者在做研究时,已较多注重参考以出版资料或数据库形式存在的,或是专业数据服务机构提供的二手数据,这样既可以规避一手数据采集过程中可能带来的风险,又可以容易、快速地获取相关的数据统计。
(作者单位:北京师范大学教育学部)