
作者:徐朝军//施聪莺
页数:237
出版社:科学出版社
出版日期:2021
ISBN:9787030632173
电子书格式:pdf/epub/txt
内容简介
在数据密集型研究范式下,数据在教育科学研究和发现中的地位日益提升。本书详细介绍了教育大数据的采集、存储、分析等技术,继而研究了区域网络教学资源联盟、网络教学资源调查、教育信息化行业热点话题分析及趋势预测、基础教育概念图自动构建研究等教育大数据实例,展现了大数据理论与技术在教育领域的魅力和风采。
本书适合教育技术、计算机领域的学者、学生阅读,也可供教育信息化产业领域的相关人员参阅。
作者简介
徐朝军,男,1974年10月生,江苏盐城人,博士,南京师范大学副教授。主要研究方向为教育大数据及应用、智能教学决策、移动教育资源开发等。
主持教育部人文社科基金项目1项、全国教育科学规划项目2项,先后承担并完成教育、交通、农业、烟草等多个领域的大数据决策支持等横向课题10余项;在SSCI、EI期刊及国际会议上发表论文近30篇;指导学生团队获得升级意向项目资助与各类竞赛奖项28项。
目录
前言
第一章教育大数据概述1
第一节关于数据的故事2
第二节从数据挖掘到数据融合3
第三节大数据4V特征7
第四节教育大数据简介11
第五节教育大数据技术基础15
小结22
第二章数据采集技术23
第一节数据采集技术发展历程24
第二节常用数据来源25
第三节数据采集方法29
第四节网上开放的数据库38
第五节数据采集计划44
小结48
第三章数据存储技术49
第一节数据存储技术的发展50
第二节磁盘与RAID系统53
第三节云盘技术57
第四节打造企业云盘65
小结75
第四章数据分析技术框架76
第一节数据分析概述77
第二节数据清洗82
第三节自然语言处理85
小结107
第五章区域网络教学资源联盟共享109
第一节教学资源共享概述110
第二节基于爬虫的资源联盟共享方案116
第三节联盟共享核心技术119
第四节方案实施与效果分析126
小结133
第六章基于大数据的基础教育网络教学资源调查分析135
第一节网络教学资源的研究意义136
第二节网络教学资源概述137
第三节网络教学资源处理方式145
第四节网络教学资源分析模型的建立148
第五节网络教学资源数据现状分析161
小结164
第七章教育信息化热点话题分析及趋势预测166
第一节教育大数据预测167
第二节话题发现技术基础170
第三节教育信息化热点话题发现178
第四节话题发现实验设计与实施192
小结205
第八章基础教育概念图自动构建研究207
第一节构建概念图的意义208
第二节基于网络教育资源概念图构建211
第三节概念图构建与评价218
小结233
后记236
节选
第一章教育大数据概述 “物竞天择,适者生存”是达尔文提出的一种生物进化规律。这种规律同样也适用于教育进化过程。 2012年,联合国发布的白皮书《大数据促发展:挑战与机遇》中指出:“大数据时代已经到来,大数据的出现将会对社会各个领域产生深远影响。” ①教育亦已成为大数据时代的“弄潮儿”。 第一节关于数据的故事 数据( data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据到底存在哪里呢?实际上,数据存在于万事万物中,人本身就是数据产生的一个源头,人发出的声音、写下的文字都是数据。下面讲述几个和数据有关的故事,方便读者更好地理解数据及其意义。 一、Seton Healthcare Seton Healthcare①是采用国际商业机器公司( International Business Machines Corporation,IBM)最新沃森医疗保健内容分析预测技术的首个客户。该技术允许企业利用大量病人相关的临床医疗数据,通过对大量数据的处理,更好地分析病人的情况。在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过 3000次的数据读取。通过对这些数据进行分析,医院能够提前知道哪些早产儿会出现问题,并且可以有针对性地采取措施,避免早产婴儿夭折。这项技术通过对早产婴儿的数据进行处理分析,大大提高了婴儿的存活率,为做好早产婴儿可能出现情况的预防工作提供了保障。 ②此时,数据不仅是一个符号,更是生命的象征。 二、地铁刷卡 地铁刷卡对于上班族来说是一件习以为常的事情。请不要小看每一次的刷卡,我们从这些刷卡数据中能获得非常丰富的信息,对于解决交通拥堵问题、整个城市规划有着不可或缺的意义。例如,通过这些数据,可以分析地铁、公交换乘热点和拥挤度的时空分布特征,并基于这些特征提出运营优化方案。同时,还可以根据人流量数据进行城市的规划,比如,在人流量大的地方,可以增加通道、闸机,以及配套完善站点周边基础设施建设等,还可以根据刷卡人的年龄段确定要增加设施的地点。除此之外,还可以根据时间分布情况规划地铁班次,早高峰和晚高峰的刷卡人数较多、频率较高,可以适当增加班次,避免出现拥堵情况。在刷卡人数较少的时段,可以降低发车频次,从而提升公共资源利用率,减少浪费。通过对公交卡计次卡、单程票、手机移动支付等不同乘车支付方式的细分与分析,则可以对常住人口、流动人口、大学生等暂住人口进行区分,同时对不同人群的活动轨迹、范围、规律等进行分析,例如,对住房、教育、医疗、就业、购物、餐饮等地点的分析,可以优化城市规划,加强“睡城”的配套建设,优化公交路线规划 ①,缓解城市内部早晚人口流动压力。 三、学业诊断 在四川省成都市青羊区,小学生拿到的成绩单不再只是分数表,而是一份包括知识应用、技能应用、能力倾向等 3个方面、16项指标、上百个数据的学科评价报告。其中含有雷达图、柱状图、数据表 这些数据是青羊区借助学业素质与能力评价系统学业评价技术生成的,不仅能反映学生达标的信息,还能为学生提供与群体、他人比较的信息。②这种数据可视化的方式可以让家长和教师更容易判断学生的优点和短板,更加客观地看待学生的全面发展,进而便于为学生制订个性化的学习计划。 第二节从数据挖掘到数据融合 21世纪最大的变化莫过于大数据所带来的生活方式、思维习惯的变化。在“大数据”成为新型生产资料的时代,企业、组织、个人的所有活动都在产生数据、消费数据,并在此基础上生成新的知识,推动人类历史文明的车轮不断前进。下面介绍大数据发展的相关概念,感受大数据的真正魅力。 一、被遗忘的数据挖掘 数据挖掘( data mining,DM),又译为资料探勘、数据采矿。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。由于数据科学刚刚兴起,数据科学家作为一种新生职业被提出,数据研究高级科学家 Schutt将其定义为计算机科学家、软件工程师和统计学家的混合体。数据挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和数据库等,还包括各类专业方向,如油田电力、海洋生物、情报检索、天气等。 简单来说,数据挖掘就是指从数据中获取知识。美国教育部在 2012年 10月发布了报告《通过教育数据挖掘和学习分析促进教与学》 ①,对数据挖掘进行解读。其中提出了五类技术方法—预测、聚类、关系挖掘、人类判断过程简化、模型构建。举个例子,假如我们想知道某辆车从启动到速度稳定的行驶距离,那么我们会先统计从启动到稳定耗费的时间、稳定后的速度、加速度等参数,然后运用牛顿第二定律建立模型,最后根据多次实验的结果列出方程组,从而计算出模型的各个参数。通过该过程,就相当于学习到了一种知识,即某辆车从启动到速度稳定行驶的计算模型。此后,向该模型输入车的启动参数,便可以自动计算出该车达到稳定速度前行驶的距离。 数据挖掘在教育中同样具有很广泛的应用意义,我们可以利用基于教育系统的数据挖掘技术预测可能会中途退学的学生、学生之间的关系、大学入学考试结果,还可以预测学生的学习成绩 ②,发现教学大纲中学生感兴趣的学科及方向等,在计算机编程设计中根据不同的学习风格对学生的表现进行分类,评估学校之间信息化建设的相似性和差异性。 ① 二、大数据 从问卷调查到传感器自动获取,从信息系统辅助管理到数据的积累,大数据(big data)的发展经历了一个漫长的过程。大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大的或复杂的数据集。大数据本身是一个很抽象的概念。最早提出“大数据”概念的是全球知名咨询公司麦肯锡,其在报告《大数据:创新、竞争和生产力的下一个前沿领域》中称:“数据作为重要的生产因素已经渗透到当今的每一个行业,对海量数据的挖掘效率和运用效率将直接影响着新一轮生产力的增长。”其对大数据的定义简单明了:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。 2008年,Science杂志出版的专刊中对大数据的定义是:“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据。 ”②维基百科对大数据的定义是:大数据是指利用常规软件获取、管理和处理数据所耗费的时间超过可容忍时间的数据集。 Gartner公司结合大数据的特点对其进行了定义:“大数据是种类繁多、高容量、高生成速率的信息价值,同时需要新的处理形式去确保判断的做出、洞察力的发现和处理的优化。 ”③ 对于一般企业而言,大数据的作用主要表现在两个方面,分别是数据的分析使用和进行二次项目开发。通过对大数据进行分析,不仅能把隐藏的数据挖掘出来,还可以借力于数据背后的潜在模式,指导社会生产实践。至于对数据进行二次开发,在网络服务项目中被运用得比较多,通过对这些信息进行总结与分析,可以制订出符合客户需求的个性化方案,并创造一种全新的广告营销方式。通过大数据分析,将产品与服务结合起来的并不是偶然事件,是对数据、行业服务、产品的深入理解,能做到这一点的往往是数据时代的“弄潮儿”。 三、数据分析 数据分析是指用适当的统计分析方法对收集的大量数据进行分析,提取有用信息和得出结论,从而对数据加以详细研究和概括总结的过程。 ①简而言之,数据分析就是从一大堆数据中提取到我们想要的信息。数据分析主要包含三个部分:描述数据特征、预测数据趋势和展示分析结果。例如,气象局会统计每个地区每个月的降雨量,从而分析每个地区一年降雨量的特征,这就属于描述数据特征。淘宝是国内广受欢迎的购物平台,它可以根据用户的兴趣和喜好进行个性化推送,预测数据趋势,根据用户浏览商品的种类和搜索情况进行预测,推测用户可能会关注的方向。其一般会借助一些可视化工具,如 Plotly、High Charts等来展示分析结果,使得数据更为形象,更易被人理解。 数据分析在教育领域中发挥着举足轻重的作用,它可以帮助教师更好地了解学生的学习行为和习惯,在特定的时间段内促进学生学习;它可以帮助学生进行自我诊断、查缺补漏;它可以帮助教师评估教学效果,及时更改教学目标和教学计划;它可以促进教师和学生提高教学效率和学习效率,让学生能够尽可能在最短的时间内获得更多的知识。 进入大数据时代,数据分析仍面临着一些问题,具体如下。 (1)进入信息时代,数据的数量正以飞快的速度暴增,数据的存储方式既会影响数据分析和处理的效率,也会影响数据存储的成本。对数据存储方式的选择决定了数据分析的效率。 (2)海量复杂数据是数据分析的对象,其产生方式多样,其中涉及不同信息系统、不同应用软件和传感网络等多源、异构数据的高效采集与无缝整合,这仍是一个亟待解决的问题。 (3)从数据的产生特点来看,可以将数据分析方面的需求划分为周期性需求和非周期性需求两类。周期性需求会定期出现,因此可以提前分配数据处理资源,满足数据分析需要。非周期性需求则具有突发性和偶然性,需要弹性地分配计算资源以完成数据分析和处理。因此,大数据计算资源管理与调度是大数据分析中的核心问题。















