SCI、SSCI、EI、SCOPUS指导服务
论文翻译润色 论文预审评估 质量分析报告 期刊匹配推荐

与学术顾问沟通

面面向在线智慧学习的教育数据挖掘技术研究

分类:高等教育论文发表 时间:2018-11-14 09:42 关注:(1)

  刘淇1陈恩红1朱天宇1黄振亚1吴润泽1苏喻2胡国平2

  摘要随着教育信息化进程的深入,学生在线学习数据得到不断积累,为数据驱动的教育评估和智能辅助教学提供良好条件.然而,已有的面向在线智慧学习的教育数据挖掘模型很难从海量、稀疏、高噪的数据中准确分析试题特征和学生学业水平,也较少考虑学生及教师的个性化需求.文中针对上述问题开展若干面向在线智慧学习的教育数据挖掘技术研究工作,以教育学习所涉及的试题、学生、教师为对象,以个性化推荐等技术同教育领域知识相结合为手段,以提高学生学业水平为目标.具体介绍用于试题分析和检索的试题文本表征模型、基于认知诊断的个性化学习资源推荐方法、针对教师的教学建议和指导等方法,以及这些技术所依托的应用平台———科大讯飞在线教育系统“智学网”.最后简单讨论面向在线智慧学习的教育数据挖掘技术未来可能的研究方向.

  关键词在线智慧学习,教育评估,认知诊断,推荐系统

  引用格式刘淇,陈恩红,朱天宇,黄振亚,吴润泽,苏喻,胡国平.

  面向在线智慧学习的教育数据挖掘技术研究.模式识别与人工智能,2018,31(1):77-90.DOI10.16451/j.cnki.issn1003-6059.201801007近些年,信息化进程已影响到当前社会生活的各方面,教育作为一个传统的领域,也正受到信息化的影响[1-2].随着教育信息化的持续深入以及互联网的迅猛发展,在线教育已成为计算机融合传统教育领域而形成的一个新的重要研究和应用方向.当前,已出现一批优秀的在线教育平台.例如大规模开放在线课堂(MassiveOpenOnlineCourse,MOOC)就是具有代表性的一类在线学习平台[3].

  >MOOC平台借助发达的视频技术和网络技术,面向大众提供海量的网络课程,在一定程度上缓解教育资源匮乏、分配不均衡的问题.除了传统的课程材料(如课程视频、扩展阅读和问题考核),MOOC平台还提供诸如讨论论坛、学习社区等用于网络学习.除MOOC平台之外,智能辅导系统(IntelligentTutoringSystems,ITS)[4]也是广受关注的在线教育平台形式之一.ITS旨在通过不断收集反馈信息为每位学生提供个性化定制教育,并且ITS提供的个性化教育通常是在没有人工干预的情况下进行.除了MOOC平台和ITS,还有移动端数组图书馆、在线学习社区等,这些在线学习平台的兴起为学生营造一个具有海量教育资源、不限时间、不限地点的在线学习环境.

  在线教育模式的涌现受到各界关注,Coursera、edX、Udacity等发展较早,在这些成熟的国外在线教育平台的影响和激励下,催生许多国内在线教育平台,如MOOC中文网、微课网、国家教育资源公共服务平台等[5-6].与此同时,在国内还兴起如猿题库(http://www.yuantiku.com)、智学网(http://www.zhixue.com)等一些在线试题库练习平台.区别于MOOC平台提供海量的网络课程,这类在线试题库练习平台主要面向K12中小学教育,帮助学生练习、巩固课堂中学习的知识.由于目前国内的K12教育仍以学校的离线教育为主,在线教育存在一定的覆盖规模较小、使用频率较低等问题,因此部分试题库练习平台在提供在线练习的同时,也收集学生的离线学习数据(包含学生作业、考试等).此外,学习平台通过智能分析学生的答题数据,向学生、教师反映学生的个性化学习情况,并进行有针对性的试题训练,旨在帮助学生提高学业水平.

  随着这些不同类型在线教育平台的快速建设,各个平台都收集大量的课程信息、学生信息及学生学习记录.针对在线学习的数据分析和挖掘[7]逐渐成为教育数据挖掘(EducationalDataMining,EDM)的重要研究方向之一.EDM将数据挖掘的相关技术和方法应用于教育领域,对这些教育平台或线下教育产生的数据进行挖掘和分析,更好地了解学习情况,有效帮助学生进行学习等[8].2010年,KDDCup竞赛(http://www.kdd.org/kdd-cup)首次以使用学生在线答题记录预测学生学习成绩(认知能力)为任务,向全球的教育学、计算机科学的研究者发起挑战.2015年,KDDCup竞赛再次使用教育数据,此次的任务是基于清华大学学堂在线MOOC平台数据,进行学生在线学习退课预测.由此可见,面向在线学习的教育数据挖掘已成为研究者普遍关注的重要课题.

  目前,相关学者已研究多项针对MOOC平台和ITS的数据分析与挖掘方法[9-10].Yudelson等[11]根据课程设置、参考书目和在线检测研究学生在MOOC平台中的行为模式挖掘与激励.Chakor[12]根据学生在课程周期中的行为特征进行学生退课预测.Bruff等[13]根据学生影响力(在线论坛、讨论组、测试成绩等)的知识传播建模与引导研究知识传播问题.朱天宇等[14]和Kongsakun等[15]研究在线学习平台中的个性化信息过滤问题,如课程、论坛专家文章推荐、学生分组、学友推荐等.这些已有的研究成果可以帮助学生更便捷地使用在线教育平台中的资源.此外,学者们针对在线学习的试题库和学习系统书籍进行分析与挖掘.delaTorre[16]根据学生的学习情况记录进行认知诊断分析,了解学生的学习状态、知识点掌握情况和粗心程度等.Midgley[17]研究学生个性化教学与辅导,为每个学生提供个性化的试题推荐和学习策略.Lü等[18]根据在线学习平

  1面向在线智慧学习的教育数据挖掘

  本节从在线学习相关的3方面入手,分别介绍教育数据挖掘在面向试题、学生、教学辅助等方面的研究工作实例,并介绍部分技术的应用场景和所依托的科大讯飞在线教育系统“智学网”.

  1.1试题分析

  试题作为教育中的一类重要的学习资源,在传统教育和在线教育中都发挥重要作用,针对试题分析的相关研究吸引许多研究人员的注意.目前,许多在线学习网站都提供在线题库供学生使用、学习[2],智学网、猿题库等学习平台更是搭建以试题练习为主的在线学习环境.因此,在线学习系统需要提供针对海量试题的收集、整理、存储,并提供试题下载或在线答题等服务.

  1.1.1试题分析研究现状

  图2为智学网中的试题样例,包含试题类型、题面、知识点等一系列的试题信息.如何有效地对试题题面、知识点及学生在试题上的答题记录等信息进行表征,并使用试题的数据表征进行试题难度预测、相似试题判定或试题知识点识别,是在线教育中面向试题研究的重要内容.本文着重介绍基于试题表征方法的难度预测研究.

  题号:1014XXXX143题型:解答题难度:一般日期:2016-05-13标题/来源:XXX年XXX试卷知识点:不等式和绝对值不等式[题文]已知关于x的不等式ax-1+ax-a≥1(a>0)1)当a=1时,求此不等式的解集;2)若此不等式的解集为R,求实数a的取值范围.图2智学网试题样例[20]Fig.

  试题难度是试题的一项重要特征,测试试题难度的预估对教学的各方面都具有一定的现实意义[21].首先,对试题难度的准确估计和标注可以帮助系统构造更合理的试题库.其次,做好试题难度估计和标注工作可以辅助教师自动组卷,在减少人工工作量的同时,提高组卷的科学性和合理性.最后,准确的试题难度估计可以帮助在线学习系统为每个学生筛选合适的练习题.

  教育心理学中的经典测量理论(ClassicalTestTheory,CTT)认为,试题的难度可由一道试题被错误回答的比率表示,即对一道试题,答错的学生越多,那么该试题就越难[22].然而,在某些实际情况下,需要在学生对试题进行作答之前,进行试题难度的预测和评估.例如,对于标准化测试(如TOEFL,GRE等),每个学生可以多次参加考试,并选择最高分数作为最终分数用于学校申请等工作[23].因此,多次考试的试题难度应当一致,以保障考试成绩的公平性;对于一些大型的考试(如中国的普通高等学校招生全国统一考试,简称高考),对试题的难度预测可以保证测试的质量

  1.2学生认知诊断

  学生是在线教育系统服务的主要对象,准确分析学生的认知水平,对帮助了解学生状态、构建适当的教学计划都具有极大的帮助[9].为此,教育心理学的研究者提出认知诊断评价(CognitiveDiagnosisAssessment,CDA),进行学生认知水平的全面分析

  1.3.3学生协同学习分组推荐

  如前所述,除将对学生的认知诊断结果应用于个性化试题推荐之外,还可以根据班级内学生的知识点掌握水平,进行协同学习分组的推荐.针对1.3.1节中提到的学生协同学习分组方法存在的相关问题,Liu等[38]研究基于学生认知诊断分析的学生协同学习智能分组方法.如图14所示,该框架分为输入、学生建模、学生分组及输出4个部分.输入部分为班级中待分组的学生及收集的学生答题情况.首先根据学生的试题作答情况对学生进行认知诊断,分析软性确定性输入噪音与门模型(Soft-DeterministicInputsNoisyand"Gate",S-DINA),获得学生在每个独立的知识点上的概率化掌握程度.然后根据每个学生不同的知识点掌握情况,进行学生分组,并分别提出基于学生差异的分组算法(Uniformk-meansBased,UKB)和基于收益的学生分组算法(BalancedGainBased,BGB).如图15所示,UKB以学生知识点掌握程度为特征对班级内的学生进行聚类,旨在将同类的学生分配到不同的学习小组.BGB通过最大化组内所有学生的平均收益,对学生进行分组

  2面向在线智慧教育的数据挖掘技术应用

  对于在线学习各方面的研究工作,最终目的是将研究成果转化为智慧教育应用,帮助在线教育系统更好地辅导学生学习.

  2.1在线自适应学习

  Brusilovsky等[39]提出自适应学习的概念后,得到国内外研究人员的重视.自适应学习通常指为学生提供学习环境、实例或平台,通过分析学生的学习过程,发现并总结理论,用于学生自主解决问题的学习形式.自适应学习可以看作个性化教育的一种实际应用,目前,已有在线学习网站向学生提供自适应学习的解决方案以满足每个学生不断变化的学习需求.“智学网”作为场景覆盖较广、智能化较高的学生答题数据采集、分析、应用平台之一,全程跟踪学生的学习过程,为每位学生打造个性化学习路径,促进学生的个性化学习,提高学业水平.

  当前的自适应学习系统要求及时诊断学生的学习状态,根据每位学生的不同状态生成个性化学习内容,保证学习的高效性和合理性[39]3结束语随着信息技术的发展和网络的普及,一方面,各种在线教育平台层出不穷,积累海量的教育资源以及教学数据,产生许多的智慧学习应用需求(如自适应学习等).另一方面,在线教育的持续发展为面向智慧教育的数据挖掘技术研究提供良好的契机和条件,越来越丰富、高质量的教育数据让教育心理学、认知心理学等和计算机科学更紧密结合,从而设计更有效的模型、方法和应用系统.在此背景下,本文综述针对在线教育中面向试题(教学资源)、面向学生和面向教学3个方面进行若干教育数据挖掘技术的研究探索工作.

  可以预测,随着在线学习的不断发展和完善,该领域内的数据挖掘基础研究与应用工作仍将在诸多方面不断产生技术革新[20].

  1)学生的多维认知因素建模.众所周知,学生的学习过程受到诸多因素的共同影响,如“猜测”、“粗心”等教育心理学中已经发现的因素.通过数据挖掘技术对学生学习中出现的众多不确定因素进行准确的建模,突破传统认知诊断技术基于小样本或单因素分析的局限性,可以更好地帮助在线教育系统、授课教师了解学生的学习状态,帮助提高学生的学业水平.

  2)跨学科的知识迁移学习分析.当前数据挖掘中针对学生认知诊断的工作通常围绕某一门独立学科的学生答题数据展开.然而,学生所学的不同学科(如数学、物理等)之间并不完全独立,相互之间可能存在知识转移现象.因此,利用迁移学习等数据挖掘方法寻找学生在不同学科的学习中共有的模式、知识结构,对于全面了解学生的学习状态具有重要意义.

  3)在线学习与离线教育的融合.纵然面向在线学习的教育数据挖掘研究与应用具有良好的前景和预期,但是为学生的日常学习、教师的课堂教学进行辅助服务也应当是在线学习平台的根本目标之一.因此,针对中小学的在线教育平台当前应以辅助传统的离线(课堂)教育为主,不能完全取而代之.所以,面向中小学的在线学习研究与应用的关注点除本文提到的面向试题、面向学生和面向教学辅助等内容,如何实现在线教育和离线教育的有效融合,也是一个重要的研究方向.

  除此之外,相关研究人员应当关注在线学习和离线辅助教育效果的衡量标准选择问题,如考虑到仅利用学生的成绩进行学业水平的衡量过于片面,学者们引入认知诊断的分析方法.但是,由于学生的知识点掌握水平属性仍存在一定的隐蔽性[41]等原因,如何综合多方面的因素,综合衡量学生的学习状态仍是需要关注、研究的问题.

  参考文献

  [1]傅钢善.教育技术发展轨迹探讨.电化教育研究,2005(9):22-26.(FUGS.ExplorationofEducationalTechnologyDevelopment.e-EducationResearch,2005(9):22-26.)

  [2]HONGCM,CHENCM,CHANGMH,etal.IntelligentWebBasedTutoringSystemwithPersonalizedLearningPathGuidance.Computers&Education,2008,51(2):787-814

期刊目录网是一家专业从事国内国外期刊学术论文发表指导,著作出版,发明专利的权威平台,提供文章翻译、文章润色、文章预审、期刊推荐、发表支持、书号申请、出书指导、专利申请等评职称相关学术成果服务。是您评职称学术成果指导首选权威平台。

AllSet微信公众号
说明:1、微信扫码或搜AllSet学术并关注
2、发送SCI/SSCI期刊全名告知分区
3、按提示可下载SCI、SSCI、EI期刊目录
Copyright © 2013-2022 www.qikanmulu.com,All Rights Reserved