欢迎订阅!欢迎投稿!
投稿邮箱:jiaoyujiaoxuelt@VIP.163.com
你的位置: 首页 » 论文欣赏 » 正文
《教育教学论坛》是经中华人民共和国新闻出版总署批准,由河北出版集团主管,河北教育出版社主办、中国教育发展战略学会终身教育工作委员会协办的教育类学术期刊。

《教育教学论坛》编辑部

QQ : 984958817

编辑部投稿邮箱:jiaoyujiaoxuelt@VIP.163.com

电话:0311-87766660 80820729

地址:河北石家庄联盟路705号 河北教育出版社 《教育教学论坛》杂志社 编辑部

以实践和创新能力培养为导向的数据挖掘课程教学方法研究
2020-03-20

黄浩,余琍,刘树波 

(武汉大学计算机学院,武汉430072)

 要:针对高校计算机专业数据挖掘课程教学存在的问题,探讨以实践和创新能力培养为导向的数据挖掘课程教学方法,综合采用案例穿透教学、能力拓展比赛等手段,逐步深化学生对具体数据挖掘算法背后所包含的数学原理或启发式智慧的认识,提升学生将所学知识合理地、创新地应用于具体问题的能力。

关键词:数据挖掘;课程教学;实践能力;创新能力;教育教学论坛

 

Research on practical and innovation abilities training-oriented 

teaching methods of data mining course

Huang Hao, Yu Li, Liu Shubo

(School of Computer Science, Wuhan University, Wuhan 430072)

Abstract: To address the problems in the course teaching of data mining for computer majors in colleges, this paper explores the teaching methods of data mining courses oriented by practice and innovation ability. By comprehensively adopting methods such as case penetration teaching and capacity development competition, we want to gradually deepen students' understanding on the mathematical principles or heuristic wisdom behind the specific data mining algorithms, and thus improve students' ability on applying what they have learned to specific problems reasonably and innovatively.

Keywords: Data mining; course teaching; practical ability; innovation ability

 

引言

随着计算机科学的发展,世界已经进入大数据时代,数据也逐渐成为重要的资源。如何从数据中挖掘有意义、有价值的信息也变得愈加重要。目前,国内外高校的计算机学科大都开设了数据挖掘相关课程,旨在培养符合时代要求的数据挖掘研究人才和应用人才。文献[1]探讨了数据挖掘课程的教学方法,为此课程的教学改革与创新提供了一些指导与借鉴意义。文献[2]分析了数据挖掘课程中存在的弊端,并着重讲述了以实例为主线贯穿教学过程的思路。文献[3]提出了基于案例和悬念的教学模式来激发学生的积极性,以提高教学效果。文献[4]探索了数据挖掘课程教学的改革,并给出了一些教学改革的意见。但是,由于数据挖掘教学任务重,以及该领域教师多年养成的科研习惯、教学习惯等原因,使得教师在数据挖掘教学过程中更注重讲解,特别是理论知识的讲解,且倾向于模式化的训练,从而在一定程度上使得该课程的教学存在着缺乏交互性、缺乏感性认识、缺乏趣味性和缺乏拓展性等问题,导致教学效果的减弱。因此,为了进一步提高数据挖掘教学质量,需要改进现有的教学方法,真正地让学生参与进来,提高学生学习的兴趣,让学生透彻理解并灵活应用相关数据挖掘知识,最终达到培养学生实践能力和创新能力的目标。

    本文旨在探讨以实践和创新能力培养为导向的数据挖掘课程教学方法。为此,本文接下来首先讨论数据挖掘课程教学中常见问题,然后针对这些问题,介绍如何综合使用1)案例穿透教学、(2)能力拓展比赛等教学方法提升学生的数据挖掘实践和创新能力。

1 数据挖掘课程教学中常见问题

在现有的数据挖掘课程教学中,通常学生都是被动学习,自己动手实践的机会较少,存在缺乏交互性、缺乏感性认识、缺乏趣味性以及缺乏拓展性等问题,难以让学生透彻理解并灵活应用相关数据挖掘知识。

1.1  缺乏交流互动

在数据挖掘教学过程中,师生之间的交流互动尤为重要。这是因为数据挖掘算法涉及众多细节,教师需要通过交流互动,才能实时地了解学生对各知识点的掌握情况,并据此作出合理的教学内容调整。然而,由于数据挖掘教学内容多任务重,教师为了教学进度,往往更重视讲解而忽略交互。而学生在交互较少的课堂氛围下,也往往倾向于被动式的听讲,从而使得课堂交流互动进一步缺失。因此,需要设计一种更加适合师生交流互动的数据挖掘教学模式。

1.2  缺乏感性认识

在数据挖掘课程学习中,感性地认识相关算法背后所包含的数学原理、启发式智慧、适用条件、优缺点等有着积极的作用和重要的意义。相较于传统理性认知,感性认知提升了学生对数据挖掘知识的总体把控能力,可以有效促进学生在实践中运用这些知识的熟练度、灵活度。感性认识的缺乏将造成学生对数据挖掘知识的掌握失去“活性”,变得抽象、孤立,以至于难以做到真正的融会贯通。然而,由于教师长期科学训练、科学研究养成的习惯,着力于对数据挖掘知识点进行理论讲解、犹如公式推导般地介绍相关算法目前仍然占据数据挖掘教学方式方法的主流,从而使得感性认识在数据挖掘教学过程中无意间被弱化。因此,亟需优化传统的教学方法,进行灵活有效地课堂知识渗透,结合形象化的讲述方式和针对具体问题的系统讨论,为学生搭建起感性认识的桥梁,增强数据挖掘教学的“活性”。

1.3  缺乏趣味性

一般来说,趣味性高的教学方式有助于提升学生在学习过程中的主观能动性,加速学生对相关知识的理解、吸收。但是数据挖掘课程教学理论性较强、学习内容略显枯燥,使得课程的趣味性天然地相对缺乏。因此,如何提升趣味性,增强学生学习过程中的主观能动性,是实现高质量数据挖掘课程教学亟需考虑的现实问题。

1.4  缺乏拓展性

练习与运用是巩固所学知识、训练实践能力乃至创新能力的有效手段。在数据挖掘教学中,为了对学生练习和运用结果进行量化打分,常见的做法是各类型知识点独立命题、统一要求,对学生进行模式化的训练。虽然这种方式可以起到细化训练目标、公平公正打分的目的,但是却一定程度地失去了对学生综合分析问题、解决问题的能力的培养,牺牲了进一步拓展学生实践能力和创新能力的可能性。因此,如何设计更加合理的练习和运用场景,有效巩固和拓展学生对所学数据挖掘知识的理解和认识,对于升华数据挖掘课程教学质量有着积极、重要的作用。

2 案例穿透教学

为了加强师生交流互动,提高学生的感性认知,同时也提升课堂的趣味性,结合数据挖掘课程教学特点,我们提出一种更具“穿透力”的教学模式——案例穿透教学,即通过精心设计的、环环相扣的案例,采取师生一起讨论、一起发现的手段,贯穿算法的全流程使用细节,覆盖算法的全方位运用方式,在有限的课堂教学时间内,让学生对算法的精髓原理、不同条件下可变化的使用方式、以及与其他方法的互补联用等知识点的认识得到快速提升。

    下面我们以数据挖掘中聚类算法教学为例,介绍案例穿透教学,内容包括:(1)参数初始化策略,(2)使用细节合理化调整,(3与其他方法的搭配与联用

2.1  参数初始化策略

对于许多数据挖掘算法,其参数的初始化对算法的最终结果有着一定影响。例如在K-均值聚类算法中,如何选择K(即聚类中心的个数)以及K个初始聚类中心会一定程度地影响该算法的最终聚类结果。

首先,为了让学生认识到这种影响的存在,可以使用二维数据样本集合(使用二维数据样本为了更好地支持数据的可视化表达),引导学生讨论、预测初始聚类中心的个数和分布对K-均值算法聚类结果的可能影响。继而,实时运行采用不同初始聚类中心的K-均值算法,给出聚类结果的可视化表达(如没有实时运行的条件,亦可事先准备多种不同参数初始化情况的算法结果),并向学生解释造成这些聚类结果的原因,从而使得学生对K-均值算法参数影响形成一定感性认识。

在这种感性认识的基础上,进一步将K-均值算法参数初始化要考虑的实际情况,例如待处理的数据集中各类数据样本分布是否呈凸形状或任意形状、在各类中数据样本数目分布是否相对均匀或差异巨大等,做出总结归纳,并针对不同实际情况,启发式将对应的参数初始化策略传授给学生。该启发式教学的要点为对错并举,即一次举出包括正确和不正确的初始化策略的多种方法,供学生讨论、预测,并由教师做验证、分析。

2.2  使用细节合理化调整

除了参数的初始化,在算法使用过程中,对算法细节上的合理调整,也可以使得算法产生不同的效果,从而有效地应对不同的使用目标、使用条件。

首先,为了开拓学生的思维,让学生对算法使用细节的合理化调整产生一定的感性认识,需要教师给出少量难度适宜的案例,来方便学生理解哪些细节的调整可能产生哪些对应的效果,从而应对不同的使用目标、使用条件。例如,当使用K-均值算法来找出一维非负数据样本集合中数值接近于0的数据样本时,可以设定K=2(即聚类个数设为2),并且在K-均值算法运行过程中始终固定2聚类中心,其中一个固定在0,这样当K-均值运行收敛后,即可获得一个数据值明显大于0和一个数据值接近0的两个数据样本聚类;而当待处理的数据类型不是传统的数值型数据,而是属性数据时,通常可以将K-均值算法修改为K-众数算法,并且使用余弦相似度代替传统的欧式距离来衡量两两数据样本之间的接近程度。

然后,在教师对以上案例进行基本讲解之后,可以进行举一反三,由教师引导,让学生一起进一步讨论、深挖针对以上使用目标、使用条件的其他可行的合理化调整方法。当达到举一反三的目的之后,学生对算法细节合理化调整便有了一定的了解,这时再由教师提出新的使用目标、使用条件,继续引导学生进行开放式讨论、分析,让学生将这类问题的学习由模仿进阶到创造。由于一个数据挖掘算法往往涉及较多的细节,为了避免细节调整效果的混杂,要注意对算法各个细节的效用要分门别类,一一讨论、分析。

2.3  与其他方法的搭配与联用

由于各个数据挖掘算法通常各具优缺点,相比单独地使用各个算法,合理的搭配和联用多个算法往往能使得相关算法优势互补,达到更好的使用效果。

首先,教师要复习、总结相关算法的优缺点,在此基础上给出少量相对简单的搭配联用案例,让学生快速了解搭配联用的效果和意义。例如,K-均值算法的优点在计算代价小,但是不太适合识别具有任意形状的聚类;相反,层次聚类在处理任意形状聚类时有一定优势,但是计算代价过大。为了使这两个算法优势互补,可以先用有效率优势的K-均值算法将数据凸分解为一系列大小相近的众多小聚类,再以各聚类中心点为代表点(代表点数量远小于原始数据样本数量),继而在代表点上运行有性能优势的层次聚类算法,则可既快速又相对准确地完成对任意形状聚类的识别。

在了解算法搭配联用的效果和意义的基础上,教师需要总结常见的算法搭配和联用的方法,并给予一定的点评,加深学生对其中优势互补原理的理解。然后,再由教师采用“对错并举”的方法,举例新的搭配联用的方法,供学生讨论、预测,最后由教师做验证、分析,从而进一步加强学生对算法搭配联用的理解和领悟。

综上,虽然案例穿透教学需要教师精心准备大量环环相扣的案例,无形间增加了教师工作量,但是这种课堂教学方法的交互性强,有助于提升学生的感性认识,帮助他们更透彻地理解、更扎实地掌握相关数据挖掘知识,从而为其灵活运用、甚至创新应用这些知识打下良好基础。

3  能力拓展比赛

为了充分利用课余时间进一步提高学生的实践能力和创新能力,结合数据挖掘学科特点,我们提出一种更加有趣、也更具“拓展性”的课后练习模式——能力拓展比赛,即结合课程内容和进度设计实际的数据挖掘问题场景,让学生以匿名打比赛的方式,在相对足够的时间里加深自己对相关问题的分析与思考,改进自己的数据挖掘解决方案。

    下面我们以聚类问题的课后练习为例,介绍能力拓展比赛,包括:(1)比赛机制,和(2)激励机制。

3.1  比赛机制

    比赛开始前,教师给出问题描述和原始数据集,但不提供真实的结果标记(Ground Truth),例如,在聚类问题中,教师提供待聚类的数据样本,但不提供数据样本的真实类别标签;教师规定解决方案的评价指标,例如,在聚类问题中,评价指标可以选用NMI(标准化互信息)用来衡量解决方案得出的聚类结果和真实聚类结果之间的一致性;教师规定最终解决方案的提交截止日期;学生向教师报告自己的参赛昵称。

    比赛过程中,每位学生每日可以有限次地提交当前解决方案或解决方案得到的结果,并根据昵称查看自己当前结果在评价指标上的得分(例如NMI值等)、以及当前结果得分排名等信息。这种匿名结果验证方式,既一定程度地保持了比赛的趣味性,又可以防止过度调参行为,还可以让学生根据得到的当前得分和排名信息来做出合理推断或验证之前的推断,从而改进解决方案,调整比赛策略,以期最终获得更好的得分和排名。

3.2  激励机制

    在比赛过程中,为了鼓励学生最大程度地分析研究问题和数据集,改进解决方案的效果,也同时保护部分学生的参赛积极性,教师在定期更新比赛排名时,只需报告前几名(例如前十名)的昵称、得分、排名;同时,在比赛结束后,给最终排在前几名的学生相对更高的平时成绩激励。

    另外,在创新性方面,也要给予额外的平时成绩激励,特别是所提解决方案采用了课堂教学中未讨论过的参数初始化策略、细节调整方法、多算法搭配联用技巧等。同时,对于创新性高、潜力大的想法和思路,老师应当继续鼓励并指导相关学生深入研究,完成相关研究论文或发明专利,从而进一步提升学生的积极性、成就感,升华教学成果。

综上,虽然能力拓展比赛需要教师花费较多精力去设计比赛场景、搭建比赛环境,但是这种课后练习方法的趣味性较强,也更有利于学生在相对真实的环境下磨炼、提升自己的数据挖掘能力。

4 结语

在大数据时代,数据挖掘课程教学和数据挖掘人才培养富有重要的现实意义。本文围绕以实践和创新能力培养为导向的数据挖掘课程教学方法展开探讨,首先分析了当前数据挖掘课程教学中的痛点,继而提出了综合使用案例穿透教学、能力拓展比赛等教学方法,在逐步加深学生对相关算法的理解深度、提高算法运用水平的过程中,培养其解决数据挖掘相关问题的实践能力、创新能力,从而更好地达到数据挖掘课程教学和人才培养的最终目的。

 

参考文献:

[1] 陈燕. 数据挖掘课程教学方法探讨[J]. 教育教学论坛, 2018(13).

[2] 谭征, 孙红霞, 王立宏, 等. 基于实例的本科数据挖掘课程教学探索[J]. 计算机教育,2013(9) :67-70.

[3] 邓娜, 林松, 熊才权, 等. 基于案例和悬念的数据挖掘教学模式设计[J]. 计算机教育, 2018(11):97-99.

[4] 来鹏. 数据挖掘课程教学改革探索[J]. 科技创新导报, 2018, 15(12):232-234.

返回顶部