QQ : 859367193
编辑部投稿邮箱:jiaoyujiaoxuelt@VIP.163.com
电话:0311-87766660 80820729
地址:河北石家庄联盟路705号 河北教育出版社 《教育教学论坛》杂志社 编辑部
数据挖掘课程运用网络资源的教学探索
高 波
(北方工业大学 理学院,北京,100144)
[摘 要] 在信息技术的推动下,许多高校都在建设网络教学平台,同时很多课程的教学视频出现在中国大学MOOC等网站上。本文首先根据数据挖掘课的特点,合理分配理论教学和实验教学的学时;其次讨论在理论教学时,网络资源如何影响备课和授课,并且以人工神经网络模型为例,介绍怎样在课堂教学中应用网络资源;然后从软件环境、实验数据、模型代码等方面,讨论实践教学利用网络资源的方法;最后根据教学评价结果,改进混合式教学的组织方法,提升数据挖掘课的教学效果。
[关键词] 数据挖掘;理论教学;实践教学;网络资源
[基金项目] 2018年北方工业大学教育教学改革和课程建设研究项目“统计学专业《数据挖掘技术》课程建设研究”(NCUT2018JGM47);2020年北京市教委市属高校基本科研业务费“协同感知智能挖掘与统计分析技术”(110052971921/007)。
[作者简介] 高波(1984-),男,山东聊城人,博士, 北方工业大学理学院统计系,讲师,主要研究数据分析,风险管理。
[中图分类号] G642 [文献标识码] A
一、引言
信息时代的经济或科研活动产生了大量的数据,例如网络购物已经走进千家万户,食品、衣物、书籍和电器等都可以在网站或者APP购买。大型电子商务公司正在运用用户的浏览或交易记录,刻画他们的特征,推荐消费者可能感兴趣的商品,评价生产者的信用情况,并且决定是否发放小额贷款。这些任务需要大量掌握数据挖据技术的人才,因此很多院校的统计学专业纷纷开设数据挖掘课程。
在信息技术的推动下,在线教育迅速兴起。它突破传统教学的时间、空间等限制,通过互联网将教师讲课的视频、音频等传递给学员。很多高校和科技公司合作,建成中国大学MOOC和学堂在线等慕课平台,推出许多名师主讲的课程的教学视频,其中,近千们课程被认定为国家精品课程。在新冠疫情期间,这些视频为保障学生的学习活动发挥了重要作用。同时,高校教师还纷纷采用直播教学方式,建立师生有效互动的教学环境。国内的很多软件都能够支持直播教学,例如企业微信、腾讯会议和阿里钉钉等。以企业微信为例,直播授课的主界面是正在讲解的PPT,两个小窗口分别显示教师的授课环境和听讲的学生名单。并且借助数位板设备和希沃白板软件,还能够板书教学方案和关键知识点等。
在线下教学中,如何利用线上教学资源,成为很多学者关心的话题。孙瑞娜(2020)提出以课堂为主,线上为辅开展数据挖掘教学,并且增加实验课学时和过程考核比例[1]。柯佳和陈潇君(2021)在线下教学中采用分组讨论或分组实验的方式,在线上平台发布教学资料、汇总学生作业等[2]。郗朋等人(2021)提出课前网络学习、课堂教学和课后拓展提升的混合式教学模式[3]。传统课堂加信息技术将升级为智慧课堂。卞金金和徐福荫(2016)设计智慧课堂的学习模式,指出教师和学生在课前、课中和课后的工作要点,并且以小学英语的一节阅读课为例,阐述智慧课堂的教学过程[4]。毛群英(2021)从教学目标、教学过程和教学评价三方面设计智慧课堂的教学模式[5]。综上所述,虽然部分学者提出利用线上资源,但是没有深入研究慕课、B站等网络教学视频的作用。
二、数据挖掘课程的教学方案
我校统计学专业是北京市一流专业,它的一个主要特色方向是商业调查与数据挖掘。围绕这个方向,统计学专业开设了市场调查方法、数据挖掘、抽样技术、R程序语言等课程。其中,数据挖掘设置在第6学期,面向大三的学生。这个阶段,学生已经掌握回归分析、因子分析等统计模型和Python、R等计算机语言的基本知识。
以数据挖掘为主题的书籍和网络资源都比较丰富。讲解模型原理的书籍包括Tan等著的《数据挖掘导论》、Han等著的《数据挖掘概念与技术》和Wu等著的《数据挖掘十大算法》等;线上资源包括学堂在线网站上清华大学袁博主讲的《数据挖据:理论与算法》、 bilibili网站上斯坦福大学Leskovec等主讲的《数据挖掘》等视频。讲解算法编程的书籍包括张良均等著的《R语言与数据挖掘》和《Python与数据挖掘》等,线上资源包括bilibili网站上某些科技公司制作的讲解怎样利用R或者Python语言编写数据挖据代码的视频等。
在教学实践中,本课程参考这些资料和学生需求,不但在理论上系统讲解多个数据挖掘模型,而且安排上机实验,讲解它们的R或者Python代码。在理论教学部分,需要学生学习模型的原理、步骤和算例等;在实践教学部分,需要他们熟悉程序的界面和代码的结构等。学好理论能够加深对实验结果的理性认识,做好实验则能够增加对理论的感性体验。因此,两者能够相互促进,共同提升课程的教学效果。理论教学需要学生思考的时间长,实践教学学生体会的时间短。因此,本课程按照2:1的比例分配48个课时,得到理论教学32个课时,实验教学16个课时。
在理论教学部分,本课程主要讲解分类、聚类、推荐和关联等四种数据挖掘模型。在分类模型部分,本课程依次讲解分类预测框架、决策树模型、最近邻模型、贝叶斯模型、人工神经网络模型、支持向量机模型,以及随机森林、Adaboost等集成分类模型。这些模型难度较大,通常2个课时讲解1个模型;有些甚至需要4个课时,例如人工神经网络模型。在聚类模型部分,本课程依次讲解K均值聚类、凝聚层次聚类、DBSCAN模型、EM算法等。这些模型难度较小,通常1个课时讲解1个模型。在推荐模型部分,本课程主要讲解PageRank算法等。在关联模型部分,本课程主要讲解Apriori算法等。
在实践教学部分,本课程要求学生掌握数据挖掘模型用到的模块或者函数,熟悉模型的代码的结构,解决调试代码时遇到的问题。学生在接触数据挖掘课程前,普遍接触过R和Python。因此,本课程在实现数据挖掘模型时,选择R和Rstudio等R系列软件,以及Anaconda和Pycharm等Python系列软件。在教学过程中,本课程基本上每个课时练习1个模型。部分代码较长的模型,如人工神经网络模型等,本课程将花费2个课时带领学生开展数据实验。
在教学活动中,本课程会充分利用网络资源,在理论教学时,教学设计、课前课后和课堂教学等环节都会使用网络资源;在实验教学时,软件环境、实验数据和模型代码等方面也会采用网络资源。并且本课程还会根据教学评价结果调整混合式教学方法等。后文将详细讨论这些内容。
本课程还注重衔接学科竞赛和硕士教育等。大三的学生普遍在参加全国大学生市场调查与分析大赛、全国大学生统计建模大赛等赛事。本课程讲述的模型会完善学生的知识体系。例如分类模型的因变量为二元变量或离散变量,回归模型的因变量是连续变量,两者互为补充,能够丰富学生的方法库,帮助他们解决难度较大的竞赛问题。此外,很多大三的学生都准备本科毕业后,继续攻读硕士学位,提升专业技术能力。
三、理论教学与网络资源
在设计教学活动时,应当从网络资源中汲取营养。数据挖掘的书籍较多,即使选择其中一本作为教材,在讲解某个模型时,也可以借鉴其它图书或者知乎、CSDN等网站介绍它的方法。在备课时,应该根据教材编写PPT,想清楚教学的重点和难点等。有些主讲教师在网络上发布了他们制作的PPT。其他老师就能以它们为素材设计自己的教学活动。一些网络视频完整的记录了某些教师的教学过程。其他教师在备课时,就能借鉴他们讲解知识点的教学方法、教学进度和教学案例等。
网络资源在课堂教学前后都发挥着重要作用。我校开发的多模式教学平台能够发布课件资料、课程作业、学习讨论等。课前,学生可以预习即将讲授的课件,观看老师推荐的网络视频。课后,学生运用学到的知识解答习题,碰到不会的题目通过微信联系教师,能够得到及时的指导。但是,学生课下学习的积极性总不如课上,课前预习的同学大约只是选修学生的一半左右。有些同学没有选修这门课程,却需要应用数据挖据模型撰写毕业论文或者完成“大创项目”和“实陪项目”,就只能完全依赖网络视频自学相关内容。
当代课堂教学需要运用网络资源。高等教育法规要求学生按时到教室听课。学生期望在课堂上学会主要的知识点,同时教师也在精心准备课堂教学的重点内容和讲解方法等。因此,课堂教学一直是教学活动的核心阵地和关键环节。传统教学强调教师独立的、清楚的讲述知识点的能力。当代教学提出一些更高的要求。首先,落实立德树人任务,“守好一段渠、种好责任田”,挖掘课程的思政元素;其次,组织PPT、网页、视频等各种素材,清晰的描述数据挖掘模型的工作原理;然后,设计教学案例和课堂测验等,引导学生积极投入课堂学习,在思考、探索、练习中掌握数据挖掘模型的建模方法等。
以人工神经网络模型的课堂教学为例,本课程选取海康威视公司作为思政案例。它曾经获得ImageNet大规模视觉识别竞赛冠军,却被美国商务部列入实体清单,供应链安全受到严重威胁。视觉识别经常采用卷积神经网络模型。而它的基础是人工神经网络模型。本课程借此案例激励学生好好学习,勇于创新,将来突破美国对我国的科技封锁。在讲解模型的原理时,本课程从最简单的感知器模型开始,说明激活函数的作用和参数的学习方法等;然后介绍含有一个隐藏层的神经网络模型,说明怎样确定输入层、隐藏层和输出层的节点数目等;最后结合李宏毅的机器学习网络教学视频,说明在多层全连接神经网络里,怎样运用后向传播算法求解模型的参数等。为了督促学生掌握这个模型,本课程设置一系列问题,让学生运用前向传播算法计算各个节点的输出结果等。
四、实验教学与网络资源
实验教学需要熟悉计算机的硬件性能、配置软件环境、寻找实验数据和编写模型的代码等。这些都和网络资源存在千丝万缕的联系。
软件环境与网络资源。本课程选择开源软件R和Python实现数据挖掘模型。R软件的安装程序来自https://www.r-project.org/。在调试数据挖掘模型的代码时,可以运用命令install.packages从网络上下载和安装需要的包。编辑Python程序时,经常采用Anaconda或Pycharm软件。这两款软件都能够从网络上找到安装程序。Anaconda的Spyder环境模仿Matlab的界面;Jupyter Notebook环境在浏览器界面编辑,每次只运行一个cell里的程序。它们都预装了numpy、pandas和sklearn等数据挖掘模型的常用包。
实验数据与网络资源。本课程的实验数据主要来自三个方面。第一,R或者Python程序自带的数据库,例如鸢尾花数据、乳腺癌数据等。第二,政府、公司和大学维护的数据库,例如统计局的经济数据、亚马逊公司的公开数据集和加州大学欧文分校的机器学习数据库等。第三,一些科技公司举办的数据挖掘竞赛,例如阿里云平台,百度飞桨AIStudio和华为云平台等的竞赛数据集。
模型代码与网络资源。本课程讲解比较经典的数据挖掘模型。前文提到的《R语言与数据挖掘》和《Python与数据挖掘》等提供这些模型的R或Python程序代码。在百度网站搜索也能找到一些模型的R或者Python程序代码。因为解决问题的思路不同,所以这些代码的写法存在较大差异。但是它们的结构是类似的。例如R代码通常包括三步:首先导入数据;其次导入包,运用函数完成数据挖掘任务;最后输出模型的结果。Python代码则将导入包或函数放在第一步,然后才导入数据,运用函数或者编写代码完成数据挖掘任务,最后输出模型的结果。
教学经验。采用网络资源提供的数据和代码后,实验教学的重点是数据挖掘模型的函数名称。有些函数名称较短,学生很容易掌握,例如决策树模型的R程序函数tree,支持向量机模型的Python程序函数svm。有些函数名称较长,需要学生结合英文含义记忆,例如凝聚层次聚类模型的Python函数Agglomerative -Clustering。
实验教学的难点是怎样导入数据和安装需要的包。代码案例的数据位置一般不同于学生存放的位置。这就需要他们能够运用命令读入存放在Excel等的数据,例如R程序命令read.csv和Python程序命令pandas.read_excel等。安装包时,运用R命令install.packages或者Python命令pip install等。学生这里遇到的问题有下载包时因为时间较长而自动终止,安装包时因为和硬件冲突而无法进行等。为了解决这些问题,本课程提前在学校的多模式教学平台上传比较大的包,并且鼓励学生携带个人电脑,教给他们从电脑安装包的方法。
五、教学评价
教学评价的对象是教师的教学过程和学生的学习效果。评价前者不但会邀请专家进课堂,点评教学活动,而且会调查学生对教师的教学组织能力的评价等。评价后者既包括教师发起的课堂测验、课后作业和期末考试等量化评价,也包括学生在学习时的感性体验和能力提升等。
本课程重视过程评价,将平时成绩比例上调至50%,并且经常运用网络技术搜集评价结果。学生平时需要按时上课听讲,完成较多的学习任务,例如每次实验课都要提交一份实验报告,说明数据挖掘模型的代码调试过程和结果。教师会设计一些小测验,以选择题形式发布在问卷星上。学生投票后,软件能够做些简单的统计分析,帮助老师了解学生对知识的掌握程度。教师还在多模式教学平台发布一些作业,学生做好后也在平台提交。
本课程在教学时注意倾听学生的自我评价。他们在理论课熟悉了时尚的数据挖掘模型,逐渐掌握它们的原理,并且能够做些简单的运算;在实验课中看到了模型的效果,即使程序报错,他们也能够冷静的分析错误的源头,通过向老师请教或者上网搜索,找到问题的解决方案。这会极大地增强学生的自信心,让他们收获巨大的成就感,同时也让冰冷的模型在他们心中变得鲜活起来。
[参考文献]
[1] 孙瑞娜. 基于网络教学平台的“混合式”教学模式研究[J]. 教育现代化, 2020, (6): 67-69.
[2] 柯佳, 陈潇君. 基于信息管理与信息系统的“数据挖掘技术”课程混合式教学模式研究. 江苏科技信息, 2021, (8): 72-75.
[3] 郗朋等, 基于在线课程开展工程制图及CAD课程的混合式教学[J]. 大学教学, 2021, 84-87.
[4] 卞金金, 徐福荫. 基于智慧课堂的学习模式设计与效果研究[J]. 中国电化教育, 2016, (2): 64-68。
[5] 毛群英. 智慧课堂教学模式设计研究[J]. 教学与管理, 2021, 96-99.
The Teaching Exploration of Using Network Resources in Data Mining Course
Bo Gao
(College of Science, North China University of Technology, Beijing, 100144)
Abstract: With the promotion of information technology, many universities build network teaching platforms, and the teaching videos of many courses appear on the websites, such as Chinese universities MOOC. The paper firstly allocates the teaching hours of theory and experiment according to the characteristics of data mining course. It secondly analyzes how network resources affect theory teaching, and introduces how to use network resources in classroom teaching by taking artificial neural network model as an example. Then it points out network resources could be used in many components of experiment teaching, for example software environment, case data and model code. Finally, it evaluates the teaching effect, changes the organization of blending teaching, and keeps improving the teaching effect of data mining course.
Key words: data mining; theory teaching; experiment teaching; network resource.