基于改进Apriori算法的大学成绩关联规则

时间:2022-06-11 09:00:02 公文范文 浏览次数:

zoޛ)j馟饨ky大学教学信息系统数据中隐藏着大量有潜在价值的信息。利用数据挖掘技术对大学教务系统的海量数据进行分析,发掘出对教学有利的规律和因素,对大学的教学改革和教学研究有着重要的意义。本文提出一种改进的Apriori关联规则分析算法来提高大学成绩分析的效率和规则的可信性;并通过数据挖掘工具IBM SPSS Modeler建立了大学成绩关联规则分析模型;最后,以某大学信管专业2008-2012级全部学生的课程成绩数据进行实证研究。

【关键词】数据挖掘 大学成绩关联规则Apriori算法

随着高校信息化建设的推进,高校的教学信息系统数据存储量日益增大。用户通常只是在信息系统上进行录入、汇总、查询等一些简单的业务处理,大多没有意识到海量数据背后的价值,也没有充分发掘海量教务数据中蕴含的大量潜在的有用规律为教学决策提供依据。本文运用数据挖掘技术,对大学成绩数据进行挖掘,分析大学成绩之间的关联规则,对教学决策和教学安排提供有效的理论支持。

1 基于改进Apriori算法的大学成绩分析模型

1.1 Apriori算法在大学成绩分析中的局限性

Apriori算法是一种经典的布尔型关联规则算法。该算法通过多次逐层搜索数据库中数据集,利用频繁项集的先验知识对候选集进行剪枝,并对产生频繁项集进行多次迭代,直到数据集中没有频繁集的方法。Apriori算法比較复杂且有一定局限性,主要体现在以下几个方面:

(1)降低支持度阈值通常将会导致更多的项集是频繁的,这给算法的计算复杂度带来很不利影响。因为必须产生更多候选项集并对其计数,同时频繁项集最大长度增加,算法需要扫描次数也将增多。

(2)Apriori算法计算项集的支持度需要反复扫描数据集,所以随着事务数增加,它的运行时间增加。

(3)随着项数的增加,需要更多的空间来存储项的支持度计数。如果频繁集的数目更多,产生候选集更多,增加计算量和I/O开销。

(4)候选剪枝方法增加计算量。

(5)在现实中数据挖掘中,置信度并不一定能体现规则的可信度,即置信度的高低不代表规则的可信赖的高低,因为它忽略了规则后件中项集的支持度。

1.2 改进的Apriori算法

基于Apriori算法的局限性,结合大学成绩分析的要求本文做了两个改进:

1.2.1 新的剪枝方法

采用一种新的方法改进候选产生与剪枝,减少计算量和重复扫描数据库的次数。在apriori_gen函数中候选项集的产生过程中合并一对频繁(k-1)-项集(仅当它们的前k-2个项相同)。在候选项集的剪枝时运用频繁集的先验原理,确保它的子集都是频繁集,否则立即剪枝。

1.2.2 以提升率代替置信度

基于上述置信度的局限性,本文中运用用提升率来代替置信度以确保规则的可信度。提升率是规则的置信度和规则后件中项集的支持度之间的比率,计算公式如下:

当Lift(X→Y)>1时,表示X对Y有诱导作用,即X与Y正相关,提升率越高正相关程度就越大;

当Lift(X→Y)=1时,表示X与Y相互独立,没有相关性;

当Lift(X→Y)<1时,表示X对Y有抑制作用,即X与Y负相关,提升率越高负相关程度就越大。

1.3 基于改进Apriori算法的大学成绩分析模型的构建

采用改进后的Apriori算法,在 Modeler中建立大学成绩关联规则分析模型。模型的建立流程如图1所示。

“数据”节点:基于数据导出的格式,本文选用.xls。

“类型”节点:读取数据的类型,设置数据的输入和输出方向。

“填充”节点:对于数据的缺失值,根据数据的格式,进行数据填充,可以是0或NULL。

“过滤”节点:过滤与分析对象不一致的字段。

“Apriori”节点:是分析算法模型,可以直接设置最小支持度和最小置信度。

2 实证研究

2.1 数据的来源

本文大学生成绩数据来源于某大学教务信息系统。通过SQL连接查询,得到“学期”、“班级名称”、“学号”、“课程名称”、“课程性质”、“课程平台名称”、“考试方式”、“总评成绩”10个字段的2008-2012级信管专业所有学生的15684条记录,导出到Excel。

2.2 数据预处理

2.2.1 数据清洗

首先,运用Excel自动筛选,将“课程性质”为“素质课”的记录全部删除;然后,对全部记录进行排序:主要关键字“学号”,第二关键字“课程名称”,第三关键字“总评成绩”;再后,根据“学期”,“总评成绩”保留首考成绩。

2.2.2 数据离散化

初步清洗过的数据是考试课100制数值型、CET考试710分制数值型、考查课{“优秀”,“良好”,“中等”,“及格”,“不及格”}离散型。运用下述规则将数据进行离散化:

(1)课程性质:“必修课”→1、“选修课”→2;

(2)考试方式:“考试”→1、“考查”→2;

(3)考试课成绩:[90,100]→5、[80,90)→4、[70,80)→3、[60,70)→2、[0,60)→1;

(4)考查课成绩:“优秀”→5、“良好”→4、“中等”→3、“及格”→2、“不及格”→1;

(5)CET成绩:[0,425)→1、[425,500)→2、[500,750]→3.

经过处理后得到离散化的学生成绩信息表,如表1所示。

2.2.3 数据布尔化

在Modeler中建立布尔化操作流,运行操作流,将学生成绩信息布尔化数据导出为.xls文件。

2.3 建立挖掘模型

根据上述流程,根据具体的大学成绩分析要求,在Modeler中建立数据分析流模型,如图2所示。

设置相关参数,运行模型,即得出分析结果。如对专业课程成绩之间的关联分析,设置参数最小支持度为0.38,最小置信度为0.5,提升度为1,规则数为30。运行模型,就会得到各门专业课程间的关联的分析数据,如表3所示。

4 结论分析

本文针对某大学信管专业学生成绩作了6组关联规则度的分析,即考核方式与课程成绩的关联分析、课程性质方式与课程成绩的关联分析、全部课程分析关联、公共基础课程的关联分析、基础专业课程的关联分析、专业课程的关联分析。通过上述方法建立并运行分析模型得到以下分析结论:

(1)考核方式、课程性质对成绩没有显著影响;

(2)课程之间关联规则

①毛泽东思想→马克思主义哲学原理;

②统计学→宏观经济学;

③大学计算机→软件工程→毕业实习;

④大学计算机→软件工程→信息系统开发环境与工具→Web程序开发→管理信息系统→电子商务专业英语→毕业实习→毕业论文;

⑤管理学基础→市场营销学→电子商务;

⑥大学英语均值→CET-4;

⑦大学英语均值→电子商务专业英语;

⑧向对象程序设计→ASP程序设计;

⑨操作系统→操作系统课程设计→软件工程;

⑩面向对象的程序设计→软件工程。

4 结束语

本文改进了Apriori分析模型来提升大学成绩分析的运算效率和过滤高置信度却虚假的规则,并运用数据挖掘工具IBM SPSS Modeler 建立了大学成绩关联规则分析模型。本研究对大学的教学部门深度挖掘大学成绩背后隐含的信息,对于教学安排、教学决策和教学改革具有较强的指导意义。

参考文献

[1]樊同科,孙姜燕.基于数据挖掘的高校学生学习成绩分析应用研究[J].计算机与现代化,2013(03):82-84.

[2]Chin-Ag Wu,Wen-Yang Lin,Chang-Long Gangli-a et al.Toward intelligent data warehouse min-ing:An ontology-integrated approach for culti-dimensional association mining[J].Expert Systems with Application,2011,38(09):11011-11023.

[3]Med hat H A Awadalla1,A.S.G.E.,Aggregate Func-tion Based Enhanced Apriori Algorithm for Mining Association Rules.IJCSI,2012,9(03).

[4]马占欣,王新社,黄维通,等.对最小置信度门限的置疑[J].計算机科学,2007(06):216-218.

[5]刘以安,羊斌.关联规则挖掘中对Apriori算法的一种改进研究[J].计算机应用,2007(02):418-420.

[6]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进[J].计算机应用与软件,2009(01):146-149.

推荐访问:算法 关联 改进 规则 成绩