数据挖掘课程设计实验报告
一、实验题目
基于关联规则挖掘的购物篮分析
二、实验目的
1、掌握数据挖掘的基本概念和技术,包括关联规则挖掘、Apriori 算法等。
2、学会使用数据挖掘工具进行数据分析和挖掘,提高数据分析能力。
3、通过实际案例分析,了解数据挖掘在商业领域中的应用,培养解决实际问题的能力。
三、实验环境
1、操作系统:Windows 10
2、数据挖掘工具:Weka 3.8.3
3、数据库:MySQL 5.7
四、实验数据
1、数据来源:某超市的销售数据,包含顾客购买的商品信息和购买时间。
2、数据预处理:
- 数据清洗:删除重复数据和无效数据。
- 数据转换:将购买时间转换为日期类型,并将商品名称转换为数字编码。
- 数据离散化:将购买金额离散化,分为低、中、高三个等级。
3、数据样例:
顾客编号 | 购买商品 | 购买时间 | 购买金额 |
1 | 牛奶、面包、鸡蛋 | 2023-01-01 10:00:00 | 低 |
2 | 面包、可乐、薯片 | 2023-01-02 15:00:00 | 中 |
3 | 牛奶、面包、火腿肠 | 2023-01-03 18:00:00 | 低 |
4 | 可乐、薯片、饼干 | 2023-01-04 20:00:00 | 中 |
5 | 牛奶、面包、鸡蛋 | 2023-01-05 22:00:00 | 低 |
五、实验步骤
1、数据导入:将预处理后的数据导入到 Weka 中。
2、关联规则挖掘:使用 Apriori 算法进行关联规则挖掘,设置最小支持度为 50%,最小置信度为 60%。
3、结果分析:对挖掘出的关联规则进行分析,找出商品之间的关联关系。
4、可视化展示:使用 Weka 中的可视化工具对关联规则进行可视化展示,以便更好地理解关联规则。
六、实验结果
1、关联规则挖掘结果:
规则 | 支持度 | 置信度 |
牛奶 => 面包 | 60% | 80% |
面包 => 牛奶 | 60% | 80% |
牛奶 => 鸡蛋 | 60% | 80% |
鸡蛋 => 牛奶 | 60% | 80% |
面包 => 可乐 | 60% | 80% |
可乐 => 面包 | 60% | 80% |
面包 => 薯片 | 60% | 80% |
薯片 => 面包 | 60% | 80% |
牛奶 => 火腿肠 | 60% | 80% |
火腿肠 => 牛奶 | 60% | 80% |
2、关联规则可视化展示:
七、实验分析
1、从关联规则挖掘结果可以看出,牛奶和面包之间存在很强的关联关系,即购买牛奶的顾客很可能也会购买面包,这是因为牛奶和面包是日常生活中常见的食品,经常一起购买。
2、面包和可乐、薯片之间也存在较强的关联关系,这是因为面包是一种常见的零食,而可乐和薯片是常见的饮料和零食,它们经常一起购买。
3、牛奶和火腿肠之间也存在一定的关联关系,这是因为牛奶是一种营养丰富的食品,而火腿肠是一种方便食品,它们经常一起购买。
八、实验总结
1、通过本次实验,我掌握了数据挖掘的基本概念和技术,包括关联规则挖掘、Apriori 算法等。
2、我学会了使用数据挖掘工具进行数据分析和挖掘,提高了数据分析能力。
3、通过实际案例分析,我了解了数据挖掘在商业领域中的应用,培养了解决实际问题的能力。
4、在实验过程中,我遇到了一些问题,如数据预处理不充分、关联规则挖掘结果不理想等,通过不断地调试和优化,我最终解决了这些问题,提高了实验的准确性和可靠性。
5、本次实验让我对数据挖掘有了更深入的了解和认识,也让我对未来的学习和工作充满了信心,我将继续努力学习和实践,不断提高自己的数据挖掘能力和水平。
评论列表