【视频】Python基于SVM和RankGauss的低消费指数构建模型
来源:个人图书馆-拓端数据 时间: 2023-06-26 16:46:01
(资料图片仅供参考)
分析师:Wenyi Shen相关视频
该项目解决的主要问题是如何通过数据挖掘技术筛选和比对学生消费信息,从而自动识别校园内需要帮助的同学,为高校扶贫提供数据依据。
模型假设与问题分析模型假设三点假设:
没有同学使用自己的账户为他人垫付,每一笔消费均为本人所为。
在全部数据的60天内,认为消费总次数小于80次的为经常点外卖的人,剔除他们,不认为属于低消费人群。
不存在收费错误的情况。
数据清洗剔除时间异常值数据共计260多万条条,从20年9月1日6时一直持续到20年10月30日19时。但其中有“9月31日”的数据,我们将其删除。
为了减少计算量,我们从200万条数据里随机选取20000条进行训练,最终获得两个聚类簇,以及各个簇的最大最小值。考虑到数据选取的随机性,本文将消费金额80作为异常值阈值,删除所有消费金额大于80的数据,保留下约98%的正常数据。