“东方国信杯”高校大数据实践大赛比赛试题

名称:

  基于大数据的运营商流失用户预测

赛题背景介绍:

  随着业务的快速发展、移动业务市场的竞争愈演愈烈。如何最大程度地挽留在网用户、吸取新客户,是电信企业最关注的问题之一。竞争对手的促销、公司资费软着陆措施的出台和政策法规的不断变化,影响了客户消费心理和消费行为,导致客户的流失特征不断变化。对于电信运营商而言,流失会给电信企业带来市场占有率下降、营销成本增加、利润下降等一系列问题。在发展用户每月增加的同时,如何挽留和争取更多的用户,是一项非常重要的工作。

数据集描述:

主要数据:运营商用户的基础信息和使用行为信息

数据集说明:建模用户数据集user_info_m,验证用户数据集user_info_p

数据格式:原始文件为压缩包,解压后为CSV格式

字段说明:

列名称

列说明

MONTH_ID

月份

USER_ID

用户ID

INNET_MONTH

在网时长

IS_AGREE

是否合约有效用户

AGREE_EXP_DATE

合约计划到期时间

CREDIT_LEVEL

信用等级

VIP_LVL

VIP等级

ACCT_FEE

本月费用(元)

CALL_DURA

通话时长(秒)

NO_ROAM_LOCAL_CALL_DURA

本地通话时长(秒)

NO_ROAM_GN_LONG_CALL_DURA

国内长途通话时长(秒)

GN_ROAM_CALL_DURA

国内漫游通话时长(秒)

CDR_NUM

通话次数(次)

NO_ROAM_CDR_NUM

非漫游通话次数(次)

NO_ROAM_LOCAL_CDR_NUM

本地通话次数(次)

NO_ROAM_GN_LONG_CDR_NUM

国内长途通话次数(次)

GN_ROAM_CDR_NUM

国内漫游通话次数(次)

P2P_SMS_CNT_UP

短信发送数(条)

TOTAL_FLUX

上网流量(MB)

LOCAL_FLUX

本地非漫游上网流量(MB)

GN_ROAM_FLUX

国内漫游上网流量(MB)

CALL_DAYS

有通话天数

CALLING_DAYS

有主叫天数

CALLED_DAYS

有被叫天数

CALL_RING

语音呼叫圈

CALLING_RING

主叫呼叫圈

CALLED_RING

被叫呼叫圈

CUST_SEX

性别

CERT_AGE

年龄

CONSTELLATION_DESC

星座

MANU_NAME

手机品牌名称

MODEL_NAME

手机型号名称

OS_DESC

操作系统描述

TERM_TYPE

终端硬件类型(0=无法区分,4=4g、3=3g、2=2g)

IS_LOST

用户在3月是否流失标记(1=是,0=否),1月和2月值为空

任务描述:

  针对建模数据集中流失用户(IS_LOST字段进行标记)进行特征分析,建立流失用户的预测模型,并在验证数据集上进行验证模型效果,预测验证数据集中的流失用户。

提交结果及评分方式:

1、提交方式:以WORD形式提交,

2、提交的WORD应详细包含建模过程、过程结果和最终结果,否则影响最终考核得分;

3、相关明细数据以EXCEL形式提交产出结果表。结果表里内容为预测验证数据集中将要流失的用户ID。文件名为user_info_lost_p。

4、详细评分标准如下表:

赛氪APP全新升级

下载赛氪APP

参加有趣活动,获得赛程提醒

分享大学生活,获得前辈指点

意见反馈

产品建议、功能吐槽、使用问题…

欢迎提出关于赛氪网的问题和建议 :)

微信公众号
关注赛氪订阅号
微信服务号
关注赛氪服务号
温馨提示

非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。

温馨提示
温馨提示
帮助与反馈

热门问题