名称:
基于大数据的运营商流失用户预测
赛题背景介绍:
随着业务的快速发展、移动业务市场的竞争愈演愈烈。如何最大程度地挽留在网用户、吸取新客户,是电信企业最关注的问题之一。竞争对手的促销、公司资费软着陆措施的出台和政策法规的不断变化,影响了客户消费心理和消费行为,导致客户的流失特征不断变化。对于电信运营商而言,流失会给电信企业带来市场占有率下降、营销成本增加、利润下降等一系列问题。在发展用户每月增加的同时,如何挽留和争取更多的用户,是一项非常重要的工作。
数据集描述:
主要数据:运营商用户的基础信息和使用行为信息
数据集说明:建模用户数据集user_info_m,验证用户数据集user_info_p
数据格式:原始文件为压缩包,解压后为CSV格式
字段说明:
列名称 |
列说明 |
MONTH_ID |
月份 |
USER_ID |
用户ID |
INNET_MONTH |
在网时长 |
IS_AGREE |
是否合约有效用户 |
AGREE_EXP_DATE |
合约计划到期时间 |
CREDIT_LEVEL |
信用等级 |
VIP_LVL |
VIP等级 |
ACCT_FEE |
本月费用(元) |
CALL_DURA |
通话时长(秒) |
NO_ROAM_LOCAL_CALL_DURA |
本地通话时长(秒) |
NO_ROAM_GN_LONG_CALL_DURA |
国内长途通话时长(秒) |
GN_ROAM_CALL_DURA |
国内漫游通话时长(秒) |
CDR_NUM |
通话次数(次) |
NO_ROAM_CDR_NUM |
非漫游通话次数(次) |
NO_ROAM_LOCAL_CDR_NUM |
本地通话次数(次) |
NO_ROAM_GN_LONG_CDR_NUM |
国内长途通话次数(次) |
GN_ROAM_CDR_NUM |
国内漫游通话次数(次) |
P2P_SMS_CNT_UP |
短信发送数(条) |
TOTAL_FLUX |
上网流量(MB) |
LOCAL_FLUX |
本地非漫游上网流量(MB) |
GN_ROAM_FLUX |
国内漫游上网流量(MB) |
CALL_DAYS |
有通话天数 |
CALLING_DAYS |
有主叫天数 |
CALLED_DAYS |
有被叫天数 |
CALL_RING |
语音呼叫圈 |
CALLING_RING |
主叫呼叫圈 |
CALLED_RING |
被叫呼叫圈 |
CUST_SEX |
性别 |
CERT_AGE |
年龄 |
CONSTELLATION_DESC |
星座 |
MANU_NAME |
手机品牌名称 |
MODEL_NAME |
手机型号名称 |
OS_DESC |
操作系统描述 |
TERM_TYPE |
终端硬件类型(0=无法区分,4=4g、3=3g、2=2g) |
IS_LOST |
用户在3月是否流失标记(1=是,0=否),1月和2月值为空 |
任务描述:
针对建模数据集中流失用户(IS_LOST字段进行标记)进行特征分析,建立流失用户的预测模型,并在验证数据集上进行验证模型效果,预测验证数据集中的流失用户。
提交结果及评分方式:
1、提交方式:以WORD形式提交,
2、提交的WORD应详细包含建模过程、过程结果和最终结果,否则影响最终考核得分;
3、相关明细数据以EXCEL形式提交产出结果表。结果表里内容为预测验证数据集中将要流失的用户ID。文件名为user_info_lost_p。
4、详细评分标准如下表:
非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。