庆祝「国庆 75 周年」点亮纪念头像
打开微信扫码参加活动
为了促进机器学习的学术研究和应用,IEEE中国联合今日头条举办了一项面向全球的机器学习竞赛。竞赛的任务是为头条问答的问题在今日头条专家用户中寻找潜在的答案贡献者。今日头条目前已经积累了超过5.3亿用户,其中包括20万头条号作者,其大规模机器学习系统每天为这些用户推荐个性化的新闻,图集和视频内容。
头条问答是一个新兴的移动社交问答平台,基于头条5亿+用户及精准分发技术优势,在移动端以问答为形式进行的碎片化创作及互动。头条问答将信息和人精准匹配,为问题找到合适的回答者;为回答找到合适的阅读者。从而实现“让所有人问所有人,所有人答所有人”。
目前,头条问答每天已有数万用户参与答题,带来的优质回答每天有数千万的阅读。因此一个重要问题就是如何为每个热门问题找到愿意回答的专家用户并将问题推送给他们。如果问题推送策略准确度不高,为了保证问题有足够的高质量回答数,只能尽量扩大推送覆盖面,可能给部分不适合回答问题的专家用户带来打扰。为了更好的解决这个问题,今日头条联合IEEE中国分会举办了本次比赛,希望能激发更多优秀的机器学习&数据挖掘界人才对该问题的兴趣。
参赛队伍利用给定的头条问答数据(包括专家标签、问题数据以及问题分发数据,详见数据描述部分),进行针对问题的专家挖掘。
给定若干问题,参赛者需要预测哪些专家更有可能回答这些问题。具体的,针对每个问题和一位候选专家,参赛者需要根据计算该专家回答问题的概率。实际运营中,系统会优先向回答概率高的候选专家发送这个问题的回答邀请,直到收到的回答数量达到指定阈值。评估方面,给定一个问题,我们会按照预测概率把候选专家排序,并分别评估排序结果的NDCG@5,NDCG@10最后评分公式为 NDCG@5 * 0.5 + NDCG@10 * 0.5
如果对数据或任务有任何疑问,请到FAQ页面查看常见问题列表(每天更新)。
或者邮件至邮箱 bytecup2016@bytedance.com 等待回复。
1. 所有参赛选手都必须在管理系统中注册;
2. 参赛选手在管理系统中组队,每支队伍最多不超过5名队员,报名截止日期之后不允许更改队员名单,只允许进行队伍合并操作;
3. 每支队伍需指定一名队长,队伍名称不超过15个字符;
4. 每名选手只能参加一支队伍,一旦发现某选手以注册多个账号的方式参加多支队伍,将取消相关队伍的参赛资格;
5. 参赛队伍在测试数据集发布之前允许进行队伍合并,但不能拆分,且合并后的队伍不得超过总人数上限(5人);
6. 允许使用开源代码或工具,但不允许使用任何未公开发布或需要授权的代码或工具;
7. 不允许使用主办方提供的数据集之外的任何外部数据;
8. 参赛队伍可在参赛期间随时上传验证集的预测结果,一天不能超过3次,管理系统会实时更新各队伍的最新排名情况;
9. 每周一中午十二点根据当前最好成绩评选一次周冠军,周冠军将获得大赛组维护颁发的获奖证书;
10. 验证集发布后,只有1天的时间计算预测结果,各参赛队伍要确保算法能在一天之内计算出结果。
重要提示:如果选手没有在收件箱收到相应的通知邮件,请在垃圾邮箱里查找。
Q1:为什么比赛邀请队友不成功?
1、队友无法收到验证邮件时,可以去垃圾邮件里找;
2、被邀请人必须已注册,且加入该比赛(点击"accept rules and join the competition"按钮),否则邀请时会无法邀请,并提示"user xxx hasn't participate the competition";
3、邀请链接不包含末尾的“manually”以及多余空格,复制链接时请注意不要复制该字符串;
4、在点击邀请链接前,被邀请人必须登录网站,否则就会跳转至该网站的登录界面;
5、必须要被邀请人用自己账号登陆网站之后自己点邀请链接,否则其他人点了这个链接就会报错;
6、如果该链接已被点击,无论是验证成功或者组队条件不符合,以后点击也会报错。
Q2:为什么数据提交后,提示格式错误?
1、验证集中一共有30719条待预测记录,最后提交文件时不要忘了加上header line;
更多精彩问答,请查看 http://biendata.com/competition/bytecup2016/FAQ/
1、中间验证结果:每支队伍在参赛期间可随时提交验证集的预测结果,将验证结果在一个文本文件中进行提交,命名为temp.csv,格式如下:
qid,uid,label
111,222,0.5
......
其中,qid是问题id,uid是专家id,label是该专家回答该问题的概率值,float类型,取值范围为[0,1]。
2、最终评测结果:每支队伍需在提交最终结果日期之内,提交测试集的预测结果,文件命名为final.csv,格式与temp.csv完全一致。
注意:文件每行末尾不要有多余的空格,包括header line和每一行各列之间;文件末尾加一个空行;文件要用无BOM的utf8编码。
评估方面,给定一个测试集中的问题,我们先根据预测概率对候选专家进行排序,然后分别评估排序结果的NDCG@5,NDCG@10,最后评分公式为 NDCG@5 * 0.5 + NDCG@10 * 0.5。测试总分数等于所有测试问题评估分数的累加。
8月15日:比赛正式开始,开放比赛队伍注册,同步发布训练集和验证集。
11月11日(23:59p.m UTC):发布测试数据,要求提交测试集预测结果。
11月20日(23:59p.m UTC):比赛截止,计算排名。
11月21-22日:公布比赛排名,开始邀请排名前十的队伍及每周冠军参加颁奖活动,要求制作poster。三周内提交一篇不超过4页的参赛方法说明(ACM双列标准模板,中英文皆可),前三名必须提交,否则没有奖金,排名向后顺延。
12月初(具体时间待定):颁奖活动开始,前三名需要做15分钟的口头报告,介绍自己的方法。
注意:以上日期节点均为UTC
一等奖 1名:5000美金
二等奖 1名:每名3000美金
三等奖 1名:每名2000美金
前10名将被邀请在参加本次比赛的颁奖,并可获得由组委会颁发的名次证书。
比赛期间所有的周冠军队伍可以获得由组委会颁发的获奖证书
前40名将会免费获得一年的IEEE会员资格
前100名将会免费获得一年中国计算机学会会员资格
主办方自支付奖金之时起,拥有数据竞赛获奖参赛队伍所提交的作品的使用权;
比赛设置每周排行榜单,每周一中午12点计算本周排名。
每周排行榜需提供代码说明及最优结果生成文档(包括模型和特征的说明以及本周内每次提升所作改进的说明)经组委会评估后即颁发证书。
竞赛指导委员会主席
张 钹 清华大学
指导委员会资深委员
李晓明 北京大学
孙茂松 清华大学
薛向阳 复旦大学
Stuart Russell 加州大学伯克利分校
竞赛程序委员会主席
熊 辉 罗格斯大学
竞赛委员会执行主席
唐 杰 清华大学
竞赛委员会资深委员
曹欢欢 头条实验室
李 磊 头条实验室
刘 燕 南加州大学
童行行 亚利桑那州立大学
朱 军 清华大学
暂时没有相关通知公告~
还木有评论,赶快抢个沙发!
非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。
庆祝「国庆 75 周年」点亮纪念头像
打开微信扫码参加活动