庆祝「国庆 75 周年」点亮纪念头像
打开微信扫码参加活动
主办方:
百度公司、西安交通大学
报名时间:2015年05月10日 00时00分 ——2015年08月10日 23时59分
参赛选手在大赛官网注册报名openresearch.baidu.com
比赛时间-提供训练数据集:2015年05月10日 00时00分 ——2015年08月05日 23时59分
比赛时间-提供测试数据集:2015年08月06日 00时00分 ——2015年08月20日 23时59分
获取测试数据集请加入QQ群482699741 (加群验证信息“学校+真实姓名”)
作品评选:2015年08月28日 00时00分 ——2015年09月08日 23时59分
在线提交输出结果,成绩显示在排行榜中;
作品评选:2015年09月09日 00时00分 ——2015年09月21日 23时59分
取排行榜前10,验证模型、算法; 获奖选手通知:对获胜选手进行通知,邀请获胜选手参加颁奖典礼
本次竞赛面向全国大学生
奖项类别名称
一等奖:每队奖金20000元
二等奖:每队奖金10000元
三等奖:每队奖金5000元
数据结构
数据文件结构:
---train (训练数据文件夹)
---key_entities_list (核心实体列表文件)
---entity_tupu(实体圈子文件夹)
---entity_tupu.zhaowei (赵薇的圈子文件)
---entity_tupu.wangfei(王菲的圈子文件)
---entity_tupu.liudehua(刘德华的圈子文件)
………
---entity_sentence(实体句子文件夹)
---entity_sentence.zhaowei(赵薇的圈子句子文件)
---entity_sentence.wangfei(王菲的圈子句子文件)
---entity_sentence.liudehua(刘德华的圈子句子文件)
---relation_train (关系训练数据文件夹)
---task1.trainSentence(全量训练集)
---entity_attribute(实体属性文件夹)
--- attribute(实体属性文件)
---test(测试训练数据文件夹)
---test_key_entities_list (核心实体列表文件)
---test_entity_sentence(实体句子文件夹)
---test_entity_sentence.yunan(余男的圈子句子文件)
---test_entity_sentence.guangliang(光亮的圈子句子文件)
……
训练数据
1、实体列表
文件名:key_entities_list
内容 :200个核心实体名称及其id。
格式 :entity + ‘\t’ + id
2、实体圈子。
内容:针对100个核心实体,每个核心实体给出其关系网络数据,保存在一个以实体名为后缀的文件内
文件名:entity_tupu.实体名,例如:entity_tupu.zhaowei (赵薇的关系网络). 全部文件放在entity_typu 文件夹。
格式:关系 + \t + 实体S + \t + 实体O + \t + 实体S的id + \t+ 实体O的id + \t + 所在的层(核心实体与直接关系实体位于第一层,其余依次类推,共3层)
entity_tupy.linyilian:林忆莲的关系网络第一层数据
3、实体句子。
内容 :针对每个核心实体,给出包含该实体或可能关联实体的句子集合,全部句子保存在一个以实体名为后缀的文件内
文件名:entity_sentence.实体名,例如:entity_sentence.zhaowei。 全部文件放在entity_sentence 文件夹。
格式:句子 + \t + 实体1名称 + \t + 实体1ID + \t + 实体2名称 + \t +实体2ID + ……(可能有多个实体)
entity_sentence.赵薇: 赵薇的关系网络第一层数据
4、关系类型训练数据
分为20种关系:"老师","儿子","队友","妻子","哥哥","旧爱","祖父","同学","姐姐","女婿","撞衫","撞脸","前妻","前女友","老乡","传闻不和","经纪人","绯闻女友","闺蜜","偶像"
训练评估集合:每个类型大约1500条语料,task1.trainSentence
关系名 \t 实体S \t 实体O \t 句子 \t 正负例(1正例/0负例) \t flag(train训练集、test测试集、实体S的id \t 实体S的url \t 实体O的id \t 实体O的url
Id、url如果缺失用‘~’代替
5、实体kv:attribute
对于语料中出现的实体,会提供知识库相关属性信息,如:出生日期、性别等
随机id,实体id,属性名1,属性值1……属性名n,属性值n。
中间用tab分隔
测试数据
1、实体列表
文件名:test_key_entyties_list
内容 :50个核心实体名称及其id。
格式 :entity + ‘\t’ + id
2、实体句子。
内容 :针对50个核心实体,对于每个核心实体,给出包含该实体或可能关联实体的句子集合
文件名:test_entity_sentence.实体名,例如:test_entity_sentence.yunan 。 全部文件放在test_entity_sentence文件夹。
格式:句子 + \t + 实体1名称 + \t + 实体1ID + \t + 实体2名称 + \t +实体2ID + ……(可能有多个实体)
3. 实体kv:attribute
对于测试数据中出现的实体,会提供知识库相关属性信息,如:出生日期、性别等
在竞赛网站注册为参赛者后可致信openresearch@baidu.com获取百度网盘的下载地址,训练数据集在LINUX系统下解压缩。
(百度所提供的竞赛数据,只可用于非商业用途的学习研究工作)
参考解压缩命令:cat train.tar.bz.0*|tar -jx
查看官网:http://openresearch.baidu.com/activitycontent.jhtml?channelId=933
&nb…
2015.11.21 12:55
数据文件结构:---train (训练数据文件夹) ---key_entities_list (核心实体列表文件)&nbs…
2015.11.21 12:55
奖项说明及奖品:一等奖,每队奖金20000元;二等奖,每队奖金10000元;三等奖,每队奖金5000元;特别贡献奖…
2015.11.21 12:53
大赛时间:2015年5月10日——2015年8月10日报名时间:2015年5月10日——2015年8月10日24:00,参赛选手在大赛官网注册报名openres…
2015.11.21 12:52
任务设定:目标是需要参赛者构建挖掘系统,可以针对任意给定的实体(表示为E),自动构建该实体的关系网络(首先需要挖掘出与核心实体有直接或间接关系的实体集合(表示为…
2015.11.21 12:51
…
2015.11.21 12:47
还木有评论,赶快抢个沙发!
非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。
庆祝「国庆 75 周年」点亮纪念头像
打开微信扫码参加活动