近日,由Zhuiyi科技主办的首届中国nl2sql挑战赛预赛结束。经过一个多月的初赛,1457支国内外球队决出前30名。国防科技大学、北京交通大学、郭爽科技大学、清华大学、哈尔滨工业大学等高校和企业的30支获奖队伍。晋级下一轮挑战。

本次比赛也是nl2sql主题大赛首次在中国nlp领域举办,并发布相关数据集,引起了业界和国内外的广泛关注。自6月24日比赛开始以来,共有1457支队伍和1630名选手报名参赛,参赛机构达到170家,其中227支队伍和318名选手提交了成绩。通过广泛的参与,nl2sql已经成为中国nlp技术竞赛领域最大的赛道之一。

挑战中国数据集

值得注意的是,本次比赛中提出的nl2sql中文数据集引入了口语化表达,结合了表格内容、命名实体链接、更复杂的sql语法等挑战,相比英文数据集wikisql难度更大,更贴近实际应用场景。但是在选手们积极多方面的探索下,已经可以在短时间内达到和英语数据集一样的评分水平。

在过去两个月的预赛中,参赛选手的方案连续刷新了本次比赛的纪录。

比赛开始时,排名靠前的选手得分聚集在0.58左右,超过了参赛选手提供的底线。随后,通过各种讨论和交流,玩家加深了对数据集的理解,不断探索更好的方案,从而提高了分数。主力队员的得分很快突破了0.80分。8月12日初赛结束时,比赛名单上的人头评分已经达到了0.89,接近wikisql。

比赛成绩的快速提升充分体现了选手的投入和优秀的解决方案,同时也体现了目前积累的很多技术方案可以在nl2sql这个新任务中发挥作用。每个人都意识到,只要有足够的数据支持,目前人工智能领域的方法论就能有效地为数据库甚至结构化数据提供自然语言交互。

成千上万的团队挑战nl2sql

nl2sql竞赛自推出以来,一直受到学术界和工业界的广泛关注。

据了解,参加本次比赛的1457支队伍中,事业单位和企业各占一半。其中,学生和科研人员占48%,企业技术人员占52%。学生团队来自许多著名大学,如北京大学、清华大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科技大学、哈尔滨工业大学、Xi交通大学等。

虽然本次比赛的数据内容为中文,但吸引了美国、英国、新加坡、日本、澳大利亚、加拿大等海外顶尖院校的参与,包括卡内基梅隆大学、墨尔本大学、新加坡国立大学、南安普顿大学、新南威尔士大学、布里斯托大学、昆士兰大学等。

nl2sql作为一个新的nlp研究课题,在专业难度上也对竞争对手提出了更高的要求。据了解,参赛选手中,硕士及以上学历占57%,其中博士学历占6%;职业分布上,以计算机专业背景的玩家为主。

应用潜力吸引知名企业参与竞争

值得注意的是,nl2sql挑战赛也吸引了不少企业技术人员参加。

来自中国移动、平安集团、搜狗、戴利科技、中兴、网通科技、郭爽科技、捷通华盛等多家企业的技术人员也成为了参赛团队的重要力量。

参与这一挑战的规模远远超出预期,这显示了nl2sql在学术和工业应用中的潜力。数据库的交互式创新正受到越来越多的关注。准一科技联合创始人兼首席技术官刘云峰博士表示,准一科技将与更多高校和企业界同仁携手,共同推动中国自然语言处理研究和应用的突破。

据了解,中国nl2sql挑战赛复赛将于8月19日至9月9日举行。半决赛阶段采用线上跑步进行评价,测试集无法下载,内容对选手不可见。同时测试集保证了数据分布与初试集一致,同时增加了更多初试中没有出现的表格数据,到时候会对玩家的方案提出更高的挑战。半决赛的获胜者将参加10月份的决赛。

标题:[科技界] 千支队伍挑战中文NL2SQL 院校与企业参赛者各半

地址:http://www.heliu2.cn/xw/7485.html