MIT微软为AI量身打造了一套leetcode编程题 / 头条资讯

2年前 阅读 / 177 来源 / 原创 文 / 越读党订阅

本文系网易新闻 网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。丰色 发自 凹非寺量子位 报道 | 公众号 QbitAI 你见过这种编程题目描述方式吗? 不用自然语言描述,也没有输入输出示例,你所看到的就只...

本文系网易新闻 网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

你见过这种编程题目描述方式吗?


不用自然语言描述,也没有输入输出示例,你所看到的就只有一个Python函数。

这是来自MIT、Allen AI和微软的研究人员提出的一种全新的编程题目描述方法:

每个题目都由一个简短的Python函数f定义,目标是找到一个输入x,使f输出true。

这样的题目形式可以让AI审题更容易,人类程序员的理解也不会受到影响。

AI编程,道路真是越来越平了啊。

接下来就来详细看看这个研究吧。


没有自然语言描述的编程题目

再来解释一下这种描述方法:

题目采用Python函数的形式,参数为答案。

解题的目标是找到使函数输出为真的输入x,即满足f(x)= true的正确答案。

现在请你举一反三:求解一个有1000个不连续“o”的字符串,用这种新形式如何描述呢?


正确答案:


下面是另外两道题目的描述示例。

动态规划—最长单调递增子序列问题:


经典的汉诺塔 (Towers of Hanoi ):


研究人员按此种出题形式囊括了各种编程题,提出来一个开源数据集:叫做P3。

该数据集题型非常全面:涉及不同难度、不同领域和不同算法工具等方面的题目。

有简单的字符串操作问题;

有经典如汉诺塔和国际象棋(例如,骑士游历算法和N皇后问题变体)等难题;

也有两人挑战寻找最佳策略的题型,如井字棋(Tic-Tac-Toe)、石头剪刀布、珠玑妙算Mastermind等;

还包括来自国际数学奥林匹克竞赛(IMO)和国际大学生程序设计竞赛(ICPC)的题目,如各种图论和数论难题。


一共包含208种题型、14万+的题目,并且还在不断更新中。

每个题目都提供了至少一种答案。


这套新颖的编程挑战题库数据集,抓住了编程题目的本质,可用于教AI编程并评估AI的编程能力。

研究人员表示,这套题可以对AI的编程能力进行客观评估。因为不用查看答案,就能直接验证解答的正确性。因此,这种题目不会增加AI学习任何答案偏差的负担。

希望这个数据集可以开发出新的AI编程解决方案

不同AI求解器根据这些题目编程的效果如何呢?

研究人员做了一些深入的实验,开发了基于随机森林、Transformer和不同类型GPT-3 prompts的AI求解器,它们采用不同参数枚举、自顶向下的方法,使用这个P3数据集来评估性能。

首先,测试这些求解器在这个数据集上利用此前解决题目的方法来解决新题目的自举效率(bootstrapping efficacy)。

结果发现,增加尝试次数可以解决新题目。但他们也能通过学习过去的经验,更快地解决新的难题。

下图为这些AI求解器在不同尝试次数下的已解决题目数量:


而在一项小的用户研究中,21名在Python编程方面有不同经验年限的程序员完成了不同难度的30个题目。每个题目最多分配6分钟的时间来解决。

用这个数据集评估AI与人类程序员对编程题难度的感知发现:

人类觉得难的题对AI来说也更难,现阶段情况下,AI求解器能解决的大多数题都是对人类来说比较简单的。


上图表示人类和AI对各种题目的难度打分,按人类分数排序。人类的难度分数通过超出允许的最大解题时间的平均分数来衡量,AI的则是根据解题所需的尝试次数。

另外,AI用这种形式的题目可以解决了60% 的难题,初学者和有经验的程序员平均分别解决了 76% 和 87% 的难题。

总的来说,利用这个新颖的数据集,通过精心设计的AI求解器,可以大大减少AI编程求解所需的尝试次数、并解出更多的题目。

因此,研究人员希望,这个新的编程题库数据集能支持大家研究和开发新的AI编程解决方案,提高AI编程的效率和性能。

此前,UC伯克利曾训练AI刷LeetCode,总共5000道题的测试中,AI能做出15%。

不知道使用这个数据集训练,AI编程的能力又会达到什么水平呢?

论文地址:https://arxiv.org/abs/2106.05784

开源数据集链接:https://github.com/microsoft/PythonProgrammingPuzzles

— 完 —


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关阅读
#杂志目录

《教育·综合视线》杂志2020年10期最新目录订阅

目录天下丨注重在线学习平台建设在线课程的大规模应用不可避免暴露出一些不足。在线平台上有些老师没有足够信心,学生听了课,就靠加大作业量来弥补;殊不知,加大作业量的压力可能不在学生身上,而在他们的家长身上。有关部门...

#头条资讯

美国半导体行业协会总裁称美半导体公司不能缺席中国市场,外交部回应

来源:环球网【环球时报-环球网报道 记者白云怡】在4日举行的外交部例行记者会上,有记者援引媒体报道称,日前,美国半导体行业协会总裁兼首席执行官约翰·纽菲尔在接受采访时表示,中国是美国半导体最大的市场,尽管美国政...

#杂志封面

《江苏科技信息》杂志_江苏科技信息2023年15期杂志封面

《江苏科技信息》杂志_江苏科技信息2023年15期杂志封面

#头条资讯

李彦宏:智能交通将带来2.4%到4.8%的GDP增长

新京报贝壳财经讯(记者 许诺)7月9日,在世界人工智能大会开幕式上,百度董事长兼首席执行官李彦宏表示,国家倡导的“新基建”是以人工智能为核心的基础设施建设,将在交通、能源等领域大大提升效率,推动经济的增长。以车路...

#杂志封面

《时代商家》杂志_时代商家2023年19期杂志封面

《时代商家》杂志_时代商家2023年19期杂志封面

#头条资讯

京东换帅,革自己的命?

深燃(shenrancaijing)原创作者 | 唐亚华编辑 | 黎明京东再一次发生人事大地震,二号位易主。5月11日,京东宣布,公司现任CFO许冉将接替徐雷担任CEO,向刘强东汇报。徐雷加入京东十余年来,先后在京东商城、CMO体系、京东...