PG电子普林斯稽首个「开源」AI步骤员登场爆改GPT-493秒修bug

 

  普林斯顿团队祭出了全新的智能体-策动机接口(ACI)——SWE-agent。

  纯粹来说,SWE-agent也许让大道话模子(譬喻GPT-4)变身为软件工程AI智能体,并正在真正的GitHub栈房里己方修bug。

  要思正在SWEBench上得到12.3%的分数,只消更好地手动计划GPT-4的下令行东西就行,不必要什么另外奇妙之处。

  用户讲演了这个题目:矩阵操作的Insert时,出现了少许不契合预期的输出。

  最先,它重现了讲演的bug,把bug的代码复制到了一个名为「reproduce_bug」的文献中。

  确认题目之后,它正在存储库中征采了「col_insert」函数,看看是正在哪里被界说的。 很速 SWE- ag ent就 发 现了是 正在 com mon. py里 。

  翻开文献后,它找到了一个名为「_eval_col_insert」的函数,以为这能够是闭节所正在。

  提交办理计划后,SWE-bench的评估结果显示,该计划仍旧通过发轫测试,以是能够将其记号为已办理。

  正在项目主页中,又有一个能够自决操作的演示,感风趣的能够自决测试体验修正bug。

  遵照磋议者John Yang,也是SWE-bench一作先容,SWE-agent的做事道理是与特意的终端交互,它能够:

  以是,John等磋议小组以为,大模子必要周到计划的智能体——策动机接口,好似于人类喜欢的UI计划。

  而别的一个范例案例是,正在查看文献时,让SWE-agent每次只看100行,要比每次看200-300行PG电子,以至统统文献功效要好得众。

  有开辟者显示,我觉得到了一个新的磋议范畴:智能体策动机交互(ACI)。它与人机交互(HCI)好似,但更重视于LLM和LVM。

  有人发出慨叹,普林斯顿团队打制的「开源Devin」,仅用GPT-4正在基准测试中赢得了12.29%的无误率,线出世之后会奈何?

  为此,磋议职员特意为大道话模子计划了简便的指令和反应体式——智能体-策动机接口(ACI),从而让模子也许更轻松地浏览代码栈房、查看、编辑和运转代码文献。

  正如精良的提示计划关于敷裕外现道话模子的潜力至闭紧张相同,优良的ACI计划关于行使AI智能体时也许赢得更佳功效也是闭节。

  正在计划代劳策动机接口经过中,磋议职员察觉了几个极其有效的成效,并将它们集成到了SWE-agent中:

  1. 加众了一个正在发出编辑下令时运转的代码查验器,倘若代码语法不无误,则禁止编辑下令践诺。

  2. 供应了一个特制的文献查看器,并为文献编辑器增添了滚动查看和文献内征采的成效。结果显示,这个查看器正在每次只浮现100行代码时功效最佳。

  3. 供应了一个特制的全目次字符串征采下令。磋议察觉,简便地列出每个含有般配项的文献尽头紧张,由于给模子供应每个般配项的更众的上下文音讯会使其感觉疑惑。

  4. 当某个下令践诺后没有任何输出时,会返回一条讯息:「你的下令已获胜践诺,但没有出现任何输出。」

  总结来说,通过智能体策动机接口(ACI),SWE-agent让LLM有了与专属的Docker容器互动,达成浏览、征采、编辑和践诺代码的成效,从而极大地拓宽了LLM正在软件开辟范畴的行使限度。

  第一阶段被称为「推理」,此时SWE-agent会管束一个GitHub上讲演的题目,并天生一个旨正在修复该题目的拉取央浼(Pull Request)。

  第二阶段,则是对天生的拉取央浼实行「评估」,以确认它是否真正办理了讲演的题目。(目前只实用于SWE-bench基准测试中的题目)

  只需行使下面这个剧本,你就能够正在任何GitHub题目上运转SWE-agent了!

  John Yang目前是普林斯顿大学的磋议助理,导师是Karthik Narasimhan。他曾正在加州大学伯克利分校赢得了电子工程和策动机学士学位。

  他磋议的是自然道话管束的人工智能和ML,磋议风趣囊括代码道话模子,以及面向职司的对话。

  Carlos曾正在犹他大学得到了策动机科学学士学位,导师是Ellen Riloff。

  不管是Devin、Devika,照样OpenDevin等等,都正在软件工程范畴有着精巧的展现。

  正在这里,AI不再仅仅是软件工程师的辅助东西,而是初步承受起了工程师的脚色,实行过去以为唯有人类才力实行的职司。

  那么,这是否意味着AI仍旧不但仅是一个东西,而是成为了工程经过中的团结伙伴?

  更进一步的,AI是否真的也许独立编写安然的代码?改日,编程是否将全体交由AI来掌控?

  能够说,这些题目不但闭乎身手的提高,也触及到咱们关于AI脚色和技能认知的深主意思虑。

  本年3月12日,一家叫才建设不到2个月的10人始创公司,就给了全寰宇亿点点惊动。

  他们公布的寰宇上第一位AI次序员——Devin,不但担任了全栈本事,能自决进修不熟练的身手,端到端地修筑和安置行使次序,己方改bug,以至还能陶冶和微调己方的AI模子!

  能够说,Devin并不但仅是一款AI东西,而是一个也许独立实行软件工程职司的AI体例。

  与以往AI东西差异的是,Devin也许筹划并履行丰富的软件项目,这意味着AI现正在也许饰演起工程师的脚色。

  除了编写代码外,Devin还也许管束次序中的过失,安置行使,以致于陶冶新的AI模子。

  通过饱吹社区成员进献代码和相持怒放圭臬的法则,OpenDevin极力于无间订正和巩固AI正在软件开辟中的行使,使软件工程师也许更高效地实行编程职司。

  受到Devin正在AI软件工程范畴开创性结果的驱策,另一个开源项目——Devika也出世了。

  Devika是一个宽裕主动性的AI软件工程师,它也许解析人类的高级指令,把这些指令理解成完全步调,收罗所需的音讯,并据此编写代码来实行既定宗旨。

  完全来说,Devika依托于Claude 3的健旺技能,联合了先辈的AI筹划与编程身手,打制了一个怒放给社区并由社区联合促使发扬的平台。

  Devika不但仅是一个身手项目,它更是一个向环球开源进献者发出的邀请,饱吹他们参加到AI更始的行程中来,联合追求和界说AI身手的改日。

  跟着像Devin、Devika和OpenDevin如许的AI软件工程师的饱起,咱们仍旧睹证了AI正在编程方面的浩瀚潜力。

  这些AI不但也许筹划和践诺丰富的工程职司,还能寻得并修复缺欠,以至认真统统项宗旨开辟流程。

  编写安然的代码不但恳求代码无误,更紧张的是要解析代码的广大靠山、能够的安然缺欠以及最新的安然磋议和实习。

  固然咱们尚未到达AI也许全体代替软件工程师的阶段,但AI无疑正正在转变身手范畴的面庞和改日的走向。

  正在AI更始日眉月异的即日,Devin、Devika和OpenDevin激发了咱们对人工智能与人类之间闭联的深思:咱们是否该当将AI视为与人类宛如的存正在?

  正如Ethan Mollick正在「On the Necessity of Sin」中提出的,咱们面对的是与AI团结共创软件工程改日的机缘,照样AI最终将代替人类脚色的寻事?

  谜底能够正在于咱们对改日的设思,以及咱们是否首肯采纳一种开源的立场,夸大透后度、怒放性和团结精神。

搜索