PG电子普林斯稽首个「开源」AI步骤员登场爆改GPT-493秒修bug

产品展示 PRODUCTS

您当前位置： PG电子·(中国)官方网站 > 产品展示 > 电子

PG电子普林斯稽首个「开源」AI步骤员登场爆改GPT-493秒修bug

返回列表

　　普林斯顿团队祭出了全新的智能体-策动机接口（ACI）——SWE-agent。

　　纯粹来说，SWE-agent也许让大道话模子（譬喻GPT-4）变身为软件工程AI智能体，并正在真正的GitHub栈房里己方修bug。

　　要思正在SWEBench上得到12.3%的分数，只消更好地手动计划GPT-4的下令行东西就行，不必要什么另外奇妙之处。

　　用户讲演了这个题目：矩阵操作的Insert时，出现了少许不契合预期的输出。

　　最先，它重现了讲演的bug，把bug的代码复制到了一个名为「reproduce_bug」的文献中。

　　确认题目之后，它正在存储库中征采了「col_insert」函数，看看是正在哪里被界说的。很速 SWE- ag ent就发现了是正在 com mon. py里。

　　翻开文献后，它找到了一个名为「_eval_col_insert」的函数，以为这能够是闭节所正在。

　　提交办理计划后，SWE-bench的评估结果显示，该计划仍旧通过发轫测试，以是能够将其记号为已办理。

　　正在项目主页中，又有一个能够自决操作的演示，感风趣的能够自决测试体验修正bug。

　　遵照磋议者John Yang，也是SWE-bench一作先容，SWE-agent的做事道理是与特意的终端交互，它能够：

　　以是，John等磋议小组以为，大模子必要周到计划的智能体——策动机接口，好似于人类喜欢的UI计划。

　　而别的一个范例案例是，正在查看文献时，让SWE-agent每次只看100行，要比每次看200-300行PG电子，以至统统文献功效要好得众。

　　有开辟者显示，我觉得到了一个新的磋议范畴：智能体策动机交互（ACI）。它与人机交互（HCI）好似，但更重视于LLM和LVM。

　　有人发出慨叹，普林斯顿团队打制的「开源Devin」，仅用GPT-4正在基准测试中赢得了12.29%的无误率，线出世之后会奈何？

　　为此，磋议职员特意为大道话模子计划了简便的指令和反应体式——智能体-策动机接口（ACI），从而让模子也许更轻松地浏览代码栈房、查看、编辑和运转代码文献。

　　正如精良的提示计划关于敷裕外现道话模子的潜力至闭紧张相同，优良的ACI计划关于行使AI智能体时也许赢得更佳功效也是闭节。

　　正在计划代劳策动机接口经过中，磋议职员察觉了几个极其有效的成效，并将它们集成到了SWE-agent中：

　　1. 加众了一个正在发出编辑下令时运转的代码查验器，倘若代码语法不无误，则禁止编辑下令践诺。

　　2. 供应了一个特制的文献查看器，并为文献编辑器增添了滚动查看和文献内征采的成效。结果显示，这个查看器正在每次只浮现100行代码时功效最佳。

　　3. 供应了一个特制的全目次字符串征采下令。磋议察觉，简便地列出每个含有般配项的文献尽头紧张，由于给模子供应每个般配项的更众的上下文音讯会使其感觉疑惑。

　　4. 当某个下令践诺后没有任何输出时，会返回一条讯息：「你的下令已获胜践诺，但没有出现任何输出。」

　　总结来说，通过智能体策动机接口（ACI），SWE-agent让LLM有了与专属的Docker容器互动，达成浏览、征采、编辑和践诺代码的成效，从而极大地拓宽了LLM正在软件开辟范畴的行使限度。

　　第一阶段被称为「推理」，此时SWE-agent会管束一个GitHub上讲演的题目，并天生一个旨正在修复该题目的拉取央浼（Pull Request）。

　　第二阶段，则是对天生的拉取央浼实行「评估」，以确认它是否真正办理了讲演的题目。（目前只实用于SWE-bench基准测试中的题目）

　　只需行使下面这个剧本，你就能够正在任何GitHub题目上运转SWE-agent了！

　　John Yang目前是普林斯顿大学的磋议助理，导师是Karthik Narasimhan。他曾正在加州大学伯克利分校赢得了电子工程和策动机学士学位。

　　他磋议的是自然道话管束的人工智能和ML，磋议风趣囊括代码道话模子，以及面向职司的对话。

　　Carlos曾正在犹他大学得到了策动机科学学士学位，导师是Ellen Riloff。

　　不管是Devin、Devika，照样OpenDevin等等，都正在软件工程范畴有着精巧的展现。

　　正在这里，AI不再仅仅是软件工程师的辅助东西，而是初步承受起了工程师的脚色，实行过去以为唯有人类才力实行的职司。

　　那么，这是否意味着AI仍旧不但仅是一个东西，而是成为了工程经过中的团结伙伴？

　　更进一步的，AI是否真的也许独立编写安然的代码？改日，编程是否将全体交由AI来掌控？

　　能够说，这些题目不但闭乎身手的提高，也触及到咱们关于AI脚色和技能认知的深主意思虑。

　　本年3月12日，一家叫才建设不到2个月的10人始创公司，就给了全寰宇亿点点惊动。

　　他们公布的寰宇上第一位AI次序员——Devin，不但担任了全栈本事，能自决进修不熟练的身手，端到端地修筑和安置行使次序，己方改bug，以至还能陶冶和微调己方的AI模子！

　　能够说，Devin并不但仅是一款AI东西，而是一个也许独立实行软件工程职司的AI体例。

　　与以往AI东西差异的是，Devin也许筹划并履行丰富的软件项目，这意味着AI现正在也许饰演起工程师的脚色。

　　除了编写代码外，Devin还也许管束次序中的过失，安置行使，以致于陶冶新的AI模子。

　　通过饱吹社区成员进献代码和相持怒放圭臬的法则，OpenDevin极力于无间订正和巩固AI正在软件开辟中的行使，使软件工程师也许更高效地实行编程职司。

　　受到Devin正在AI软件工程范畴开创性结果的驱策，另一个开源项目——Devika也出世了。

　　Devika是一个宽裕主动性的AI软件工程师，它也许解析人类的高级指令，把这些指令理解成完全步调，收罗所需的音讯，并据此编写代码来实行既定宗旨。

　　完全来说，Devika依托于Claude 3的健旺技能，联合了先辈的AI筹划与编程身手，打制了一个怒放给社区并由社区联合促使发扬的平台。

　　Devika不但仅是一个身手项目，它更是一个向环球开源进献者发出的邀请，饱吹他们参加到AI更始的行程中来，联合追求和界说AI身手的改日。

　　跟着像Devin、Devika和OpenDevin如许的AI软件工程师的饱起，咱们仍旧睹证了AI正在编程方面的浩瀚潜力。

　　这些AI不但也许筹划和践诺丰富的工程职司，还能寻得并修复缺欠，以至认真统统项宗旨开辟流程。

　　编写安然的代码不但恳求代码无误，更紧张的是要解析代码的广大靠山、能够的安然缺欠以及最新的安然磋议和实习。

　　固然咱们尚未到达AI也许全体代替软件工程师的阶段，但AI无疑正正在转变身手范畴的面庞和改日的走向。

　　正在AI更始日眉月异的即日，Devin、Devika和OpenDevin激发了咱们对人工智能与人类之间闭联的深思：咱们是否该当将AI视为与人类宛如的存正在？

　　正如Ethan Mollick正在「On the Necessity of Sin」中提出的，咱们面对的是与AI团结共创软件工程改日的机缘，照样AI最终将代替人类脚色的寻事？

　　谜底能够正在于咱们对改日的设思，以及咱们是否首肯采纳一种开源的立场，夸大透后度、怒放性和团结精神。

上一篇：电子2024 AutoCAD策画机辅助策画软件下载中文版周到安置教程

下一篇：PG电子涨停雷达：航空小镇+AI修修+邦产软件华阳邦际触及涨停

PG电子·(中国)官方网站

首页

关于pg电子官网入口

新闻中心

产品展示

留言板

咨询研究

联系pg电子官网入口

产品展示 PRODUCTS

PG电子普林斯稽首个「开源」AI步骤员登场爆改GPT-493秒修bug