PG电子普林斯泥首个「开源」AI秩序员登场！爆改GPT-493秒修bug

产品展示 PRODUCTS

您当前位置： PG电子·(中国)官方网站 > 产品展示 > 电子

PG电子普林斯泥首个「开源」AI秩序员登场！爆改GPT-493秒修bug

返回列表

　　普林斯顿团队祭出了全新的智能体-计划机接口（ACI）——SWE-agent。

　　简略来说，SWE-agent可能让大发言模子（譬喻GPT-4）变身为软件工程AI智能体，并正在确凿的GitHub货仓里我方修bug。

　　要念正在SWEBench上得到12.3%的分数，只消更好地手动安排GPT-4的号令行器材就行，不必要什么其它奇妙之处。

　　用户呈文了这个题目：矩阵操作的Insert时，发作了少少不适宜预期的输出。

　　开始，它重现了呈文的bug，把bug的代码复制到了一个名为「reproduce_bug」的文献中。

　　确认题目之后，它正在存储库中搜求了「col_insert」函数，看看是正在哪里被界说的。很疾SWE-agent就浮现了是正在common.py里。

　　翻开文献后，它找到了一个名为「_eval_col_insert」的函数，以为这大概是环节所正在。

　　提交治理计划后，SWE-bench的评估结果显示，该计划依然通过开头测试，以是能够将其标识为已治理。

　　正在项目主页中，又有一个能够自助操作的演示，感乐趣的能够自助考试体验批改bug。

　　依据探求者John Yang，也是SWE-bench一作先容，SWE-agent的作事道理是与特意的终端交互，它能够：

　　以是，John等探求小组以为，大模子必要谨慎安排的智能体——计划机接口，相仿于人类喜欢的UI安排。

　　而此外一个规范案例是，正在查看文献时，让SWE-agent每次只看100行，要比每次看200-300行，以至全盘文献成绩要好得众。

　　有斥地者体现，我感受到了一个新的探求范畴：智能体计划机交互（ACI）。它与人机交互（HCI）相仿，但更注重于LLM和LVM。

　　有人发出感叹，普林斯顿团队打制的「开源Devin」，仅用GPT-4正在基准测试中博得了12.29%的凿凿率，线降生之后会何如？

　　为此，探求职员特意为大发言模子安排了简略的指令和反应格局——智能体-计划机接口（ACI），从而让模子可能更轻松地浏览代码货仓、查看、编辑和运转代码文献。

　　正如优异的提示安排看待充斥发扬发言模子的潜力至闭紧张雷同，良好的ACI安排看待行使AI智能体时可能博得更佳成绩也是环节。

　　正在安排代劳计划机接口历程中，探求职员浮现了几个极其有效的功效，并将它们集成到了SWE-agent中：

　　1. 扩展了一个正在发出编辑号令时运转的代码检验器，要是代码语法制止确，则障碍编辑号令奉行。

　　2. 供应了一个特制的文献查看器，并为文献编辑器增添了滚动查看和文献内搜求的功效。结果显示，这个查看器正在每次只显现100行代码时成绩最佳。

　　3. 供应了一个特制的全目次字符串搜求号令。探求浮现，简略地列出每个含有立室项的文献绝顶紧张，由于给模子供应每个立室项的更众的上下文音讯会使其觉得怀疑。

　　4. 当某个号令奉行后没有任何输出时，会返回一条新闻：「你的号令已告成奉行，但没有发作任何输出。」

　　总结来说，通过智能体计划机接口（ACI），SWE-agent让LLM有了与专属的Docker容器互动，达成浏览、搜求、编辑和奉行代码的功效，从而极大地拓宽了LLM正在软件斥地范畴的运用界限。

　　第一阶段被称为「推理」，此时SWE-agent会处置一个GitHub上呈文的题目，并天生一个旨正在修复该题目的拉取恳求（Pull Request）。

　　第二阶段，则是对天生的拉取恳求实行「评估」，以确认它是否真正治理了呈文的题目。（目前只合用于SWE-bench基准测试中的题目）

　　只需行使下面这个剧本，你就能够正在任何GitHub题目上运转SWE-agent了！

　　John Yang目前是普林斯顿大学的探求助理，导师是Karthik NarasimhanPG电子。他曾正在加州大学伯克利分校博得了电子工程和计划机学士学位。

　　他探求的是自然发言处置的人工智能和ML，探求乐趣包罗代码发言模子，以及面向职业的对话。

　　Carlos曾正在犹他大学得到了计划机科学学士学位，导师是Ellen Riloff。

　　不管是Devin、Devika，仍然OpenDevin等等，都正在软件工程范畴有着特殊的再现。

　　正在这里，AI不再仅仅是软件工程师的辅助器材，而是先导负担起了工程师的脚色，竣事过去以为惟有人类材干竣事的职业。

　　那么，这是否意味着AI依然不光仅是一个器材，而是成为了工程历程中的团结伙伴？

　　更进一步的，AI是否真的可能独立编写太平的代码？将来，编程是否将全体交由AI来掌控？

　　能够说，这些题目不光闭乎时间的先进，也触及到咱们看待AI脚色和才智认知的深主意研究。

　　本年3月12日，一家叫才设立不到2个月的10人首创公司，就给了全全邦亿点点颤动。

　　他们宣告的全邦上第一位AI圭臬员——Devin，不光掌管了全栈工夫，能自助练习不熟练的时间，端到端地构修和铺排运用圭臬，我方改bug，以至还能锻炼和微调我方的AI模子！

　　能够说，Devin并不光仅是一款AI器材，而是一个可能独立竣事软件工程职业的AI体系。

　　与以往AI器材差异的是，Devin可能筹划并践诺纷乱的软件项目，这意味着AI现正在可能饰演起工程师的脚色。

　　除了编写代码外，Devin还可能处置圭臬中的舛误，铺排运用，甚至于锻炼新的AI模子。

　　通过荧惑社区成员功勋代码和坚决怒放规范的规定，OpenDevin极力于继续改革和加强AI正在软件斥地中的运用，使软件工程师可能更高效地竣事编程职业。

　　受到Devin正在AI软件工程范畴开创性劳绩的激劝，另一个开源项目——Devika也降生了。

　　Devika是一个富饶主动性的AI软件工程师，它可能剖析人类的高级指令，把这些指令剖释成整个步调，征采所需的音讯，并据此编写代码来竣事既定目的。

　　整个来说，Devika依托于Claude 3的强盛才智，联络了前辈的AI筹划与编程时间，打制了一个怒放给社区并由社区协同饱励发达的平台。

　　Devika不光仅是一个时间项目，它更是一个向环球开源功勋者发出的邀请，荧惑他们插手到AI改进的行程中来，协同寻求和界说AI时间的将来。

　　跟着像Devin、Devika和OpenDevin如此的AI软件工程师的振起，咱们依然睹证了AI正在编程方面的壮大潜力。

　　这些AI不光可能筹划和奉行纷乱的工程职业，还能寻得并修复纰漏，以至掌管全盘项主意斥地流程。

　　编写太平的代码不光央求代码无误，更紧张的是要剖析代码的广大靠山、大概的太平纰漏以及最新的太平探求和履行。

　　固然咱们尚未到达AI可能全体庖代软件工程师的阶段，但AI无疑正正在改良时间范畴的嘴脸和将来的走向。

　　正在AI改进日眉月异的本日，Devin、Devika和OpenDevin激发了咱们对人工智能与人类之间联系的深思：咱们是否该当将AI视为与人类相同的存正在？

　　正如Ethan Mollick正在「On the Necessity of Sin」中提出的，咱们面对的是与AI团结共创软件工程将来的机缘，仍然AI最终将庖代人类脚色的挑拨？

　　谜底大概正在于咱们对将来的设念，以及咱们是否高兴选用一种开源的立场，夸大透后度、怒放性和互助精神。

上一篇：广州软件学院：在追“锋”路上写好写实“绿美”答卷

下一篇：电子重庆大学策画机学院高效通讯与策画斟酌团队聘请

PG电子·(中国)官方网站

首页

关于pg电子官网入口

新闻中心

产品展示

留言板

咨询研究

联系pg电子官网入口

产品展示 PRODUCTS

PG电子普林斯泥首个「开源」AI秩序员登场！爆改GPT-493秒修bug