作者:东东大道电子邮件| Dongdaoli@pingwest.com在9月30日,人类推出了新的编程模型Claude Sonnet 4.5。其他公司可能会抱怨:“这又是疯狂的”,但是我们可以看到,AI编程中人类的能力对所有人都是显而易见的。无论是每个人都急于使用的克劳德十四行诗4,带领编程代理的克劳德代码,换句话说,ia的上利马的上利马被人类完全打破了。那么什么更新了Claude Sonnet 4.5?它值得最好的编码模型标题吗?改进的1个职业得分并不是上次参考测试中最大的变化。 Claudeonnet 4.5显示了全面的主位置。具体来说,Claude Sonnet 4.5在OSWORLD计算机使用测试中赢得了61.4%的奖金,这使其成为最“计算机使用”。在工具呼叫中,Claude Sonnet 4.5特别出色,这使您可以真正招募系统和工具,并且代理的功能进一步发展。他们在专业领域的知识和推理,例如财务,法律,医学,茎等超出上述作品4.1。但是,与上一代相比,最大的变化不是执行分数,而是特征的整体更新。从开发体验的角度来看,Claude Code添加了控制点功能。这可以随时承认储蓄和逆转,从而降低了错误成本。同时,我们启动了一个本机VS代码补充和一个新的终端接口,该接口将模型的功能直接合并到工程师最使用的环境中。据说,长任务的处理引入了用于编辑和上下文内存的工具,这些工具可以保持一致的期限,从而允许始终执行复杂的任务超过30个小时。在办公室的应用中,完成Web导航,表单的填充以及通过Chrome补充,执行代码和表单的文档处理,幻灯片以及ClaudeGenera应用程序中的文档,使对话成为工作的真正入口门。对于开发人员而言,最重要的更新是Claude Agent SDK。人类首次开设了自己的基础设施,使外部开发人员能够建立自己的基于克劳德的代理商。 1。测试Claude的编程功能十四行诗4.5。您是否希望新功能能够延续IDE AI的使用寿命?在尝试Claude Sonnet 4.5时,Devin团队总结了三个明显的变化:最初更快,更稳定和改进的操作速度。资格评分junior开发人员大约增加了两倍。其次,存在外包内存的趋势,该模型会积极生成文件或生成笔记文件以保持长期任务的一致性。第三,自然验证变得更具侵略性,编写小脚本或HTML页面的跟踪,测试和修改方案。但是,要轻轻地说,这些特征已经来自男人y ides。光标,帆板和复制品的幽灵作者可以帮助用户生成文档,维护项目内存并在更改后自动执行测试。不同之处在于,IDE中的功能是工程师的“插头”模块的预测。在克劳德十四行诗4.5中,这些行为类似于自发形成的工作习惯。主动编写摘要。ños,如有必要,验证结果。换句话说,差异不是“是否是“是否,它),而是该模型的补充功能或内部驾驶习惯。从长远来看,这种差异可以决定未来发展经验的方向。他们是取决于IDE提供的特征还是在更大的模型代理中发展工作方式本身。随着后者的继续成熟,大型模型可以逐渐侵蚀AI IDE的好处,例如光标。我要求克劳德十四行诗4.5编写一个小型游戏项目。注意:创建一个3D Racin基于3.JSLA的G游戏更直观的感觉是它快速并在不到一分钟的时间内生成网络游戏。其次,克劳德(Claude)不仅了解非常困难的说明,而且还会生成可以在对话的第一轮中直接执行的游戏原型,随后的更改也非常柔软,这使您只能通过一个简单的消息来快速完成,例如调整速度,跟踪宽度,跟踪宽度,添加箭头标记等。相同的快速单词不放置在尺寸和初始阶段中。首先,在第一轮对话中,克劳德发布了基本版本。玩家可以控制前锋,背部和汽车地址,但车辆可以轻松离开屏幕。经过一些精细的调整(例如对旋转的控制)之后,我还要求克劳德(Claude)参考一级方程式比赛的风格,以使赛道更加复杂。这是一个相对较大的变化,克劳德不仅增加了曲线S,但也通过迹象荣耀,以前的变化并没有崩溃。最后,要在轨道上添加箭头以指示地址以使可玩性添加是一个好主意。克劳德(Claude)生成的箭头的方向在开始时有些混乱,但是在对话回合后,校正完成了,箭头的方向完美地适应了轨道。 Claude SONNET 4.5项目预览:https://claude.ai/public/artifacts/037aac3a-c790-4dfa-bf69-bf69-baf3825d97d7d7as,您在这个微型游戏实验中可以看到,在这个事实中,这是事实,这是事实,这是事实,这是事实,这是事实的,这是事实。反映的是,它也使克劳德(Claude)的自然萎缩,但也使人变软为bargén语言,但也像bargamento一样变软,但也减弱了bargén的languor,但也变软了,但也变软为Barquemark的语言。成为可行的项目。过去,从快速WO生成游戏代码RD通常意味着很多水库。该模型提供了一个半阿卡巴多,用户必须反复净化它,甚至还有大量的编程基础。但是在克劳德十四行诗中,4.5非常柔软。但是,先前的测试用例只是小玩具,实际生产力取决于特定的生产环境。 REDDIT允许开发人员尝试制作与我用来尝试Claude Sonnet 4.5和Codex彼此相同的复杂错误。结果表明,Codex非常适合找到根本原因,而Claude Sonnet 4.5通常会离开地面,甚至可以修复“已经好的零件”。评论被分歧,有些人同意克劳德十四行诗4.5很容易在复杂的净化中丢失,并且不像宣布那样出色。其他人则强调,对于额叶问题,它比法典要快。有些人认为法典更深,但以较慢和昂贵为代价。唯一的共识是:Claude是一个富有生产力的Ador,Codex是审稿人,现在是一种与注册和可观察性工具相结合的更安全的用途。 1克劳德如何控制计算机?除了编程功能外,Claude SONNet 4.5在OSWorld计算机使用测试中获得了61.4%。这对普通用户比编程功能更具吸引力。当桌面Claude打开(MAC)时,您会发现有许多功能,包括Google Chrome Control,Notes的阅读,Mac操作,FIGMA,PDF,Spotify等。让我们首先使用Claude控制浏览器。注意:在Chrome中打开Google的主页,每天在中国搜索,并在9月30日收集有关Claude Sonnet 4.5的最新新闻。在控制Chrome时,他逐渐作为用户工作,并完成了该工具以完成链接,而不是“跳跃以回答”。然后调用页面内容以从页面中提取内容,并在Casor中提取错误,更改官方网站上的最新新闻,并使用错误的容忍路线,以便可以使用数据。最后,临时Y过滤是通过内部组织过程(仅9月30日)和本节分类(政治/经济/社会/国际)进行的。正如您在详细信息页面上看到的那样,Claude Sonnet 4.5提供了一组完整的规则机械:我们不仅可以打开或关闭网页,而且还可以更新,返回并继续前进。您还可以执行JavaScript代码来完成点击,滑坡和其他操作,并直接提取网站的内容。练习与计算机文件互动的另一种情况。应用程序:查找带有Claude by Desktop名称的文件夹,请参阅哪些PNG文件可用并列出文件名。在配置了Chrome Control之后,Claude Sonnet 4.5将考虑调用文件处理工具,并作为人类逐步完成上一步。克劳德(Claude四人的塔。接下来,一一验证这些文件夹的内容。正如您在详细信息页面上看到的那样,该工具不仅可以读取单个文件内容或多个文件,还可以创建,编辑和编写文件。它还允许您创建目录,列表目录,查看目录的结构,移动文件,搜索文件,恢复文件信息并管理可访问目录的范围。克劳德(Claude)有许多这样的工具。 Claude Sonnet 4.5的出现不仅仅是他职业生涯得分的胜利。不满限制:伟大的模型是生成器还是动态代理?使用直接控制点控制点,长距离内存,SDK和Chrome Agent将就像一个数字同事,可以自己处理任务。当然,这仍然是不完整的。净化丢失了,执行尚不清楚。但这表明它不是无所不能的工具,而是需要协作和工程限制的合作伙伴。而且没有人知道内部是否几个月来,人类将秘密地削减克劳德4.5的十四行诗,并强行放弃他的智慧。但是有一件事可以肯定,他从未想象过使用这些测试用例,但是今天,他成为“儿科”,这是我们最后一次评估克劳德和随后的各种模型。这是AI编码的速度,它从一个模型延伸到今天,然后变得更加疯狂。 点击“爱”离开
特殊声明:以前的内容(包括照片和视频(如果有),如果有)已由NetEase Auto-Media平台的用户收费和发布。该平台仅提供信息存储服务。
注意:上面的内容(包括照片或视频,包括照片和视频),由社交媒体平台Neteasehao的用户加载和发布,仅提供信息。