这确实是一个伟大逆袭的故事。 11月19日凌晨,Gemini 3发射,彻底打破常规。上线当天,全球访问量突破5400万,创平台历史最高水平。这一次,谷歌再次称王,但其竞争对手的核心直接感受到了影响。据 The Information 报道,面对谷歌即将到来的攻击,OpenAI 首席执行官 Sam Altman 在周一的内部备忘录中紧急宣布,该公司正在进入“红色代码”状态,并准备调动所有战略资源,大幅提升 ChatGPT 的能力。据 The Verge 援引知情人士消息报道,OpenAI 计划下周发布 GPT-5.2 模型,比原计划的 12 月底要早得多。这不仅印证了双子座3带来的压力感,也让接下来的谈话变得更有意义。最近,DeepMind 和谷歌首席技术官 Koray Kavukcuoglu新任首席人工智能架构师出现在 Logan Kilpatrick 的脱口秀节目中。 “我们是猎人,但创新是唯一的出路,”他说。亮点一览: 1. Koray Kavukcuoglu 强调,Gemini 优化重点关注以下关键领域: 满足要求:我们确保模型准确理解并执行用户的特定需求,而不是随机生成内容。国际化:提升多语言支持能力,确保全球用户获得优质体验。代理和工具功能:模型自然可以使用现有的工具和功能,也可以创建自己的工具。 2. Gemini 3是“Google团队的完整协作模型”。除了 DeepMind 团队之外,来自 Google 和世界各地(包括欧洲和亚洲)的团队也做出了贡献。 3. 随着技术的进步,文本和图像模型的架构和概念将不断发展。融合的。过去,这两种架构是非常不同,但现在它们变得越来越相似。这是技术自然进化的结果。大家都在寻找更高效的解决方案,逐渐统一理念,最终形成共同的发展道路。链接视频:https://youtu.be/fXtna7UrL44?si=A5xEGWGeEM4EEDhp 以下是完整的文字记录和翻译(修改顺序) 基准测试只是第一步,用户反馈是第二步 Logan Kilpatrick: 大家好,我是 Logan Kilpatrick。今天我很荣幸 DeepMind 与我们一起。 Koray,谷歌首席技术官兼新任首席人工智能架构师。科莱先生,谢谢您的光临。我期待着详细的讨论。 Koray Kavukoğlu先生:我也很期待。感谢您的邀请! Logan Kilpatrick:当然,Gemini 3 已经发布了。我们感觉这个模型会表现良好,基准测试结果非常令人印象深刻,但当我们把它交给用户时的实际反应…… Koray Kavukcuoglu:这是最终的测试。基准测试这只是第一步,然后我们做了很多测试,包括让值得信赖的测试人员参与发布前的体验。感觉像是一个具有非常好的功能的优秀模型。它并不完美,但我们对用户的反馈感到非常满意。人们似乎真的很喜欢这个模型,我们发现有趣的作品对他们来说同样有趣。到目前为止,一切进展顺利,一切都很顺利。洛根·基尔帕特里克:是的,我们昨天还在说话。一个中心主题是人工智能的发展步伐并没有放缓。记得去年I/O大会上我们推出Gemini 2.5时,有一个演示,当我听Serge谈论AI的未来时,我感觉2.5已经是一个前沿模型,突破了多维前沿。现在,Gemini 3.0又向前迈出了一步。我有兴趣。关于这一进展能否持续一直存在争议。现在你觉得怎么样? Koray Kavukcuoglu:我是 c对当前的进展和研究缺乏信心。当你站在研究的最前沿时,你会发现各个领域都充满了创新的热情。从数据、预训练、调优到各个环节,都有很多新的想法、新的进展。归根结底,这是关于创新和创造力。如果我们的技术真的对现实世界产生影响,被人们广泛使用,我们就能得到更多的反馈信号,扩大接触面,产生更多的灵感。虽然未来的问题将更加复杂和多样化,新的挑战将会出现,但这些挑战将是有益的,也将激励我们走向通用智能。如果您只查看一两个基准,您可能会感觉进度正在放缓,这是正常的。当出现具体技术问题时建立基准。随着技术的发展,它不再是尖端的代名词,需要制定新的基准。这在m领域很常见机器学习,基准测试和模型开发相辅相成。基准测试指导模型迭代,只有接近当前前沿,才能定义下一个目标并建立新的基准。洛根·基尔帕特里克:我完全同意。例如,在早期的 HLE 测试中,所有模型的准确率只有 1% 到 2%,但现在最新的 DeepMind 模型可以达到 40% 左右,这令人印象深刻。 ArcGIS 这个基准测试最初只有很少的模型可以处理它,但现在显示出超过 40% 的准确度。然而,一些静态基准测试(例如 GPQA Diamond)经受住了时间的考验。虽然只能提高1%左右的准确率,但它仍然被广泛使用,并且可能接近饱和。 Koray Kavukcuoglu:确实,这些基准测试有许多尚未完全克服的难题,但测试仍然很有价值。以GPQA为例,没有必要追求大于90%的极端准确率。现在我们已经清楚了达到目标后,未解决的问题自然就会减少。因此,寻找新的前沿、建立新的参考点非常重要。基准测试是衡量进展的一种方法,但它并不能衡量绝对一致性。理想情况下,两者应该完全相同,但实际上它们永远不会相同。对我来说,最重要的进步衡量标准是我们的模型是否在现实世界中得到广泛应用。科学家、学生、律师和工程师用它来解决问题吗?有人用它来写作、发送电子邮件等吗?能够在更多领域、更多场景,无论简单还是复杂,持续为用户创造更大价值,才是真正的进步。基准只是帮助量化这一进展的工具之一。 Logan Kilpatrick:我有一个没有争议的问题。 Gemini 3 在许多基准测试中表现良好,可在所有 Google 产品和合作伙伴生态系统中同时使用,并获得非常积极的用户反馈。展望未来extor主要推出了Google模式,您认为哪些方面需要改进?例如,“我想在 X、Y 和 Z 方面做得更好”,还是应该先享受 Gemini 3 的结果? Koray Kavukcuoglu:我认为我们可以两者兼得。我们应该享受这一刻,因为发布日值得庆祝,团队应该为他们的成就感到自豪。但与此同时,这种模式显然在几个方面存在缺陷。你的写作技巧并不完美,你的编码技巧还有待提高。特别是动作和代理编码。有很大的改进空间,也是最有趣的增长领域。你需要找到可以优化的地方并继续改进。我认为我们已经走了很长一段路。 Gemini 3 可能是 90-95% 编码用户的最佳工具,例如软件工程师和想要创建产品的创意人员,但当然也有需要进一步优化的场景。从“创意”到“可部署”Logan Kilpatrick:您如何看待“增量优化”?比如Gemini 2.5到3.0或者其他版本的优化优先级是什么?现在基准这么多,我们如何选择优化方向,是否通过G? emini系列,特别是Pro版本? Koray Kavukcuoglu:我认为有几个关键领域。首先是遵循指示的能力。模型必须准确理解用户的需求并实现它们,而不是简单地随意生成响应。这是我们一直赞赏的一个方向。二是国际化。谷歌在世界各地开展业务,我们希望将这种模式提供给世界各地的人们。 Logan Kilpatrick:今天早上我实际上正在与 Tulsi 交谈,她说这个模型在某些语言中效果非常好,而以前效果不佳。 Koray Kavukcuoglu:这真的很酷。因此,我们应该继续关注这些可能不是最前沿的领域。f 知识,但对于用户交互很重要。如上所述,您需要接收来自用户的反馈信号。当涉及到更多技术领域时,函数调用、工具调用、代理动作和代码功能也非常重要。对函数和工具的调用可以大大增加模型的智能协同作用。模型自然可以使用现有的工具和功能,也可以创建自己的工具。基本上,模型本身就是一个工具。我们的编码能力很重要,不仅因为我们团队里有很多工程师,还因为代码是数字世界的基础。无论是软件开发还是将想法变成现实,代码都是必不可少的。已成为深度融入人们生活各种场景的模式。让我们举一个“振动编码”的例子。我对这个功能非常看好。许多人很有创造力,但缺乏实施他们的想法的能力。实时编码让您从“创意”走向“部署”只要输入你的想法,相应的应用程序就会出现在你的面前,大多数情况下它会正确运行。这种从想法到产品的闭环太棒了,让更多人有机会成为创造者。 Logan Kilpatrick:太棒了!这对 AI Studio 来说是一个完美的提案。编辑你的剪辑并在线发布。你刚才提到的一个重要话题是与 Gemini 3 同时推出的 Google 反重力平台。从模型的角度来看,你认为这个产品架构有多重要显然,这与工具调用和编码能力密切相关。Koray Kavukcuoglu:对我来说,这当然很重要,但从模型的角度来看,它是双向的。首先,对我们来说,将模型直接与最终用户(我们指的是软件工程师)集成以获得反馈并明确模型应该发展的方向非常重要。得到改善。与 Gemini 一样,AI Studio 也是一个反重力平台。这些产品可以让你与用户紧密联系并获得真实的反馈。いいえ、これは莫大な富です。反重力平台在短期内一直是重要的发布合作伙伴,但他们在过去几周的反馈对于准备发布起到了重要作用。 myAI搜索模式就是这样,我们收到了很多反馈。它可以帮助推动科学和数学等领域的更大智能,但理解现实世界的使用场景同样重要,模型必须能够解决现实世界的问题。 Gemini 3,整个 Google 团队合作开发的模型 Logan Kilpatrick:作为新任首席 AI 架构师,您的职责不仅是确保拥有出色的模型,还要推动产品团队实施这些模型,并在所有 Google 服务中创造出色的用户体验。 Gemini 3 在所有 Google 产品中同步推出很高兴的一天。这对用户来说是一个很大的惊喜,我们希望未来能看到更多的产品。从 DeepMind 的角度来看,这种跨团队协作是否会增加更多复杂性?毕竟,一年半前事情可能会有所不同。做得更简单。 Koray Kavukcuoglu:但我们的目标是开发智力,对吧?很多人问我,CTO 和首席 AI 架构师这两个职位是否存在冲突,但对我来说,这两个角色本质上是一样的。构建智能必须通过产品和用户之间的协作来实现。我的主要目标是确保所有 Google 产品都使用最新技术。我们是技术开发人员,而不是产品团队。我们负责模型和技术的开发。当然,我们对产品有自己的看法,但最重要的是用最好的方式提供技术支持,与产品团队一起打造AI时代最好的产品。这是一个新技术的新时代他们正在重新定义用户期望、产品行为和消息传递。这就是为什么我希望与所有团队和产品组合作,帮助在 Google 内部实现这项技术。这不仅对产品和我们的用户有利,对我们来说也非常重要。只有更加贴近用户,才能感知他们的需求,获得真实的反馈信号。这与模型相反。这是复仇的核心动力。这就是我们通过与用户一起成长的产品来构建通用人工智能 (AGI) 的方式。洛根·基尔帕特里克:我完全同意。这可能是您的 Twitter 副本。我们还认为,我们本质上是在与客户和合作伙伴一起构建通用人工智能 (AGI)。这不是研究所内部的孤立研究,而是大家一起推动的联合项目。 Koray Kavukcuoglu:我认为这也是一个“可靠的测试系统”。我们越来越注重工程思维。笔触的意义这很重要,因为设计良好的系统更加健壮和安全。在构建实际产品时,我们利用: “自信测试”背后的许多概念都反映在我们对安全和隐私的关注中。我们从一开始就将安全和隐私视为基本原则,而不是事后才想到的。无论是预训练、调优还是数据过滤,团队中的每个人都需要考虑安全性。当然,我们有专门的安全和隐私团队提供相关的技术支持,但我们希望Gemini团队的每个人都能深度参与,将安全和隐私融入到开发的各个方面。这些团队本身也是 Tweak 团队的一部分。因此,当我们迭代模型并发布候选版本时,我们不仅参考 GPQA 和 HLE 等基准测试的结果,而且还严格审查安全和隐私指标。这种工程思维很重要。洛根·基尔帕特里克:我完全同意。这是科符合 Google 的企业文化。毕竟推出Gemini车型是一个大型项目,需要全球团队的合作。 Koray Kavukcuoglu:我认为Gemini 3最值得注意的一点是它是“Google Teams的全面协作模型”。 Logan Kilpatrick:如果你看一下数据,这可能是有史以来最大的项目之一,一个巨大的全球项目。类似于NASA的阿波罗计划。 Koray Kavukcuoglu:是的,这是全球性的。 Logan Kilpatrick:很难相信 Google 的每个团队都参与其中。 Koray Kavukcuoglu:来自欧洲和亚洲等世界各地的团队都做出了贡献,不仅是 DeepMind 团队,还有来自 Google 各个部门的团队。这是一次伟大的合作努力。我们在Gemini应用程序的同时推出了AI模式,这并不容易。这些产品团队在模型开发阶段与我们密切合作,使我们能够在发布当天同步发布整个平台。所谓的“Google 的全面参与”不仅包括直接参与构建模型的团队,还包括所有执行任务并默默贡献的团队。自然整合自发名称 Nano Banana Logan Kilpatrick:我感兴趣的另一个主题是生成媒体模型。我们一直关注,但不关注过去。然而,随着Veo 3、Veo 3.1和Nano Banana型号的推出,我们在产品发布方面取得了巨大成功。我很好奇,您如何看待生成视频模型在追求通用人工智能(AGI)方面的作用?视频和 AGI 模型有时看起来并不相关,但如果你仔细想想,它们是相关的,因为它们与理解世界和物理定律有关。 Koray Kavukuoglu:10、15年前,生成模型主要集中在图像领域。那时我们可以更好地观察成像过程,了解世界和物理定律也是一个中心成像模型的所有目标。谷歌对生成模型的探索可以追溯到十多年前。当我攻读博士学位时,每个人都在研究生成图像模型,例如像素卷积神经网络(Pixel CNN)。然后我注意到文本字段滚动得更快。然而,图像模型的重要性现在被重新强调。马苏。 DeepMind 多年来在图像、视频和音频模型方面建立了深厚的技术能力,将这些技术与文本模型集成是有意义的。我们一直强调多模态,包括输入多模态和输出多模态。随着技术的进步,文本和图像模型的架构和概念不断集成。过去,这两种架构非常不同,但现在它们变得越来越相似。这不是我们有意推动的,而是技术自然进化的结果。每个人都寻求更高效的解决方案,循序渐进统一理念,最终形成共同的发展道路。这种融合的核心价值在于文本模型拥有丰富的世界知识,而图像模型可以从不同的角度理解世界。通过将两者结合起来,模型可以更好地理解用户意图并产生更令人惊讶的结果。 Logan Kilpatrick:我还有一个关于 Nano Banana 的问题。你认为所有模特都应该有有趣的名字吗?这有用吗? Korai Kavukcuoglu:不一定。我认为名字应该是自然而然的,而不是刻意的。例如,Gemini 3这个名字并不是我们故意设计的。 Logan Kilpatrick:如果 Gemini 3 不叫这个名字,你会叫它什么?这是一个有趣的名字吗? Koray Kabukuoglu:我不知道,我不擅长命名。其实我们的Gemini模型是有内部代号的,有些代号甚至可能是Gemini模型本身生成的,但是Nano Banana没有,也不是模型生成的。我认为这个名字背后有一个故事这就是它被公开的原因。我认为如果这是一个对你来说很自然的名字就可以了。毫不奇怪,构建该模型的团队与这个名字产生了情感共鸣。 “纳米香蕉”这个名字的出现是因为当我们在测试时使用这个代号时,大家都喜欢它,并且它有机地传播开来。当然,我认为通过一个过程有意地创造一个新名字是很困难的。如果有的话就使用它。否则,您也可以使用标准名称。 Logan Kilpatrick:我们来谈谈 Nano Banana Pro,这是一款基于 Gemini 3 Pro 的尖端成像型号。我们尝试使用 Banana,听说团队正在 Nano 中最终确定,并发现升级到 Pro 版本显着提高了更高级场景的性能,例如渲染文本和理解世界知识。您对这一发展有何看法? Koray Kavukcuoglu:这是不同技术的集成。我一直说Gemini的每个版本都是一个模型家族:Pro、Flash等。不同尺寸的模型在速度、精度、成本等方面都有各自的劣势。图像生成模型也是如此,自然导致产品的定位不同。基于Gemini 3.0 Pro架构,结合第一代模型的经验,团队通过增加模型规模和优化合理的调整方法,创建了更强大的成像模型。其主要优势在于复杂场景的处理。例如,当输入大量复杂文档时,模型不仅可以回答相关问题,还可以生成相应的信息框,其效果非常好。这是输入多模态和输出多模态的自然集成,非常棒。 Logan Kilpatrick:是的,这就像魔法一样!我希望当这个视频发布时你能看到这样的例子。里面分享的一些故事确实令人惊叹。 Koray Kavukoğlu:我完全同意!你’您将会惊讶于该模型如何以清晰直观的图表表示大量文本和共同概念复杂性。这使您可以直观地反映模型的功能。 Logan Kilpatrick:还有很多细节值得细细品味。我有一个相关的问题。 12月,Tulsi推出了集成的Gemini模型。我们已承诺部署检查站。您刚才所描述的情况是否意味着我们目前已经非常接近这个目标了? Koray Kavukcuoglu:从历史上看,生成模型的架构一直是统一的… Logan Kilpatrick:我认为这就是目标,将这些功能真正集成到模型中,但现实中肯定存在一些障碍。您能从宏观层面解释一下吗? Koray Kavukcuoglu:正如我之前所说,技术和建筑总是在融合。这种整合是必然趋势,但还需要检验。我们不能依赖主观假设,必须遵循科学的方法提出假设,执行进行测试并观察结果。有时我们成功,有时我们失败,但这是一个技术进步的过程。我认为我们正在接近这一目标,并且在不久的将来会看到一个更加统一的模型,但这需要大量创新。这确实很难。模型的输出空间非常重要,因为它直接关系到训练信号的质量。目前,训练信号主要来自代码和文本,因此模型在这些方面表现良好。图像生成是不同的。图像生成需要非常高的质量,而不仅仅是像素级精度。概念一致性,即每个像素必须契合大图的逻辑。同时生成文本和图像是非常困难的。但我认为这绝对是可能的。我们只需找到正确的模式创新方向。 Logan Kilpatrick:这真的很令人兴奋!茶!我们希望这将使事情变得更加高效,例如统一的模型检查点。Koray Kavukcuoglu:这很难说,但很有可能。这是关于学习 Logan Kilpatrick:让我问你另一个关于编码和使用工具的问题。回顾Gemini的发展历史,1.0版本专注于多模态,2.0版本开始构建基础设施.did。尽管我们取得了快速进展,但为什么我们没有走在多式联运领域使用代理工具的最前沿?毕竟,Gemini 1.0 一直是多式联运领域的领导者。 Koray Kavukoğlu:我不认为这是故意的。说实话,我认为这与开发环境与现实世界模型的接近程度有很大关系。我们越接近现实,就越能了解用户的真实需求。 Gemini的研发历史也是我们从“纯研究”走向“工程思维”并与产品深度结合的过程。谷歌在人工智能研究方面有着深厚的传统,拥有众多优秀的研究人员,但其特点是Gemini的特点是可以从“写文章、研究”转向“跨产品、跨用户共同开发”。我为我们的团队感到自豪。四五年前,我们大多数人,包括我自己,仍然专注于人工智能的出版和研究。今天,我们处于技术的最前沿,共同推动我们的产品和用户的技术迭代。这种转变是惊人的。新型号每 6 个月发布一次,每 1-1.5 个月更新一次。我相信通过这个过程,我使用代理工具的能力会逐渐提高。 Logan Kilpatrick:另一个有趣的话题。 DeepMind目前拥有多个世界一流的人工智能产品,包括Vibe Coding、AI Studio、Gemini、Anti-Gravity Platform等。谷歌还有Gemini 3、Nano Banana、Veo等几款前沿机型。十年前,甚至十五年前,世界不是这样的。很有趣,回顾一下你的个人历程,昨天你提到你是DeepMind 的第一位深度学习研究员,这让我和其他人感到惊讶。 13年前(2012年),人们并不看好深度学习,但现在这项技术支撑了许多产品,并成为核心驱动力。它已成为一种力量。你觉得怎么样?これはすべて予想通りでしたか、それとも惊きましたか?コラand Kavukcuoglu:これは理想的な结果だと思います。博士号を取得しようとする人は谁でも同じように、自分のやっていることが重要であり、大きな影响を与えるだろうという强信念いを抱くようになります。それが当时の私が抱いていた考え方でした。そのため、デミとshiェーンが私に连络DeepMind是卡尔·格雷格的作者。 (私たちは二人とももューヨーク大学の Janの研究室の出身です)DeepMindに加わりました。当时专注于深度学习和AI的初创公司非常罕见,所以DeepMind的理念非常先进,在那里工作真的很令人兴奋。然后我组建了一个深度学习团队并观看了它。则に基づき、「学习ベーsu」の考え方を固守するというものでした。这也是DeepMind的一个核心理念,一切以学习为基础。少年の DQN、AlphaGo、AlphaZero、AlphaFold から现在のGemini前向きな期待を持って前进してきましたが、同时に非常に幸运だと感じています。我们很幸运能生活在这个地方。是的。 AI的兴起并非这不仅归功于机器学习和深度学习的进步,还归功于硬件、互联网和数据的进步。这些因素共同造成了目前的局面。したがって、私はAIという分野を选んだことを夸りに思うだけでなく、この时代にいることを幸运に感じています。这真的很令人兴奋。 Logan Kilpatrick:我最近看了视频《思考游戏》,了解了 AlphaFold 的历史。我亲身经历过那段时间。我没有,所以只能从别人的信息和故事中了解。您在 DeepMind 参与过许多重要项目。您认为您现在的工作与之前的工作相比有什么不同?例如,您之前说过您学会了如何将模型推向世界。这种情绪与之前的项目有何相似或不同? Koray Kavukcuoglu:您如何组织团队并发展文化来成功解决复杂的科学和技术问题?我认为我们在多个项目方面拥有丰富的经验,这些项目产生了很大的影响ct,从 DQN 到 AlphaGo、AlphaZero 和 AlphaFold。我们学习了如何组织大型团队来实现特定的目标和任务。我记得在 DeepMind 的早期,有 25 个人一起工作并发表文章。当时很多人都在想:“25个人如何才能共同完成一项工作呢?”但我们做到了。这种大规模的协作在科学研究中并不常见,但我们通过有效的组织来实现。这种经验和心态随着时间的推移而演变,并变得越来越重要。近年来,我们整合了工程思维。也就是说,模型的主要发展方向已经确定了,我们学会了基于这个主要方向来探索。我认为“深度思考”就是一个很好的例子。我们用它参加国际数学奥林匹克(IMO)、国际大学生编程竞赛(ICPC)等重要比赛。虽然这些竞赛问题非常困难,很多人会忍不住专门为该赛事定制一个模型,我们决定以此为契机来优化我们现有的 Creemo 模型。我们擅长技术的多功能性,并利用我们的赛事来探索新想法,将这些想法整合到现有模型中,最终创建可以在顶级赛事中竞争的模型,并将其提供给所有人。 Logan Kilpatrick:这让我想起了相似之处。过去有 25 人分享文章。现在,Gemini 3 的贡献者名单可能已经有 2500 人。很多人可能会想,“我们怎样才能让所有 2,500 人都参与进来呢?”事实确实如此。如此大规模的协作解决问题确实令人惊叹。 Koray Kavukcuoglu:这非常重要,也是Google的优势。谷歌拥有完整的技术力量,我们都可以从中受益。从数据中心、芯片、网络到大规模模型部署,我们都有专家y 的步骤。回到工程思维的话题,这些联系是密不可分的。设计模型时,请考虑模型将在其上运行的硬件。在设计下一代硬件时,我们也会预测模型发展的方向。这种协同作用固然很好,但协调这么多环节需要成千上万人的集体努力。我们需要认识到这种合作的价值。这真的很酷。 Logan Kilpatrick:这从来都不容易。回归 DeepMind 传统。我们始终采用多科学方法来解决各种有趣的问题。我们现在知道这项技术适用于许多领域,我们只需要继续扩展它。当然,这也需要创新的支持。您认为DeepMind如何在当今时代平衡“纯粹的科学探索”和“双子座规模”?例如,“双子座扩散模型”就是此类决策的体现。科雷·卡武克措格卢:这是一个重要的问题。在两者之间找到平衡点很重要。现在很多人问我双子座最大的风险是什么?想来想去,答案是“缺乏创新”。我认为还没有找到“一刀切”的方法,只需按照步骤操作即可。我们的目标是开发通用智能,需要与用户和产品进行深度连接,但这个目标本身仍然非常困难。而且我们没有标准的解决方案。创新是实现我们目标的主要引擎。创新有多种规模和方向。在 Gemini 项目中,我们探索新架构、新想法和新方法。我们还计划在 Google DeepMind 中进行更多跨领域探索,因为某些想法可能过于有限,无法在 Gemini 项目中得到充分开发。因此,Google DeepMind 和 Google Research 应该共同努力探索不同的想法,并将其整合到 Gemi.neither 中。因为 Gemini 不是一个架构,它的目标是开发op通用智能,让所有谷歌产品都可以在这个人工智能引擎上运行。无论我们最终采用什么架构,我们都将不断发展,创新永远是核心驱动力。找到平衡点或以不同的方式探索很重要。 Logan Kilpatrick:我有一个相关问题。正如我在 I/O 大会上与 Sergey 交谈时所说,当这么多人聚集在一起推出模型并促进创新时,你可以感受到“人的温度”。我也明白这一点。我坐在你旁边,感受到了你的热情。这对我来说具有个人意义。因为它体现了 DeepMind 的整体文化:深厚的科学训练和友好、包容的团队氛围。许多人可能不理解这种文化的重要性以及它如何影响他们的工作。作为团队领导,您如何看待这种文化? Koray Kavukcuoglu:首先感谢您的称赞。有点尴尬。但我相信团队的力量,我信任别人和gi给他们机会。团队合作非常重要,我在 DeepMind 工作时也学到了这一点。我们从一个小团队开始,随着我们的成长始终保持着我们的信心。 “令人印象深刻且复杂,我们认为创造一个专注于解决独特技术和科学问题的环境非常重要,我们目前正在这样做。Gemini的核心是发展通用智能。这是一个非常困难的技术和科学问题。我们必须谦虚地对待这个问题,不断质疑自己并优化自己。我希望团队也有同样的感觉。我为这个共同努力、互相支持的团队感到非常自豪。这与我在茶室里与团队谈论的一模一样。”困难,我们都累,但这或者是构建尖端技术时的正常情况。我们没有完美的流程,但每个人都尽力而为并互相支持。”是什么让这一切变得如此有趣?ng而有意义,并让我们有勇气面对挑战,主要是“一个大团队的存在”,大家一起追求技术的潜力。二十年内,我们目前使用的大型语言模型(LLM)架构将被明确淘汰。因此,继续探索新的方向是正确的选择。谷歌DeepMind、谷歌研究院和整个学术研究社区必须共同努力,推进多个领域的探索。我认为没有必要担心“什么是对、什么是错”。真正重要的是该技术在现实世界中的功能和性能。 Logan Kilpatrick:最后一个问题:在谷歌的第一年,我个人有一种“谷歌逆袭”的感觉。尽管谷歌在基础设施方面拥有巨大领先优势,但在人工智能方面他们似乎一直在追赶。例如,AI Studio早期没有用户(后来增加到3个)0,000)并且没有收入。双子座模式也处于起步阶段。而现在,随着Gemini 3的发布,我们最近收到了生态中大家的大量反馈,似乎人们终于意识到“Google AI的时代已经到来”。你感受过这种“反击”吗?你认为你能走那么远吗?这一角色的转变将如何影响团队? Koray Kavukcuoglu:随着大规模语言模型(LLM)的潜力对我来说越来越清晰,我可以诚实地说,虽然我认为 DeepMind 是一个尖端的人工智能实验室,但我也意识到,作为一名研究人员,我们在某些领域的投资很少。这对我来说是一个重要的教训。我们不能把自己局限于特定的架构,而必须拓宽探索的范围,创新是关键。我一直对我的团队诚实。大约两年半前,当我们开始认真研究大规模语言模型并启动 Gemini 项目时,我们远远落后于在许多方面发现最先进的技术。有很多事情我们不明白。我们领先了,但我们肯定正在追赶。这种搜索已经持续了很长时间,我相信我们现在处于班级的前列。我对我们的成长速度、团队活力和协作速度感到非常满意。然而,我们必须面对追赶过去的过程。在追赶的过程中,我们不仅要学习别人的优点,还要坚持自己的创新,找到自己独特的解决方案,无论是技术、模型、工艺还是我们操作设备的方式。很多人说谷歌太大了,工作效率低下,但我认为我们可以把这变成一个优势。我们有能力做独特的、大规模的事情,比如将 Gemini 同时引入所有 Google 产品。我对自己现在的处境感到满意,这得益于不断的学习和创新。这真是一个精彩的逆袭故事确认。当然,总会有比较,但我们的目标始终是建立通用智能,我们希望以正确的方式去做,并投入全部的心和创新。 Logan Kilpatrick:我认为接下来的六个月可能会像过去六个月和之前的六个月一样令人兴奋。感谢您抽出时间采访我,这真是太有趣了!明年再见,如果我们能在 I/O 之前再次交谈,我将不胜感激。看起来还是很长,但时间确实过得更快。我相信下周将会有 I/O 2026 的计划会议。再次祝贺您、DeepMind 团队和所有模型研究人员成功推出包括 Gemini 3 和 Nano Banana Pro 在内的系列产品。科雷·卡武科格鲁: 谢谢!这次互动非常棒。我要感谢团队中每个人的努力。谢谢你邀请我。
特别提示:以上内容(包括图片和视频,如有)均为上传发布由自有媒体平台“网易号”用户制作。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。