深夜重磅！谷歌发布最强AI大模型Gemini，在30项基准测试中“暴打”GPT-4-

千呼万唤始出来，谷歌最令人期待的大模型 Gemini 终于来了。

谷歌首席执行官 Sundar Pichai、Google DeepMind 首席执行官 Demis Hassabis 将其描述为“人工智能模型的一次巨大飞跃”，并称其“最终将影响谷歌的几乎所有产品”。 Sundar Pichai 在一项声明中表示，“这些是我们进入 Gemini 时代的第一批模型，也是我们今年初成立 Google DeepMind 时愿景的第一次实现。这个新时代的模型代表了我们作为公司所进行的最大的科学和工程努力之一。” 据介绍，此次谷歌共发布了 Gemini Nano、Gemini Pro 和 Gemini Ultra 三个模型。其中，

Gemini Nano 是一个更轻便的版本，可以在安卓设备上原生离线运行，如 Pixel 8 Pro；

Gemini Pro 是一个更强大的版本，它将很快为大量谷歌人工智能服务提供动力，并且从今天开始接入 Bard；

Gemini Ultra 是一个功能更强大的版本，是谷歌目前创造的最强大的大模型，主要是为数据中心和企业应用设计，计划于明年推出。

在性能比拼上，在 32 项基准测试中，Gemini 有 30 项领先于 GPT-4，其中包括多任务语言理解基准测试等广泛的整体测试，也有生成 Python 代码能力的测试。

图｜在包括文本和编码在内的一系列基准测试中，Gemini 的性能都超过了最先进的水平。

图｜在一系列多模式基准测试中，Gemini 的性能都超过了最先进的水平。

此外，Gemini Ultra 的得分率高达 90.0%，是首个在 MMLU（大规模多任务语言理解）中超越人类专家的模型，MMLU 综合运用了数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试世界知识和解决问题的能力。

在这些基准测试中，Gemini 最明显的优势来自于它理解视频和音频并与之交互的能力。这在很大程度上是一种设计：多模态从一开始就是 Gemini 计划的一部分。谷歌并没有像 OpenAI 创建 DALL-E 和 Whisper 那样，为图像和语音分别训练模型；而是从一开始就建立了一个“多感官”模型。 Demis Hassabis 表示，谷歌一直对非常通用的系统感兴趣，尤其感兴趣的是如何混合所有这些模式——从任何数量的输入和感官中收集尽可能多的数据，然后给出同样多样的响应。

目前，Gemini 最基本的模式是文本输入和文本输出，但像 Gemini Ultra 这样功能更强大的模型可以处理图像、视频和音频。 Demis Hassabis 表示，Gemini 还将具有动作和触摸等功能——更像是机器人类型的功能，随着时间的推移，将获得更多的感官，变得更有知觉，并在这一过程中变得更加准确和接地，“这些模型会更好地理解周围的世界”。当然，Gemini 模型仍然会产生幻觉。不过，基准并不能代表一切。Gemini 能力的真正考验最终将来自那些希望用它来集思广益、查找信息、编写代码等的日常用户。谷歌似乎特别将编码视为 Gemini 的杀手级应用，使用了一种名为 AlphaCode 2 的新代码生成系统，并称其性能优于 85% 的编码竞赛参赛者，比最初的 AlphaCode 高出 50%。不过，对谷歌来说同样重要的是，Gemini 显然是一个更高效的模型。它是在谷歌自己的张量处理单元（Tensor Processing Units）上训练出来的，运行速度比谷歌之前的 PaLM 等模型更快，成本也更低。在推出新模型的同时，谷歌还推出了新版 TPU 系统--TPU v5p，这是一款专为数据中心设计的计算系统，用于训练和运行大规模模型。

值得注意的是，Gemini 目前只有英语版本，其他语言版本将在未来陆续推出。但 Sundar Pichai 表示，该模型最终将集成到谷歌的搜索引擎、广告产品、Chrome 浏览器等。

那么，由 ChatGPT 带来的人工智能时代已经持续了一年，此次谷歌发布 Gemini，能否代表着谷歌已经迎头赶上了呢？或者说，如今的谷歌能否重新站在人工智能行业的最高点呢？

附：谷歌及 Alphabet 首席执行官 Sundar Pichai 发表的声明：

技术的每一次变革都是科学发现、人类进步及生活改善的重要契机。我坚信，我们正在经历的人工智能（AI）转型将是我们这一代人所经历的最深刻的变化，其影响远超过之前的移动互联网或网络革命。AI不仅能够为全球人民创造从日常到非凡的各种机会，还将在我们前所未见的规模上推动知识、学习、创造力和生产力的新浪潮。

这正是让我兴奋的地方：让 AI 为全世界的每一个人带来帮助。

作为一家把 AI 放在首位的公司，我们已经走过了将近八年的征程。进步的步伐不仅没有减缓，反而在加速：如今，数百万人正在利用我们产品中的生成式 AI 完成去年还无法实现的事情，比如回答更复杂的问题、使用新工具进行合作和创新。与此同时，全球的开发者正利用我们的模型和基础设施开发新的生成式 AI 应用，各种规模的初创公司和企业也在借助我们的 AI 工具实现增长。

这是不可思议的动力，但我们只是开始探索无限可能性。

我们正以大胆而负责任的态度进行这项工作。这意味着我们在研究中追求雄心勃勃的目标，开发能给人们和社会带来巨大益处的技术，同时建立防护措施，并与政府和专家共同应对随着 AI 能力增强而出现的风险。我们持续投入最优秀的工具、基础模型和基础设施，以我们的 AI 原则为指导，不断优化我们的产品和服务。

现在，我们正迈出旅程的新一步，推出了 Gemini，这是我们迄今为止最先进、最通用的模型，它在多个领先基准测试中表现出色。我们的第一个版本 Gemini 1.0，针对不同规模进行了优化，包括 Ultra、Pro 和 Nano。这些是我们进入 Gemini 时代的第一批模型，也是我们今年初成立 Google DeepMind 时愿景的第一次实现。这个新时代的模型代表了我们作为公司所进行的最大的科学和工程努力之一。我对即将到来的发展和 Gemini 为全球人民带来的机遇感到无比激动。

– Sundar

参考链接：

https://blog.google/technology/ai/google-gemini-ai/#capabilitieshttps://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf