谷歌新推出的Gemma29BAI模型击败了Llama-38B

导读谷歌发布了Gemma2系列的两个新模型，分别具有90亿和270亿个参数。这些模型旨在与现有的大型语言模型竞争，在各种基准测试中提供高性能。90...

谷歌发布了Gemma2系列的两个新模型，分别具有90亿和270亿个参数。这些模型旨在与现有的大型语言模型竞争，在各种基准测试中提供高性能。90亿模型以其效率和与Llama-380亿模型的竞争力而闻名，而270亿模型据称可以与具有高达700亿个参数的模型相媲美。这两种模型都有特定的硬件要求以实现最佳性能，并且可用于商业用途。

关键要点

模型变体：Gemma2有两个版本-90亿个参数(9B)和270亿个参数(27B)。

表现：

9B型号在多个基准测试中均优于Llama-38B。

27B模型与约700亿个参数的模型具有竞争力，并且在LMSys聊天机器人领域表现出色。

硬件要求：

27B型号需要高端硬件，例如NvidiaH100、带有80GBVRAM的A100或TPU。

9B型号更易于访问，适合NvidiaL4或T4等较小的GPU。

训练：

27B模型使用TPU5对13万亿个token进行了训练。

9B模型使用TPU4s在8万亿个token上进行训练。

Tokenizer：使用具有256,000个标记的标记器，增强其多语言功能。

许可证：商业许可，允许多种使用情况。

部署：可部署在GoogleCloud和VertexAI上，一键部署选项即将推出。

技术增强：

融入了注意力机制的变化。

使用基于不同超参数的模型合并。

基准和测试：

9B模型在各种任务中的表现始终优于Llama-38B。

27B模型为LMSys聊天机器人领域的无限制重量模型树立了新的最高水平。

输出质量：

两种模型在创造性写作和逐步推理任务方面都表现出色。

27B模型提供了更详细、上下文更丰富的响应。

实验和使用：

可在AIStudio上进行测试。

在代码执行和复杂推理方面表现出色

SamWitteveen撰写了一篇精彩的概述，详细介绍了这些最新的AI大型语言模型，以及它们如何与现有的大型语言模型竞争，以在各种基准和应用程序中提供出色的性能。Gemma2系列提供两种不同的变体，每种变体都针对特定的需求和要求量身定制：

90亿参数模型在设计时充分考虑了效率，使其成为Llama-380亿参数模型的强大竞争对手。该模型在性能和资源利用率之间取得了平衡，使其能够被更广泛的用户和应用程序所接受。

270亿参数模型非常强大，能够与多达700亿参数的模型相媲美。该模型专为应对最苛刻的应用而设计，具有无与伦比的性能和准确性。

广泛的基准测试揭示了这些模型的强大功能。90亿参数模型在几个关键指标上始终优于Llama-3的80亿参数模型，而270亿参数模型则与明显更大的模型不相上下。这些结果展示了Google对模型效率和有效性的不懈追求，突破了大型语言模型的极限。

为了确保最佳性能，Gemma2模型具有特定的硬件要求。270亿参数模型需要高端硬件，例如

NvidiaH100、A100(80GBVRAM)或TPU，这反映了其巨大的计算需求。另一方面，90亿参数模型注重效率，可以在NvidiaL4或T4等较小的GPU上流畅运行，从而使更广泛的用户群更容易使用它。

使用大量训练数据构建

Gemma2模型之所以表现优异，关键因素之一是它们所接触的大量训练数据。270亿参数模型已在惊人的13万亿个标记上进行了训练，而90亿参数模型已在令人印象深刻的8万亿个标记上进行了训练。如此大量的数据使模型能够深入了解语言的细微差别、上下文和模式，从而产生高度准确且与上下文相关的输出。

Google专家团队在Gemma2型号中加入了多项技术增强功能，进一步增强了其功能。这些增强功能包括：

架构变化和注意力机制优化

利用合成数据增强训练

模型合并技术，结合不同模型的优势

这些进步提高了模型的卓越性能和效率，使其从前代产品和竞争对手中脱颖而出。

商业用途

90亿和270亿参数模型均可通过商业许可获得，让企业能够将其功能用于各种应用。部署选项包括GoogleCloud和VertexAI，可提供可扩展且灵活的解决方案，可根据特定需求进行量身定制。

除了核心功能外，Gemma2模型还配备了多项有价值的功能。Google已开源其文本水印技术，确保生成内容的真实性和完整性。这些模型还支持高质量的思路和markdown输出，从而增强了它们在不同领域的多功能性和可用性。

基准测试

严格的基准测试和测试证明了Gemma2模型在LMSys聊天机器人领域的竞争优势。它们还展示了卓越的创意写作和代码生成能力，凸显了其改变各种行业和应用的潜力。

为了协助测试和实验，Gemma2模型可通过AIStudio访问。它还具有本地部署的潜力，让用户可以在自己的环境中探索和利用模型的功能。

Google的Gemma2系列代表了大型语言模型发展的重要里程碑。随着90亿和270亿参数模型的推出，Google再次展示了其对突破自然语言处理界限的承诺。这些模型以广泛的训练数据、先进的技术增强和灵活的部署选项为后盾，有望在各个领域产生深远影响。随着企业和研究人员继续探索这些模型的潜力，我们可以期待看到突破性的应用和创新，它们将塑造人工智能和自然语言理解的未来。