亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

谷歌自研Axion處理器來了,為什么說它能改變游戲規則?

今年四月,在 Next ’24 上,谷歌推出了 Axion,这是其首款专为数据中心工作负载打造的自研 ARM 架构 CPU。转眼间就到了万圣节前夜,Axion 正式对外开放——不禁让人疑惑,这到底是给开发者的福利,还是谷歌在技术策略上的一个巧妙布局?😊

· 首先,什么是Google Axion?
​ ​​​ ​ ​​​ ∘ 核心到核心互连:关键拼图块
​ ​​​ ​ ​​​ ∘ Neoverse V2 更多详情
· 关于SPEC CPU 2017的深入探讨
· 与2024中期相比的变化
· 2024年末的结果
​ ​​​ ​ ​​​ ∘ 估计的SPEC CPU® 2017分数
​ ​​​ ​ ​​​ ∘ 一图胜千言——性价比
​ ​​​ ​ ​​​ ∘ 性能标准化
​ ​​​ ​ ​​​ ∘ SPEC CPU2017 — 1T — 基线
​ ​​​ ​ ​​​ ∘ SPEC CPU2017 — nT — 基线
​ ​​​ ​ ​​​ ∘ 16T和16C对比
· 运行时间和成本
· Google Axion:一场盛宴,而非戏法(南瓜头)

首先,我们先来看看什么是Google Axion

Google 的 Axion 基于 Arm Neoverse V2 CPU 架构设计,旨在为通用工作负载提供显著的性能提升。其核心能力是 Titanium 子系统,该子系统负责卸载像网络和安全这样的关键平台操作。这使得 Axion 处理器能够腾出更多资源,进而提升为客户工作负载提供的性能。此外,Titanium 还卸载了 Hyperdisk 的存储 I/O 处理,Hyperdisk 是 GCP 的新块存储服务,它将存储性能与实例大小解耦,并可实时动态调整。此外,C4A 虚拟机通过使用均匀内存访问(UMA)置于单个节点上,以实现最佳的内存性能。

简而言之,C4A 系列的主要特点有:

  • 基于 ARM Neoverse V2 CPU,使用 ARM v9.0-A 64 位指令集。
  • 缓存子系统包括:
    — 80MB 的 L3 缓存。
    — 每个核心配备 2MB 的私有 L2 缓存。
    — 每个核心配备 64KB 的 L1 指令缓存和 64KB 的 L1 数据缓存。
  • 支持多达 72 个 vCPU 和高达 576GB 的 DDR5 内存——传输速率为 5600MT/s。
  • 统一内存访问布局,以优化内存访问。
  • 网络选项:
    — 标准网络配置,带宽可达 50Gbps。
    — VM Tier_1 网络,带宽可达 100Gbps(100吉比特每秒)。
  • 支持性能监控单元(PMU),以提供深入的性能分析。

以下是对Neoverse V2核心的结构图。

Arm Neoverse V2 在 2023 Hot Chip 大会演讲

核心技术互联:拼图中的重要部分

虽然核心本身只是 Axion 架构的一个组成部分,但核心之间的连接同样重要。Neoverse V2 使用了 CMN-700 网格互联方案。快速高效的网格对多线程工作负载至关重要,还对操作系统中的 CFS 调度程序不断进行的进程重新平衡以及核心之间的频繁通信至关重要。目标是最大限度地减少延迟,确保进程快速交接,提升整体效率。

核心间延迟测试

更多关于 Neoverse V2 的内容

关于 Neoverse V2 的更多信息,请参阅详情。

SPEC CPU 2017的深度分析

在这篇文章中,我将专注于Axion在C4A实例上的性能表现,内容相比我在Medium上的先前SPEC CPU分析要更简洁。若您想深入了解SPEC CPU基准、测试方法和复现技术,我推荐两份重要资料。

  • 我的 SPEC CPU® 2017 的 2024 年中期刷新测评,将更加深入地探讨这些话题。
SPEC CPU® 2017 和 GCP — 2024 年中期刷新基准测试基准测试是我个性中不可或缺的一部分,深深植根于我的思考方式中。比较分析真是有趣极了……medium.com
  • 其次,谷歌表格中可查看的完整性能数字。
相比2024年中期的变化

相比起之前的论文,2024年末版包含了以下更新:

  • 操作系统:升级到 Ubuntu 24.04.1,内核版本为 6.8.0–1015-gcp
  • 工具集与编译器:升级为 GCC 14.2。
  • PerfKit基准测试器:所有测试均使用 PKB 版本 v1.12.0–4998-g518f5b57,版本标签为 518f5b5
  • 新增内容:C4A实例系列引入了 Google Axion。
[试用 C4A,Google 首个 Axion 处理器 | Google Cloud 博客

这款定制的 Arm 处理器主要用于处理通用工作负载,如网页服务器、应用服务器和数据库等](https://cloud.google.com/blog/products/compute/try-c4a-the-first-google-axion-processor?source=post_page-----b6c38f14c21c--------------------------------)

这些更新保证最新的优化和提升在基准测试中体现。

2024年底的结果
预计的SPEC CPU® 2017得分

在开始讨论性能数据之前,重要的是要注意,这里提到的所有的SPEC CPU® 2017分数均为估算值。这些估算值尚未正式提交或审核。

一图胜千言,一目了然 — 价性比

我们先来看看价格与性能比。Axion不仅在速度方面具有竞争力,它在速度上能与GCP上的一些顶级机器媲美,同时还提供最新的功能支持。更重要的是,它是最经济实惠的选择之一。这种低成本高效率的结合,带来了超出预期的出色性价比。

这次我想从性价比下手。Axion不仅速度可以媲美GCP上功能最全的机器,而且价格也更实惠。性价比高得惊人,这可以说是碾压式的领先。

尽管截至2024年中SPEC CPU刷新之前,T2D已老化且不支持最新的GCP功能,它仍然在价格性能领域占据主导地位。请参阅之前的2024年中期报告以获取更深入的分析。Axion则改变了之前的局面。请记住,没有不好的产品,只有不合适的价格

我也想特别提到Google Cloud在成本优化方面所做的出色的工作。在GCP上,较新的机器类型通常与较旧的版本相比成本相同或略低。但它们的性能绝对不低。实际上,新一代的性能始终更高——有时甚至更高得多——而价格并未增加。这带来了两大好处:你可以在升级到最新一代后,用更少的核心获得同样的性能,或者保持相同的核心数量,同时享受显著提升的性能。这无疑是一个效率和价值的双赢局面。

性能优化

SPEC CPU 2017 Rate-n(恒定频率)

在之前的2024年中期系列中,我介绍了这一部分,旨在帮助最小化比较不同CPU系列时的变量,这些系列通常具有固有的差异——例如频率分档、最大涡轮时钟、缓存设计、子系统、同时多线程(SMT),以及可能的编译器优化。在这当中,英特尔Emerald Rapids(N4型)证明是最有效率的选择,其次是AMD的Milan,属于C2D系列。Axion排名第三,提供了强大的浮点性能,与Emerald Rapids不相上下,但其整数性能略逊于x86对手。有趣的是(或者说并不奇怪),AMD的Genoa在C3D系列中表现出相当不错的整数性能,但在浮点工作负载方面则较为逊色。

从另一个角度来看,采用较旧的Neoverse N1架构的T2A在性能上与英特尔的Sandy Bridge和Ivy Bridge等较早的x86 CPU相当——这些CPU分别在2011年和2012年发布。然而,如果我们再次查看性价比图表,T2A凭借其激进的价格策略在性价比图表中排名第三。虽然成本效益高,我还是要提醒大家,Neoverse N1可能不适合许多对延迟敏感的应用场景,使用时需要谨慎。

SPEC CPU2017 1T 基础

SPECint_rate_base2017_1t 和 SPECfp_rate_base2017_1t

到目前为止,这种流程已经变得相当熟悉了——使用SPEC CPU 2017基准套件来比较所有GCP机器系列。在热力图中,绿色表示更强的结果,红色则表示较弱的性能。此分析利用了最新的工具集和编译器,我没有发现基准测试结果有显著的变化。AMD的性能相对保持不变,既没有显著的提升也没有明显的下降,而英特尔在某些领域出现了一些退步。与此同时,Axion的C4A实例,搭载Neoverse V2,通过提供最佳的整体性能脱颖而出。仅在少数特定的基准测试中,Neoverse V2未能占据最强的位置。

  • 520.omnetpp_r — 它的目的是评估CPU在运行大规模系统仿真(涉及随时间变化的各种事件)时的表现。
  • 548.exchange2_r — 它的目的是测试CPU处理与AI和问题解决过程中的优化算法相关的密集型任务的性能。
  • 557.xz_r — 它的目的是衡量CPU在执行这种现代压缩方法的数据压缩和解压缩任务时的效率。
  • 521.wrf_r — 它的目的是评估CPU处理复杂流体动力学和物理模拟(如大规模天气预报或大气建模应用)的能力。
  • 544.nab_r — 它的目的是测试CPU处理计算生物学或化学中常见任务(如模拟生物系统中的分子相互作用和行为)的效率。
SPEC CPU2017 — nT — 基础

SPECint_rate_base2017_nt 和 SPECfp_rate_base2017_nt(这两个术语是计算领域中特定的基准或指标)

在单线程工作负载中,Axion 表现优异,并且在大多数领域都名列前茅,仅有一些例外。然而,在多线程工作负载中,Neoverse V2架构的表现并不一致。虽然在某些情况下,Neoverse V2架构表现居中,但在其他情况下,Axion则显著领先,明显超越竞争对手。值得注意的是,对于某些基准测试,Axion不仅获得第一名,而且占据绝对优势,并展现出远超其他竞争者的优异表现。

让我们来拆解一下Axion:
Axion在以下领域真正出类拔萃,在这些方面,Axion的表现远远超越了竞争对手。

  • 525.x264_r — 它的目的是测试CPU在视频编码任务中的性能,衡量CPU压缩视频数据的效率,这需要进行大量的算术和内存操作,适用于多媒体处理。Axion的表现比第二名C3D Genoa高出11.21%。
  • 503.bwaves_r — 它的目的是评估CPU处理大规模科学计算的能力,特别是涉及流体力学的计算,这是物理模拟、天气预报和工程应用中常见的计算任务。Axion的表现比第二名N4 Emerald Rapids高出35.07%。
  • 519.lbm_r — 它的目的是测试CPU执行复杂计算任务的能力,特别是模拟流体行为,适用于航空航天、汽车流体模拟等科学领域。Axion的表现比第二名N4 Emerald Rapids高出28.57%。
  • 549.fotonik3d_r — 它的目的是评估CPU在高性能计算任务中的效率,尤其在模拟电磁波行为方面,这对于通信、光学和光子电路设计非常有用。Axion的表现比第二名N4 Emerald Rapids高出37.62%。

相反,Axion不仅没有在以下领域领先,反而远远落后于其他竞争对手。

  • 541.leela_r — 该基准用于评估CPU在与搜索算法和神经网络推理相关任务中的表现。此基准强调了CPU在处理游戏等AI工作负载中典型的复杂决策过程的能力。Axion相比C3D Genoa的最好成绩低13.67%。
  • 557.xz_r — 该基准用于衡量CPU在现代数据压缩和解压缩任务中的效率。Axion相比C2D Milan的最佳成绩低30.59%。
  • 507.cactuBSSN_r — 该基准用于评估CPU在科学计算中的表现,特别是在相对论数值模拟中的复杂偏微分方程求解方面。这种工作负载高度要求,涉及需要大量计算能力的大规模物理模拟。Axion相比C2D Milan的最佳成绩低11.54%。
  • 521.wrf_r — 该基准用于评估CPU处理大规模天气预报或大气建模应用中的复杂流体动力学和物理模拟的能力。Axion相比C2D Milan的最佳成绩低15.58%。
  • 544.nab_r — 该基准用于测试CPU处理计算生物学和化学中通常涉及的任务的效率,例如模拟生物系统中的分子相互作用和行为。Axion相比C4 Emerald Rapids的最佳成绩低19.83%。

没有一种架构是解决所有问题的万能银弹;进行全面的数据驱动评估始终是做出明智决策的重要部分。

16T 与 16C

这里比较的是16T和16C两种型号

在这次比较中,有以下两个指导原则:

  • 首先,我们将在同一价格范围内评估CPU,比较开启了SMT和未开启SMT的实例。这通常排除了计算优化型实例家族(比如C2、C3、C3D和C4),但有一个例外:C4A,由于其激进的价格优势,它被包含在内。
  • 其次,我们将努力保持价格在相似范围内。例如,由Intel Emerald Rapids驱动的n4-standard-16实例的月度列表价格为581.14美元/月,而基于Neoverse V2的c4a-standard-16实例的月度列表价格为550.48美元/月。

从中浮现出来两个重要的观点:

  • c4a-standard-16 的性能几乎让人感觉到了超现实的效果。它不仅比 n4-standard-16 的价格略低,而且性能几乎是它的近两倍。
  • 更令人惊讶的是,c4a-standard-8 的性能与 n4-standard-16 相媲美——价格正好是它的一半。每月只需 $275.24,性价比超高。
运行时间与成本

正如之前的实验一样,我同时考虑了总运行时长和相关成本。值得注意的是,PKB 机器的运行时长以及为了确保 GCC 14.2 能正确编译 SPEC CPU 2017 所需的初步检查并未包含在这些计算中。不过,32多天测试的总成本最终不到 500 美元。鉴于当前对成本控制的关注,这笔支出还算合理。对于想要做类似测试的人来说,这说明彻底的基准测试在经济上是可行的,不会花太多钱。

Google 轴子:不是恶作剧,而是一场好戏 🎃

Google Axion的发布不仅仅是一次硬件更新;它不仅是在Google Cloud,也是在整个云计算领域的一次地震式的转变。正如我们所讨论的,Axion的Neoverse V2架构在性能和性价比方面表现出色,挑战了现状,并在一些关键领域超出了预期。

虽然不是在所有基准测试中的全能冠军,但Axion在通用工作负载领域的优势,加上其极具竞争力的价格,使其成为多种应用场景的极具吸引力的选择。仅其卓越的价格性能比就堪称突破性,在不牺牲性能的情况下,显著降低成本。

谷歌对持续进步的承诺在Axion的出色功能和成本效益上显而易见。它不仅让开发人员感到兴奋,也充分展示了云计算创新的力量,因此Axion绝对值得我们认真考虑。

點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消