设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

Stable Diffusion 3 模型测试:英特尔 Gaudi2 加速器比英伟达 H100 最多快 55%

2024/3/12 14:09:15 来源:IT之家 作者:故渊 责编:故渊

IT之家 3 月 12 日消息,Stability AI 近日发布新闻稿,表示在文生图模型 Stable Diffusion 3 测试中,英特尔 Gaudi2 加速器比英伟达 H100 最多快 55%。

根据新闻稿,Stable Diffusion 3 模型参数范围在 8 亿到 80 亿之间,本次测试使用的是 20 亿参数版本。测试选手包括英伟达的 H100“Hopper” 80 GB、A100“Ampere” 80 GB 和英特尔 Gaudi2 96 GB 加速器。

在保持加速器和节点数量不变的情况下,英特尔 Gaudi2 阵列使用 2 个节点、16 个加速器和每个加速器 16 个恒定批处理大小(共 256 个),每秒可生成 927 幅图像,而 H100 阵列每秒生成 595 幅图像,A100 阵列每秒生成 381 幅图像。

在节点数相同的情况下,Gaudi2 阵列每秒可生成 12654 幅图像,每台设备每秒可生成 49.4 幅图像;而老一代 A100 "Ampere" 阵列每秒可生成 3992 幅图像,每台设备每秒可生成 15.6 幅图像。

Stability AI 表示:

在使用 80 亿参数的 Stable Diffusion 3 模型进行推理测试时候,Gaudi2 芯片的推理速度与使用基本 PyTorch 的 Nvidia A100 芯片相近。然而,经过 TensorRT 优化后,A100 芯片生成图像的速度比高迪 2 快 40%。

我们预计,经过进一步优化后,Gaudi2 在该模型上的性能将很快超过 A100。在我们使用基本 PyTorch 的 SDXL 模型上进行的早期测试中,Gaudi2 在 3.2 秒内生成了 30 steps 1024x1024 图像,而 A100s 上的 PyTorch 为 3.6 秒,A100 上使用 TensorRT 的生成速度为 2.7 秒。

IT之家附上报告原文地址,感兴趣的用户可以深入阅读。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:英特尔

软媒旗下网站: IT之家 辣品 - 超值导购,优惠券 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 魔方 酷点桌面 Win7优化大师 Win10优化大师 软媒手机APP应用