Nvidia

Nvidia #

例如： NVIDIA GeForce RTX 3060 Ti

NVIDIA: 即英伟达，品牌名
GeForce: 是显卡系列名称
- Tesla: 专业级显卡,
  - Data Center
  - 数值计算
  - 深度学习、人工智能和高性能计算
- Quadro: 专业级显卡
  - NVIDIA RTX
  - 图形计算
  - 专业可视化设计和创作
- GeForce: 普通消费级显卡
  - 图形计算
  - 游戏娱乐领域
RTX: 代表“高端”，一般是带光影追踪功能，只出现在 20 系显卡及以上
- GTX 是系列中的高端显卡
- GTS 是系列中的中端显卡
- GT 是系列中的入门级显卡
30: 代表的是第几代
- 20
- 30
- 40
6: 是显卡性能档次的定位
- 89 是高端
- 567 是中端
- 1234 是低端
0: 不用管这位数字，一般都是 0
Ti
- Ti 增强
- Super 小增强
- SE 阉割
- M 等于移动端如 MX, Max-Q

AD102 (76.3B): 4090
AD103 (45.9B): 4080
AD104 (35.8B): 4070Ti
GA102 芯片，对应 3090ti, 3090, 3080ti, 3080
GA104 芯片，对应 3070ti, 3070, 3060ti
GA106 芯片，对应 3060, 3050ti
GA107 芯片，对应 3050

Nvidia 显卡系列 #

参考：

[Nvidia] General GPU Support

Tesla: 专业级显卡 #

用于对抗 AMD 的 FireStream 系列
NVIDIA H100 Tensor Core GPU
- 至于 H 系列是目前主打的旗舰产品，未来都将会是 H 系列占主导
- H100 是一款针对大模型专门优化过的芯片，使用台积电 5nm 定制版本制程（4N）打造，单块芯片包含 800 亿晶体管
- 同时也是全球首款 PCI-E 5 和 HBM 3 显卡，一块 H100 的 IO 带宽就是 40 terabyte 每秒
NVIDIA A100 Tensor Core GPU
NVIDIA A40
NVIDIA A30
NVIDIA A16
NVIDIA A10
Tesla V100
Tesla P100
Tesla P40
Tesla P4
Tesla M60
Tesla M40
Tesla M10
Tesla M4
Tesla K40
Tesla K20

Quadro: 专业级显卡 #

RTX A6000 Ada
RTX A6000
Quadro RTX 8000
Quadro RTX 6000
Quadro RTX 5000
Quadro RTX 4000
Quadro GV100
Quadro GP100
Quadro P6000
Quadro P5000
Quadro P4000
Quadro P2000
Quadro P1000
Quadro P600
Quadro P500
Quadro P400
Quadro M6000
Quadro M5000
Quadro M4000
Quadro M2000
Quadro K6000
Quadro K5200
Quadro K2200
Quadro K1200
Quadro K620

GeForce: 普通消费级显卡 #

参考：Compare: GeForce Graphics Cards

GeForce RTX 4090
- 大模型的训练用 4090 是不行的，但推理（inference/serving）用 4090 不仅可行，在性价比上还能比 H100 稍高。4090 如果极致优化，性价比甚至可以达到 H100 的 2 倍。
GeForce RTX 4080
GeForce RTX 4070 Ti
GeForce RTX 4070
GeForce RTX 4060
GeForce RTX 4050
GeForce RTX 3090
GeForce RTX 3080 Ti Laptop GPU
GeForce RTX 3080 TI
GeForce RTX 3080
GeForce RTX 3070 TI
GeForce RTX 3070
GeForce RTX 3060 TI
GeForce RTX 3060
GeForce RTX 3050 TI
GeForce RTX 3050
NVIDIA TITAN RTX
GeForce RTX 2080 Ti
GeForce RTX 2080 Super
GeForce RTX 2080
GeForce RTX 2070 Super
GeForce RTX 2070
GeForce RTX 2060 Super
GeForce RTX 2060
GeForce GTX 1660 Ti Max-Q
GeForce GTX 1660 Ti
GeForce GTX 1660
GeForce GTX 1650 Ti Max-Q
GeForce GTX 1650 Ti
GeForce GTX 1650 Max-Q
GeForce GTX 1650
NVIDIA TITAN V
NVIDIA TITAN Xp
NVIDIA TITAN X
GeForce GTX 1080 Ti
GeForce GTX 1080
GeForce GTX 1070 Ti
GeForce GTX 1070
GeForce GTX 1060
GeForce GTX 1050 Ti
GeForce GTX 1050
GeForce GT 1030
GeForce GT 1010
GeForce GTX TITAN X
GeForce GTX 980 Ti
GeForce GTX 980
GeForce GTX 980M
GeForce GTX 970
GeForce GTX 970M
GeForce GTX 960
GeForce GTX 950
GeForce GTX 750 Ti
GeForce GTX 750
GeForce GTX 745

1999
- GeForce 256
2000
- GeForce 2 series
2001
- GeForce 3 series
2002
- GeForce 4 series
2003
- GeForce FX series
2004
- GeForce 6 series
2005
- GeForce 7 series
2006
- GeForce 8 series
2008
- GeForce 9 series
- GeForce 200 series
2009
- GeForce 100 series
- GeForce 300 series
2010
- GeForce 400 series
- GeForce 500 series
2012
- GeForce 600 series
2013
- GeForce 700 series
2014
- GeForce 800M series
- GeForce 900 series
2016
- GeForce 10 series
2018
- GeForce 20 series
2019
- GeForce 16 series
2020
- GeForce 30 series
2022
- GeForce 40 series

Tegra #

Tegra（中国大陆官方中文名称：“图睿”）是由 NVIDIA 开发的系统单芯片系列产品，2008 年 6 月 1 日正式发表，替代之前的 GoForce 系列。主要用于手持式装置。Tegra 可搭配 NVIDIA 专为智能手机及平板电脑开发的 NVIDIA Icera 系列芯片组。Tegra 的主要竞争对手是高通和德州仪器的对应产品。

Nvida 系列 #

Nvidia HGX #

NVIDIA HGX 是一个计算平台，通过 NVLink 和 NVSwitch 将多个 GPU 串连起来，提供强大的 AI 运算能力。

HGX 是一个计算模组，DGX 是一个完整的主机

Nvidia DGX #

2023 年 5 月 29 日，NVIDIA DGX™ 超级计算机发布

NVIDIA DGX 是 AI 超级计算机。硬件方面包含：GPU、CPU、内存、硬盘、散热系统、软件、操作系统等等，也就是说，除了显示器、键盘、鼠标，它全都有。

NVIDIA 今日宣布推出第四代 NVIDIA® DGX™ 系统，这是全球首个基于全新 NVIDIA H100 Tensor Core GPU 的 AI 平台，它也是全球最先进的企业级 AI 基础设施。DGX H100 系统能够满足大型语言模型、推荐系统、医疗健康研究和气候科学的大规模计算需求。每个 DGX H100 系统配备八块 NVIDIA H100 GPU，并由 NVIDIA NVLink® 连接，能够在新的 FP8 精度下达到 32 Petaflop 的 AI 性能，比上一代系统性能高 6 倍。

NVIDIA DGX™ A100
NVIDIA DGX H100

产品 #

据统计 NVIDIA 当前在售的 AI 加速卡至少有 9 款型号，其中高性能的有 4 款，分别是 V100, A800, A100 及 H100

V100 加速卡至少 1 万美元，按当前的汇率，约合 6.9 万元人民币；
A800 售价 1.2 万美元，约合人民币 8.7 万元，市场一度炒高到 10 万元人民币；
- 服务器现货更是从 120 万涨到了 140 万元左右
A100 售价在 1.5 万美元，约合人民币 10.8 万元；
H100 加速卡是 NVIDIA 当前最强的，售价 3.65 万美元，约合 26.4 万元人民币

GPU 架构 #

1. Tesla: 市面已经没有相关显卡
1. Fermi: GeForce 400, 500, 600, GT-630
1. Kepler: Tesla K40/K80, GeForce 700, GT-730
1. Maxwell: Tesla/Quadro M series GeForce 900, GTX-970
1. Pascal: Tesla P100, GTX 1080, GTX 1070, GTX 1060
1. Votal: Tesla V100, GTX 1180
1. Turing: T4, GTX 1660 Ti, RTX 2060
1. Ampere: A100, GTX3080
1. Hopper: H100
1. Ada Lovelace: 4090

14. Blackwell #

13. `Ada Lovelace` vs Hopper #

Ada Lovelace (consumer) #

officially announced on 2022-09-20

RTX 40 系列
- GeForce RTX 4090

Hopper (professional) #

H100
- 今年 3 月，英伟达发布了新一代基于 4nm 工艺，拥有 800 亿个晶体管、18432 个核心的 H100 GPU
- H100 加速卡是 NVIDIA 当前最强的，售价 3.65 万美元，约合 26.4 万元人民币
- 芯片的数据传输速率为 800GB/s
H800
- 芯片的数据传输速率为 400GB/s

12. Ampere (consumer, professional) #

安培微架构（Ampere）是 NVIDIA 于 2020 年 5 月发布的一个 GPU 架构。用以取代图灵微架构（Turing microarchitecture）。命名为“安培”以向法国物理学家安德烈-马里·安培（André-Marie Ampère）致敬。Ampere 架构拥有晶体管达 540 亿，是三星 8nm 级芯片。是世界上晶体管最多的芯片，直到后来被苹果 M1 Max 击败。

RTX 30 系列
GeForce MX series
- GeForce MX570 (mobile) (GA107)
GeForce 20 series
- GeForce RTX 2050 (mobile) (GA107)
GeForce 30 series
- GeForce RTX 3050 Laptop GPU (GA107)
- GeForce RTX 3050 (GA106 or GA107)
- GeForce RTX 3050 Ti Laptop GPU (GA107)
- GeForce RTX 3060 Laptop GPU (GA106)
- GeForce RTX 3060 (GA106 or GA104)
- GeForce RTX 3060 Ti (GA104 or GA103)
- GeForce RTX 3070 Laptop GPU (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3070 Ti Laptop GPU (GA104)
- GeForce RTX 3070 Ti (GA104 or GA102)
- GeForce RTX 3080 Laptop GPU (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3080 12GB (GA102)
- GeForce RTX 3080 Ti Laptop GPU (GA103)
- GeForce RTX 3080 Ti (GA102)
- GeForce RTX 3090 (GA102)
- GeForce RTX 3090 Ti (GA102)
Nvidia Workstation GPUs (formerly Quadro)
- RTX A1000 (mobile) (GA107)
- RTX A2000 (mobile) (GA107)
- RTX A2000 (GA106)
- RTX A3000 (mobile) (GA104)
- RTX A4000 (mobile) (GA104)
- RTX A4000 (GA104)
- RTX A4500 (GA102)
- RTX A5000 (mobile) (GA104)
- RTX A5000 (GA102)
- RTX A5500 (GA102)
- RTX A6000 (GA102)
Nvidia Data Center GPUs (formerly Tesla)
- Nvidia A2 (GA107)
- Nvidia A10 (GA102)
- Nvidia A16 (4 × GA107)
- Nvidia A30 (GA100)
- Nvidia A40 (GA102)
- Nvidia A100 (GA100) / NVIDIA A100 Tensor Core GPU
  - 芯片的数据传输速率为 600GB/s
- NVIDIA A800 40GB
  - 芯片的数据传输速率为 400GB/s
  - A800 只影响多卡互联的性能，而计算能力完全保留

11. Turing vs Volta #

Turing（consumer 消费） #

2018

RTX 20 系列
GTX 16 系列
Tesla T4
- 按照英伟达的说法，Tesla T4 是为推理而生的。
  - 在语音识别模型 DeepSpeech 2 上，T4 比 P4 的 5 倍还要快；
  - 在神经网络翻译模型 GNMT 上，T4 的速度接近 P4 的 4 倍；
  - 在图像识别模型 ResNet-50 上，T4 也接近 P4 的 3 倍。
- 在 T4 诞生之前，P4 在深度学习界的地位，也是很崇高的。

Volta（ professional 专业） #

2017

V100 32GB
V100 16GB

10 Pascal #

2016

GTX 10 系列
P100
Tesla P4
- 2016 年 9 月 13 日，GTC China 大会上，NVIDIA 发布了 Tesla P4 GPU。这是一块采用 Pascal 架构、2560 个 CUDA 核心、8GB GDDR5 显存、显存带宽 192.0GB/S 半高 Data Center 系列 GPU。
- Tesla P4 的 GPU 算力为 6.1，核心代号为 GP104，同 GTX1080 一样。具有 4 个 GPC，20 个 SM 单元，每个 GPC 有 5 个 SM，每个 SM 有 128 个 CUDA 核心，共计 2560 个 CUDA 核心，提供 5.5TFLOPS 的单精度计算性能，，256KB 寄存器，96KB 的 Shared Memory，总共 48KB 的 L1 缓存和 8 个纹理单元。
- P4 是专业卡，其实就是老黄为了坑钱给专业人士弄的卡。性能和 1080 一样。做某些程序时 1080 会负优化，但有办法可以解除这个限制。所以专业卡一般等于智商税

9. Maxwell #

2014

GTX 900 系列

8. Kepler #

2012

7. Fermi #

2010

6. Tesla #

2008

5. Curie #

4. Rankine #

3. Kelvin #

2. Celsius #

1. Fahrenheit #

nvml: `NVIDIA Management Library` #

A C-based API for monitoring and managing various states of the NVIDIA GPU devices. It provides a direct access to the queries and commands exposed via nvidia-smi. The runtime version of NVML ships with the NVIDIA display driver, and the SDK provides the appropriate header, stub libraries and sample applications. Each new version of NVML is backwards compatible and is intended to be a platform for building 3rd party applications.

Nvidia 驱动 #

apt install -y ubuntu-drivers-common

# 查询推荐的 nvidia 驱动
ubuntu-drivers devices

# 按推荐安装驱动
apt install -y nvidia-driver-535

# CUDA Toolkit: 12.2
# Driver Version: 535.54.03
# Release Date: 2023.6.26
curl -LO https://us.download.nvidia.com/tesla/535.54.03/NVIDIA-Linux-x86_64-535.54.03.run
bash NVIDIA-Linux-x86_64-535.54.03.run

# CUDA Toolkit: 12.0
# Driver Version: 525.60.13
# Release Date: 2022.12.5
curl -LO https://us.download.nvidia.com/tesla/525.60.13/NVIDIA-Linux-x86_64-525.60.13.run
bash NVIDIA-Linux-x86_64-525.60.13.run

# CUDA Toolkit: 11.7
# Driver Version: 515.86.01
# Release Date: 2022.11.22
curl -LO https://us.download.nvidia.com/tesla/515.86.01/NVIDIA-Linux-x86_64-515.86.01.run
bash NVIDIA-Linux-x86_64-515.86.01.run

# CUDA Toolkit: 11.6
# Driver Version: 510.108.03
# Release Date: 2022.11.22
curl -LO https://us.download.nvidia.com/tesla/510.108.03/NVIDIA-Linux-x86_64-510.108.03.run
bash NVIDIA-Linux-x86_64-510.108.03.run

# CUDA Toolkit: 11.4
# Driver Version: 470.161.03
# Release Date: 2022.11.22
curl -LO https://us.download.nvidia.com/tesla/470.161.03/NVIDIA-Linux-x86_64-470.161.03.run
bash NVIDIA-Linux-x86_64-470.161.03.run

# CUDA Toolkit: 11.2
# Driver Version: 460.106.00
# Release Date: 2021.10.26
curl -LO https://us.download.nvidia.com/tesla/460.106.00/NVIDIA-Linux-x86_64-460.106.00.run
bash NVIDIA-Linux-x86_64-460.106.00.run

# CUDA Toolkit: 11.0
# Driver Version: 450.216.04
# Release Date: 2022.11.22
curl -LO https://us.download.nvidia.com/tesla/450.216.04/NVIDIA-Linux-x86_64-450.216.04.run
bash NVIDIA-Linux-x86_64-450.216.04.run

# CUDA Toolkit: 10.2
# Driver Version: 440.118.02
# Release Date: 2020.9.30
curl -LO https://us.download.nvidia.com/tesla/440.118.02/NVIDIA-Linux-x86_64-440.118.02.run
bash NVIDIA-Linux-x86_64-440.118.02.run

# CUDA Toolkit: 10.1
# Driver Version: 418.226.00
# Release Date: 2021.10.26
curl -LO https://us.download.nvidia.com/tesla/418.226.00/NVIDIA-Linux-x86_64-418.226.00.run
bash NVIDIA-Linux-x86_64-418.226.00.run

# CUDA Toolkit: 10.0
# Driver Version: 410.129
# Release Date: 2019.9.4
curl -LO https://us.download.nvidia.com/tesla/410.129/NVIDIA-Linux-x86_64-410.129.run
bash NVIDIA-Linux-x86_64-410.129.run

卸载 nvidia driver #

# 方法一
dpkg -l | grep -i nvidia
sudo apt-get remove --purge '^nvidia-.*'

# If the ubuntu-desktop package is removed, reinstall it with the following command:
# sudo apt-get install ubuntu-desktop

# 方法二
sh NVIDIA-Linux-x86_64-535.54.03.run --uninstall

nvidia-smi #

nvidia-smi 右上角显示的 CUDA Version: 是指支持的最高版本的 cuda

SMI: System Management Interface

# 查询全部信息
nvidia-smi -q
# 查询 gpu 架构
nvidia-smi -q | grep Product

# 拓扑信息
nvidia-smi topo -m

# GPU 利用率统计
nvidia-smi --format=csv,noheader,nounits --query-gpu=timestamp,index,memory.total,memory.used,memory.free,utilization.gpu,utilization.memory -lms 500 -f  gup.log

# 筛选 gpu2
awk  -F","  '{ if($2==2){print $0} } '  smi-1-90s-instance.log > gpu2.log

# 计算 gpu 平均利用率
cat gpu2.log| awk '{sum7+=$7;count++} END {print sum7/count}'

# 动态观察 GPU 的状态（原地刷新）
watch -n 0.5 nvidia-smi

# 5 秒刷新一次
nvidia-smi -l 5

Nvidia 驱动 #

显卡类型	说明
GeForce RTX	游戏卡
TITAN	游戏发烧卡, 深度学习屌丝卡
NVIDIA RTX / Quadro	图形卡
Data Center / Tesla	计算卡
GRID	物理卡：只有 GRID K1/K2 两个型号，早停产。虚拟卡：Quadro 系列或者是 Tesla 系列分出来的多张虚拟显卡
Networking
NVS
ION

Nvidia #

Nvidia 显卡系列 #

Tesla: 专业级显卡 #

Quadro: 专业级显卡 #

GeForce: 普通消费级显卡 #

Tegra #

Nvida 系列 #

Nvidia HGX #

Nvidia DGX #

产品 #

GPU 架构 #

14. Blackwell #

13. Ada Lovelace vs Hopper #

Ada Lovelace (consumer) #

Hopper (professional) #

12. Ampere (consumer, professional) #

11. Turing vs Volta #

Turing（consumer 消费） #

Volta（ professional 专业） #

10 Pascal #

9. Maxwell #

8. Kepler #

7. Fermi #

6. Tesla #

5. Curie #

4. Rankine #

3. Kelvin #

2. Celsius #

1. Fahrenheit #

nvml: NVIDIA Management Library #

Nvidia 驱动 #

卸载 nvidia driver #

nvidia-smi #

Nvidia 驱动 #

13. `Ada Lovelace` vs Hopper #

nvml: `NVIDIA Management Library` #