<— ! —->
0x00 ai 名词
@think3r 2026-03-18 00:11:07
- 机器学习 VS 深度学习 ???
- BERT 类架构
- Chinchilla 最佳训练实践
- QLoRA 微调
- 模型的文件格式解析 GG
- 量化参数
- 模型大小/内存占用/吐词速度估算
- 手头的设备
- 算力的计算, 设备到底跑在哪个硬件上
- Flash attention ?
- GPTQ ?
TODO:
- 模型微调 :
- 找一个现成的 0.6B 或 1B 模型(比如 Qwen2-0.5B 或 TinyLlama)。
- 做增量预训练 (Continual Pre-training): 只喂入你关心的领域数据(比如你的 Android SDK 开发文档、Vivo 内部规范等)。
- 用 LoRA/QLoRA 微调: 这样 3060 Ti 跑起来非常轻松,几个小时就能出效果,显存占用极低。
- 模型训练 :
Apple M 系列(MacBook Pro)统一规格表
| 芯片 |
年代 |
统一内存 (GB) |
内存带宽 (GB/s) |
GPU 核心 |
GPU 算力(TFLOPS 估) |
NPU(TOPS) |
| M1 |
2020 |
8 / 16 |
68 |
7 / 8 |
~2.6 |
~11 |
| M1 Pro |
2021 |
16 / 32 |
200 |
14 / 16 |
~5.2 |
~11 |
| M1 Max |
2021 |
32 / 64 |
400 |
24 / 32 |
~10.4 |
~11 |
| M2 |
2022 |
8 / 16 / 24 |
100 |
8 / 10 |
~3.6 |
~15.8 |
| M2 Pro |
2023 |
16 / 32 |
200 |
16 / 19 |
~6.8 |
~15.8 |
| M2 Max |
2023 |
32 / 64 / 96 |
400 |
30 / 38 |
~13.6 |
~15.8 |
| M3 |
2023 |
8 / 16 / 24 |
100 |
8 / 10 |
~4.5 |
~18 |
| M3 Pro ⚠️ |
2023 |
18 / 36 |
150 |
14 / 18 |
~7 |
~18 |
| M3 Max |
2023 |
36 / 48 / 64 / 96 / 128 |
300 / 400 |
30 / 40 |
~16+ |
~18 |
| M4 |
2024 |
16 / 32 |
~120 |
8 / 10 |
~5–6 |
~20+ |
| M4 Pro |
2024 |
24 / 48 / 64 |
273 |
16 / 20 |
~9–11 |
~20+ |
| M4 Max |
2024 |
36–128 |
410 / 546 |
32 / 40 |
~18–22 |
~20+ |
| M5 |
2025 |
16 / 24 / 32 |
~153 |
10 |
~6–7 |
~25+ |
| M5 Pro |
2026 |
24 / 48 / 64 |
307 |
20 |
~12–14 |
~25+ |
| M5 Max |
2026 |
36–128 |
460 / 614 |
32 / 40 |
~22–26 |
~25+ |
NVIDIA GeForce RTX 系列(20 → 50)规格表
| 显卡 |
架构 |
显存 (GB) |
显存类型 |
带宽 (GB/s) |
CUDA 核心 |
FP32 算力(TFLOPS) |
Tensor / AI |
| RTX 2060 |
Turing |
6 / 12 |
GDDR6 |
336 |
1920 |
~6.5 |
~52 TOPS |
| RTX 2070 |
Turing |
8 |
GDDR6 |
448 |
2304 |
~7.5 |
~60 |
| RTX 2080 |
Turing |
8 |
GDDR6 |
448 |
2944 |
~10.1 |
~89 |
| RTX 2080 Ti |
Turing |
11 |
GDDR6 |
616 |
4352 |
~13.4 |
~110 |
| RTX 3060 |
Ampere |
12 |
GDDR6 |
360 |
3584 |
~13 |
~101 |
| RTX 3060 Ti |
Ampere |
8 |
GDDR6 |
448 |
4864 |
~16 |
~130 |
| RTX 3070 |
Ampere |
8 |
GDDR6 |
448 |
5888 |
~20 |
~163 |
| RTX 3080 |
Ampere |
10 / 12 |
GDDR6X |
760 / 912 |
8704 |
~30 |
~238 |
| RTX 3090 |
Ampere |
24 |
GDDR6X |
936 |
10496 |
~35.6 |
~285 |
| RTX 4060 ⚠️ |
Ada Lovelace |
8 |
GDDR6 |
272 |
3072 |
~15 |
~120 |
| RTX 4060 Ti ⚠️ |
Ada Lovelace |
8 / 16 |
GDDR6 |
288 |
4352 |
~22 |
~180 |
| RTX 4070 |
Ada Lovelace |
12 |
GDDR6X |
504 |
5888 |
~29 |
~240 |
| RTX 4070 Ti |
Ada Lovelace |
12 |
GDDR6X |
504 |
7680 |
~40 |
~320 |
| RTX 4080 |
Ada Lovelace |
16 |
GDDR6X |
716 |
9728 |
~49 |
~390 |
| RTX 4090 |
Ada Lovelace |
24 |
GDDR6X |
1008 |
16384 |
~83 |
~660 |
| RTX 5060 ⚠️ |
Blackwell |
8 / 12 |
GDDR7 |
~384 |
~4096 |
~20–24 |
~200+ |
| RTX 5060 Ti ⚠️ |
Blackwell |
12 / 16 |
GDDR7 |
~448 |
~5120 |
~28–32 |
~260+ |
| RTX 5070 |
Blackwell |
12 / 16 |
GDDR7 |
~640 |
~6144 |
~40–45 |
~350+ |
| RTX 5070 Ti |
Blackwell |
16 |
GDDR7 |
~768 |
~8192 |
~55–65 |
~500+ |
| RTX 5080 |
Blackwell |
16 / 20 |
GDDR7 |
~960 |
~12288 |
~80–95 |
~800+ |
| RTX 5090 |
Blackwell |
24 / 32 |
GDDR7 |
~1200–1400 |
~20480 |
~120–150 |
~1200+ |
模型主流模型格式 & 量化方式
| 格式 |
生态 / 框架 |
常见精度 |
量化方式 |
是否支持混合精度 |
典型设备 |
| ONNX |
通用(PyTorch / TensorFlow) |
FP32 / FP16 |
PTQ / QAT / INT8 / 动态量化 |
✔ |
CPU / GPU / TensorRT |
| TensorRT Engine |
NVIDIA |
FP32 / FP16 / INT8 / FP8 |
PTQ / 校准(Calibration) |
✔ |
NVIDIA GPU |
| TFLite |
TensorFlow Lite |
FP32 / FP16 / INT8 / INT4 |
PTQ / QAT / Dynamic Range |
✔ |
Android / Edge |
| Core ML |
Apple |
FP32 / FP16 / INT8 |
Linear Quant / LUT |
✔ |
iOS / macOS (NPU/GPU) |
| OpenVINO IR |
Intel |
FP32 / FP16 / INT8 |
PTQ / QAT |
✔ |
CPU / iGPU / VPU |
| TorchScript |
PyTorch |
FP32 / FP16 |
动态量化 / 静态量化 |
✔ |
CPU / GPU |
| GGML / GGUF |
LLM(llama.cpp) |
FP16 / INT8 / INT4 / INT2 |
权重量化(block-wise) |
✔ |
CPU / Metal / Vulkan |
| Paddle Lite |
百度 |
FP32 / FP16 / INT8 |
PTQ / QAT |
✔ |
ARM / Edge |
| MNN |
阿里 |
FP32 / FP16 / INT8 |
离线量化 |
✔ |
移动端 |
| NCNN |
腾讯 |
FP32 / FP16 / INT8 |
weight-only INT8 |
⚠️有限 |
移动端 |
GGML / GGUF 的量化格式体系
| 格式 |
位宽 |
特点 |
| Q8_0 |
8-bit |
几乎无损 |
| Q6_K |
~6-bit |
平衡 |
| Q5_K_M |
5-bit |
常用 |
| Q4_K_M |
4-bit |
⭐主流 |
| Q3_K_M |
3-bit |
更省内存 |
| Q2_K |
2-bit |
极限压缩 |
| 后缀 |
含义 |
| _S |
small(简单) |
| _M |
medium(更高精度) |
| _L |
large(更高精度) |
TODO: 手机端的算力 ??