<— ! —->

0x00 ai 名词

@think3r 2026-03-18 00:11:07

  • 机器学习 VS 深度学习 ???
    • 典型的网课有哪些 ???
  • BERT 类架构
    • 好像在早期的发展中占比很大
  • Chinchilla 最佳训练实践
  • QLoRA 微调
  • 模型的文件格式解析 GG
  • 量化参数
  • 模型大小/内存占用/吐词速度估算
  • 手头的设备
  • 算力的计算, 设备到底跑在哪个硬件上
    • GPU / NPU ???
  • Flash attention ?
  • GPTQ ?

TODO:

  • 模型微调 :
    • 找一个现成的 0.6B 或 1B 模型(比如 Qwen2-0.5B 或 TinyLlama)。
    • 做增量预训练 (Continual Pre-training): 只喂入你关心的领域数据(比如你的 Android SDK 开发文档、Vivo 内部规范等)。
    • 用 LoRA/QLoRA 微调: 这样 3060 Ti 跑起来非常轻松,几个小时就能出效果,显存占用极低。
  • 模型训练 :
    • 以经典的 OCR 识别为基准

Apple M 系列(MacBook Pro)统一规格表

芯片 年代 统一内存 (GB) 内存带宽 (GB/s) GPU 核心 GPU 算力(TFLOPS 估) NPU(TOPS)
M1 2020 8 / 16 68 7 / 8 ~2.6 ~11
M1 Pro 2021 16 / 32 200 14 / 16 ~5.2 ~11
M1 Max 2021 32 / 64 400 24 / 32 ~10.4 ~11
M2 2022 8 / 16 / 24 100 8 / 10 ~3.6 ~15.8
M2 Pro 2023 16 / 32 200 16 / 19 ~6.8 ~15.8
M2 Max 2023 32 / 64 / 96 400 30 / 38 ~13.6 ~15.8
M3 2023 8 / 16 / 24 100 8 / 10 ~4.5 ~18
M3 Pro ⚠️ 2023 18 / 36 150 14 / 18 ~7 ~18
M3 Max 2023 36 / 48 / 64 / 96 / 128 300 / 400 30 / 40 ~16+ ~18
M4 2024 16 / 32 ~120 8 / 10 ~5–6 ~20+
M4 Pro 2024 24 / 48 / 64 273 16 / 20 ~9–11 ~20+
M4 Max 2024 36–128 410 / 546 32 / 40 ~18–22 ~20+
M5 2025 16 / 24 / 32 ~153 10 ~6–7 ~25+
M5 Pro 2026 24 / 48 / 64 307 20 ~12–14 ~25+
M5 Max 2026 36–128 460 / 614 32 / 40 ~22–26 ~25+

NVIDIA GeForce RTX 系列(20 → 50)规格表

显卡 架构 显存 (GB) 显存类型 带宽 (GB/s) CUDA 核心 FP32 算力(TFLOPS) Tensor / AI
RTX 2060 Turing 6 / 12 GDDR6 336 1920 ~6.5 ~52 TOPS
RTX 2070 Turing 8 GDDR6 448 2304 ~7.5 ~60
RTX 2080 Turing 8 GDDR6 448 2944 ~10.1 ~89
RTX 2080 Ti Turing 11 GDDR6 616 4352 ~13.4 ~110
RTX 3060 Ampere 12 GDDR6 360 3584 ~13 ~101
RTX 3060 Ti Ampere 8 GDDR6 448 4864 ~16 ~130
RTX 3070 Ampere 8 GDDR6 448 5888 ~20 ~163
RTX 3080 Ampere 10 / 12 GDDR6X 760 / 912 8704 ~30 ~238
RTX 3090 Ampere 24 GDDR6X 936 10496 ~35.6 ~285
RTX 4060 ⚠️ Ada Lovelace 8 GDDR6 272 3072 ~15 ~120
RTX 4060 Ti ⚠️ Ada Lovelace 8 / 16 GDDR6 288 4352 ~22 ~180
RTX 4070 Ada Lovelace 12 GDDR6X 504 5888 ~29 ~240
RTX 4070 Ti Ada Lovelace 12 GDDR6X 504 7680 ~40 ~320
RTX 4080 Ada Lovelace 16 GDDR6X 716 9728 ~49 ~390
RTX 4090 Ada Lovelace 24 GDDR6X 1008 16384 ~83 ~660
RTX 5060 ⚠️ Blackwell 8 / 12 GDDR7 ~384 ~4096 ~20–24 ~200+
RTX 5060 Ti ⚠️ Blackwell 12 / 16 GDDR7 ~448 ~5120 ~28–32 ~260+
RTX 5070 Blackwell 12 / 16 GDDR7 ~640 ~6144 ~40–45 ~350+
RTX 5070 Ti Blackwell 16 GDDR7 ~768 ~8192 ~55–65 ~500+
RTX 5080 Blackwell 16 / 20 GDDR7 ~960 ~12288 ~80–95 ~800+
RTX 5090 Blackwell 24 / 32 GDDR7 ~1200–1400 ~20480 ~120–150 ~1200+

模型主流模型格式 & 量化方式

格式 生态 / 框架 常见精度 量化方式 是否支持混合精度 典型设备
ONNX 通用(PyTorch / TensorFlow) FP32 / FP16 PTQ / QAT / INT8 / 动态量化 CPU / GPU / TensorRT
TensorRT Engine NVIDIA FP32 / FP16 / INT8 / FP8 PTQ / 校准(Calibration) NVIDIA GPU
TFLite TensorFlow Lite FP32 / FP16 / INT8 / INT4 PTQ / QAT / Dynamic Range Android / Edge
Core ML Apple FP32 / FP16 / INT8 Linear Quant / LUT iOS / macOS (NPU/GPU)
OpenVINO IR Intel FP32 / FP16 / INT8 PTQ / QAT CPU / iGPU / VPU
TorchScript PyTorch FP32 / FP16 动态量化 / 静态量化 CPU / GPU
GGML / GGUF LLM(llama.cpp) FP16 / INT8 / INT4 / INT2 权重量化(block-wise) CPU / Metal / Vulkan
Paddle Lite 百度 FP32 / FP16 / INT8 PTQ / QAT ARM / Edge
MNN 阿里 FP32 / FP16 / INT8 离线量化 移动端
NCNN 腾讯 FP32 / FP16 / INT8 weight-only INT8 ⚠️有限 移动端

GGML / GGUF 的量化格式体系

格式 位宽 特点
Q8_0 8-bit 几乎无损
Q6_K ~6-bit 平衡
Q5_K_M 5-bit 常用
Q4_K_M 4-bit ⭐主流
Q3_K_M 3-bit 更省内存
Q2_K 2-bit 极限压缩
后缀 含义
_S small(简单)
_M medium(更高精度)
_L large(更高精度)

TODO: 手机端的算力 ??