<— ! —->

0x00 ai 名词

@think3r 2026-03-18 00:11:07

模型微调 :
- 找一个现成的 0.6B 或 1B 模型（比如 Qwen2-0.5B 或 TinyLlama）。
- 做增量预训练 (Continual Pre-training)：只喂入你关心的领域数据（比如你的 Android SDK 开发文档、Vivo 内部规范等）。
- 用 LoRA/QLoRA 微调：这样 3060 Ti 跑起来非常轻松，几个小时就能出效果，显存占用极低。
模型训练 :
- 以经典的 OCR 识别为基准

芯片	年代	统一内存 (GB)	内存带宽 (GB/s)	GPU 核心	GPU 算力（TFLOPS 估）	NPU（TOPS）
M1	2020	8 / 16	68	7 / 8	~2.6	~11
M1 Pro	2021	16 / 32	200	14 / 16	~5.2	~11
M1 Max	2021	32 / 64	400	24 / 32	~10.4	~11
M2	2022	8 / 16 / 24	100	8 / 10	~3.6	~15.8
M2 Pro	2023	16 / 32	200	16 / 19	~6.8	~15.8
M2 Max	2023	32 / 64 / 96	400	30 / 38	~13.6	~15.8
M3	2023	8 / 16 / 24	100	8 / 10	~4.5	~18
M3 Pro ⚠️	2023	18 / 36	150	14 / 18	~7	~18
M3 Max	2023	36 / 48 / 64 / 96 / 128	300 / 400	30 / 40	~16+	~18
M4	2024	16 / 32	~120	8 / 10	~5–6	~20+
M4 Pro	2024	24 / 48 / 64	273	16 / 20	~9–11	~20+
M4 Max	2024	36–128	410 / 546	32 / 40	~18–22	~20+
M5	2025	16 / 24 / 32	~153	10	~6–7	~25+
M5 Pro	2026	24 / 48 / 64	307	20	~12–14	~25+
M5 Max	2026	36–128	460 / 614	32 / 40	~22–26	~25+

显卡	架构	显存 (GB)	显存类型	带宽 (GB/s)	CUDA 核心	FP32 算力（TFLOPS）	Tensor / AI
RTX 2060	Turing	6 / 12	GDDR6	336	1920	~6.5	~52 TOPS
RTX 2070	Turing	8	GDDR6	448	2304	~7.5	~60
RTX 2080	Turing	8	GDDR6	448	2944	~10.1	~89
RTX 2080 Ti	Turing	11	GDDR6	616	4352	~13.4	~110
RTX 3060	Ampere	12	GDDR6	360	3584	~13	~101
RTX 3060 Ti	Ampere	8	GDDR6	448	4864	~16	~130
RTX 3070	Ampere	8	GDDR6	448	5888	~20	~163
RTX 3080	Ampere	10 / 12	GDDR6X	760 / 912	8704	~30	~238
RTX 3090	Ampere	24	GDDR6X	936	10496	~35.6	~285
RTX 4060 ⚠️	Ada Lovelace	8	GDDR6	272	3072	~15	~120
RTX 4060 Ti ⚠️	Ada Lovelace	8 / 16	GDDR6	288	4352	~22	~180
RTX 4070	Ada Lovelace	12	GDDR6X	504	5888	~29	~240
RTX 4070 Ti	Ada Lovelace	12	GDDR6X	504	7680	~40	~320
RTX 4080	Ada Lovelace	16	GDDR6X	716	9728	~49	~390
RTX 4090	Ada Lovelace	24	GDDR6X	1008	16384	~83	~660
RTX 5060 ⚠️	Blackwell	8 / 12	GDDR7	~384	~4096	~20–24	~200+
RTX 5060 Ti ⚠️	Blackwell	12 / 16	GDDR7	~448	~5120	~28–32	~260+
RTX 5070	Blackwell	12 / 16	GDDR7	~640	~6144	~40–45	~350+
RTX 5070 Ti	Blackwell	16	GDDR7	~768	~8192	~55–65	~500+
RTX 5080	Blackwell	16 / 20	GDDR7	~960	~12288	~80–95	~800+
RTX 5090	Blackwell	24 / 32	GDDR7	~1200–1400	~20480	~120–150	~1200+

格式	生态 / 框架	常见精度	量化方式	是否支持混合精度	典型设备
ONNX	通用（PyTorch / TensorFlow）	FP32 / FP16	PTQ / QAT / INT8 / 动态量化	✔	CPU / GPU / TensorRT
TensorRT Engine	NVIDIA	FP32 / FP16 / INT8 / FP8	PTQ / 校准（Calibration）	✔	NVIDIA GPU
TFLite	TensorFlow Lite	FP32 / FP16 / INT8 / INT4	PTQ / QAT / Dynamic Range	✔	Android / Edge
Core ML	Apple	FP32 / FP16 / INT8	Linear Quant / LUT	✔	iOS / macOS (NPU/GPU)
OpenVINO IR	Intel	FP32 / FP16 / INT8	PTQ / QAT	✔	CPU / iGPU / VPU
TorchScript	PyTorch	FP32 / FP16	动态量化 / 静态量化	✔	CPU / GPU
GGML / GGUF	LLM（llama.cpp）	FP16 / INT8 / INT4 / INT2	权重量化（block-wise）	✔	CPU / Metal / Vulkan
Paddle Lite	百度	FP32 / FP16 / INT8	PTQ / QAT	✔	ARM / Edge
MNN	阿里	FP32 / FP16 / INT8	离线量化	✔	移动端
NCNN	腾讯	FP32 / FP16 / INT8	weight-only INT8	⚠️有限	移动端

*nix 的学习笔记