阶段4：深度学习¶

🎯 学习目标¶

掌握深度学习框架（PyTorch/TensorFlow），能够完成计算机视觉（CV）和自然语言处理（NLP）的迁移学习项目。通过本阶段学习，你将能够：

理解深度学习核心概念（神经网络、反向传播、优化器）
熟练使用 PyTorch 和 TensorFlow 构建深度学习模型
掌握 CNN（卷积神经网络）在计算机视觉中的应用
掌握 Transformer 在自然语言处理中的应用
完成工业级 CV/NLP 项目的开发与部署

📚 课程模块¶

M01：深度学习基础 ¶

深度学习核心理论与实践：

神经网络基础：感知机、多层感知机、激活函数
反向传播算法：梯度计算、链式法则
优化器：SGD、Adam、学习率调度
正则化技术：Dropout、Batch Normalization、权重衰减
PyTorch vs TensorFlow：框架对比与选择

学习时长：3-4 小时

M02：计算机视觉基础 ¶

深度学习在图像领域的应用：

CNN 架构：卷积层、池化层、全连接层
经典网络：LeNet、AlexNet、VGG、ResNet、EfficientNet
目标检测：YOLO 系列、Faster R-CNN、DETR
图像分割：U-Net、Mask R-CNN、Segment Anything
迁移学习：预训练模型、微调技巧

学习时长：4-6 小时

M03：自然语言处理基础 ¶

深度学习在文本领域的应用：

词嵌入：Word2Vec、GloVe、FastText
RNN 架构：LSTM、GRU、双向 RNN
Transformer：Self-Attention、Multi-Head Attention、位置编码
预训练模型：BERT、GPT、T5
下游任务：文本分类、命名实体识别、机器翻译

学习时长：4-6 小时

🚀 项目实战¶

本阶段包含 7 个工业级深度学习项目，其中 4 个核心项目提供 PyTorch 和 TensorFlow 双框架实现：

项目	名称	技术栈	框架	难度
P01	工业视觉检测	CNN + 迁移学习	TensorFlow + TF Lite	⭐⭐⭐
P02	基于YOLOv11的视频实时检测系统 ⭐	YOLO + 实时推理	双框架	⭐⭐⭐⭐
P03	OCR票据识别	PaddleOCR + 后处理	PaddlePaddle	⭐⭐⭐
P04	自动驾驶场景图像分割 ⭐	U-Net + DeepLab	双框架	⭐⭐⭐⭐
P05	医学影像分析	3D CNN + MONAI	PyTorch	⭐⭐⭐⭐
P06	基于Transformer的翻译系统 ⭐	Transformer + BPE	双框架	⭐⭐⭐⭐
P07	基于预训练模型的信息提取系统 ⭐	BERT + NER/RE	双框架	⭐⭐⭐⭐

项目特点¶

✅ 工业标准：遵循业界最佳实践，代码可直接用于生产环境 ✅ 双框架实现：核心项目提供 PyTorch 和 TensorFlow 两种实现，对比学习 ✅ 端到端：从数据预处理到模型部署的完整流程 ✅ GPU 加速：充分利用 GPU 并行计算能力（CPU 也可运行，速度较慢） ✅ 模型部署：包含 ONNX 导出、TensorRT 优化、移动端部署示例

⏱️ 学习时长¶

理论学习：11-16 小时（3 个模块）
项目实战：21-35 小时（7 个项目，每个 3-5 小时）
总计：32-51 小时

建议学习节奏： - 速通模式（2-3周）：专注核心模块 + 4 个双框架项目 - 深度学习模式（4-6周）：完成所有模块 + 全部 7 个项目

🛠️ 环境准备¶

系统要求¶

Python ≥3.9（推荐 3.11+）
内存：16GB+（GPU 训练推荐 32GB+）
磁盘空间：约 20GB（数据集 + 预训练模型）
GPU：推荐（NVIDIA GPU 6GB+ 显存，支持 CUDA 11.8+）
CPU 也可运行，但速度慢 5-10 倍

快速安装¶

CPU 版本（适合测试与学习）¶

# 1. 创建虚拟环境
uv venv --python 3.11
source .venv/bin/activate

# 2. 安装阶段4依赖（CPU版本）
uv pip install -e ".[stage4]"

GPU 版本（推荐用于实际训练）¶

NVIDIA GPU (Linux/Windows):

# 1. 确认 CUDA 版本（需要 11.8+）
nvidia-smi

# 2. 安装阶段4依赖（GPU版本）
uv pip install -e ".[stage4,gpu]"

# 3. 验证 GPU 可用性
python -c "import torch; print(torch.cuda.is_available())"
python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"

Apple Silicon (macOS M1/M2/M3):

# 使用 MPS (Metal Performance Shaders) 加速
uv pip install -e ".[stage4]"

# 验证 MPS 可用性
python -c "import torch; print(torch.backends.mps.is_available())"

数据集下载¶

# 下载阶段4数据集（~15GB，包含预训练模型）
python scripts/data/download-stage4.py

# 验证数据完整性
python scripts/data/verify.py --stage 4

详细的跨平台配置指引： - macOS Apple Silicon（MPS GPU 加速） - Linux（CUDA GPU 加速） - Windows WSL2（推荐） - 云端 GPU（Google Colab、AWS、自托管）

📖 学习路径建议¶

新手路径（按顺序学习）¶

M01 深度学习基础 → 理解神经网络原理
P01 工业视觉检测 → 第一个 CNN 项目（TensorFlow）
M02 计算机视觉基础 → 深入 CNN 架构
P02 YOLOv11实时检测 → 实战目标检测（双框架对比）
M03 自然语言处理基础 → 学习 Transformer
P06 Transformer翻译 → 实战 Transformer（双框架对比）
P07 信息提取系统 → 实战预训练模型微调
选做其他 3 个项目巩固技能

有经验者路径（可跳过部分模块）¶

如果熟悉 PyTorch/TensorFlow → 直接从项目开始
如果只关注 CV → 完成 P01-P05
如果只关注 NLP → 完成 M03 + P06-P07
如果想快速进入大模型开发 → 完成 P06-P07 后进入阶段5

双框架学习策略¶

本阶段的 4 个核心项目（P02、P04、P06、P07）提供 PyTorch 和 TensorFlow 双框架实现：

推荐学习顺序： 1. 先用一个框架完成项目（如 PyTorch） 2. 对比另一个框架的实现（TensorFlow） 3. 总结两个框架的异同点

框架选择建议： - 学术研究/灵活性 → 优先 PyTorch - 工业部署/移动端 → 优先 TensorFlow - 求职竞争力 → 两者都学

🎓 前置知识要求¶

✅ 必须掌握： - 阶段3：机器学习与数据挖掘（建议完成 P01-P03） - Python 科学计算栈（NumPy、Pandas、Matplotlib） - 线性代数基础（矩阵运算、向量空间） - 微积分基础（求导、梯度）

❓ 有帮助但非必须： - Linux 命令行（GPU 环境配置） - Docker（容器化部署） - Git（版本控制）

不满足前置要求？建议先完成阶段3

🔗 相关资源¶

官方文档¶

项目资源¶

⏭️ 下一步¶

完成阶段4后，继续学习： - 阶段5：AIGC与大模型 - LangChain + RAG + Agent - 或深入研究特定领域： - 计算机视觉：目标跟踪、3D 视觉、视频理解 - 自然语言处理：大语言模型、多模态模型

准备好了吗？从 M01：深度学习基础开始你的深度学习之旅！ 🚀