阶段4:深度学习¶
🎯 学习目标¶
掌握深度学习框架(PyTorch/TensorFlow),能够完成计算机视觉(CV)和自然语言处理(NLP)的迁移学习项目。通过本阶段学习,你将能够:
- 理解深度学习核心概念(神经网络、反向传播、优化器)
- 熟练使用 PyTorch 和 TensorFlow 构建深度学习模型
- 掌握 CNN(卷积神经网络)在计算机视觉中的应用
- 掌握 Transformer 在自然语言处理中的应用
- 完成工业级 CV/NLP 项目的开发与部署
📚 课程模块¶
M01:深度学习基础¶
深度学习核心理论与实践:
- 神经网络基础:感知机、多层感知机、激活函数
- 反向传播算法:梯度计算、链式法则
- 优化器:SGD、Adam、学习率调度
- 正则化技术:Dropout、Batch Normalization、权重衰减
- PyTorch vs TensorFlow:框架对比与选择
学习时长:3-4 小时
M02:计算机视觉基础¶
深度学习在图像领域的应用:
- CNN 架构:卷积层、池化层、全连接层
- 经典网络:LeNet、AlexNet、VGG、ResNet、EfficientNet
- 目标检测:YOLO 系列、Faster R-CNN、DETR
- 图像分割:U-Net、Mask R-CNN、Segment Anything
- 迁移学习:预训练模型、微调技巧
学习时长:4-6 小时
M03:自然语言处理基础¶
深度学习在文本领域的应用:
- 词嵌入:Word2Vec、GloVe、FastText
- RNN 架构:LSTM、GRU、双向 RNN
- Transformer:Self-Attention、Multi-Head Attention、位置编码
- 预训练模型:BERT、GPT、T5
- 下游任务:文本分类、命名实体识别、机器翻译
学习时长:4-6 小时
🚀 项目实战¶
本阶段包含 7 个工业级深度学习项目,其中 4 个核心项目提供 PyTorch 和 TensorFlow 双框架实现:
| 项目 | 名称 | 技术栈 | 框架 | 难度 |
|---|---|---|---|---|
| P01 | 工业视觉检测 | CNN + 迁移学习 | TensorFlow + TF Lite | ⭐⭐⭐ |
| P02 | 基于YOLOv11的视频实时检测系统 ⭐ | YOLO + 实时推理 | 双框架 | ⭐⭐⭐⭐ |
| P03 | OCR票据识别 | PaddleOCR + 后处理 | PaddlePaddle | ⭐⭐⭐ |
| P04 | 自动驾驶场景图像分割 ⭐ | U-Net + DeepLab | 双框架 | ⭐⭐⭐⭐ |
| P05 | 医学影像分析 | 3D CNN + MONAI | PyTorch | ⭐⭐⭐⭐ |
| P06 | 基于Transformer的翻译系统 ⭐ | Transformer + BPE | 双框架 | ⭐⭐⭐⭐ |
| P07 | 基于预训练模型的信息提取系统 ⭐ | BERT + NER/RE | 双框架 | ⭐⭐⭐⭐ |
项目特点¶
✅ 工业标准:遵循业界最佳实践,代码可直接用于生产环境 ✅ 双框架实现:核心项目提供 PyTorch 和 TensorFlow 两种实现,对比学习 ✅ 端到端:从数据预处理到模型部署的完整流程 ✅ GPU 加速:充分利用 GPU 并行计算能力(CPU 也可运行,速度较慢) ✅ 模型部署:包含 ONNX 导出、TensorRT 优化、移动端部署示例
⏱️ 学习时长¶
- 理论学习:11-16 小时(3 个模块)
- 项目实战:21-35 小时(7 个项目,每个 3-5 小时)
- 总计:32-51 小时
建议学习节奏: - 速通模式(2-3周):专注核心模块 + 4 个双框架项目 - 深度学习模式(4-6周):完成所有模块 + 全部 7 个项目
🛠️ 环境准备¶
系统要求¶
- Python ≥3.9(推荐 3.11+)
- 内存:16GB+(GPU 训练推荐 32GB+)
- 磁盘空间:约 20GB(数据集 + 预训练模型)
- GPU:推荐(NVIDIA GPU 6GB+ 显存,支持 CUDA 11.8+)
- CPU 也可运行,但速度慢 5-10 倍
快速安装¶
CPU 版本(适合测试与学习)¶
# 1. 创建虚拟环境
uv venv --python 3.11
source .venv/bin/activate
# 2. 安装阶段4依赖(CPU版本)
uv pip install -e ".[stage4]"
GPU 版本(推荐用于实际训练)¶
NVIDIA GPU (Linux/Windows):
# 1. 确认 CUDA 版本(需要 11.8+)
nvidia-smi
# 2. 安装阶段4依赖(GPU版本)
uv pip install -e ".[stage4,gpu]"
# 3. 验证 GPU 可用性
python -c "import torch; print(torch.cuda.is_available())"
python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"
Apple Silicon (macOS M1/M2/M3):
# 使用 MPS (Metal Performance Shaders) 加速
uv pip install -e ".[stage4]"
# 验证 MPS 可用性
python -c "import torch; print(torch.backends.mps.is_available())"
数据集下载¶
# 下载阶段4数据集(~15GB,包含预训练模型)
python scripts/data/download-stage4.py
# 验证数据完整性
python scripts/data/verify.py --stage 4
详细的跨平台配置指引: - macOS Apple Silicon(MPS GPU 加速) - Linux(CUDA GPU 加速) - Windows WSL2(推荐) - 云端 GPU(Google Colab、AWS、自托管)
📖 学习路径建议¶
新手路径(按顺序学习)¶
- M01 深度学习基础 → 理解神经网络原理
- P01 工业视觉检测 → 第一个 CNN 项目(TensorFlow)
- M02 计算机视觉基础 → 深入 CNN 架构
- P02 YOLOv11实时检测 → 实战目标检测(双框架对比)
- M03 自然语言处理基础 → 学习 Transformer
- P06 Transformer翻译 → 实战 Transformer(双框架对比)
- P07 信息提取系统 → 实战预训练模型微调
- 选做其他 3 个项目巩固技能
有经验者路径(可跳过部分模块)¶
- 如果熟悉 PyTorch/TensorFlow → 直接从项目开始
- 如果只关注 CV → 完成 P01-P05
- 如果只关注 NLP → 完成 M03 + P06-P07
- 如果想快速进入大模型开发 → 完成 P06-P07 后进入阶段5
双框架学习策略¶
本阶段的 4 个核心项目(P02、P04、P06、P07)提供 PyTorch 和 TensorFlow 双框架实现:
推荐学习顺序: 1. 先用一个框架完成项目(如 PyTorch) 2. 对比另一个框架的实现(TensorFlow) 3. 总结两个框架的异同点
框架选择建议: - 学术研究/灵活性 → 优先 PyTorch - 工业部署/移动端 → 优先 TensorFlow - 求职竞争力 → 两者都学
🎓 前置知识要求¶
✅ 必须掌握: - 阶段3:机器学习与数据挖掘(建议完成 P01-P03) - Python 科学计算栈(NumPy、Pandas、Matplotlib) - 线性代数基础(矩阵运算、向量空间) - 微积分基础(求导、梯度)
❓ 有帮助但非必须: - Linux 命令行(GPU 环境配置) - Docker(容器化部署) - Git(版本控制)
不满足前置要求?建议先完成阶段3
🔗 相关资源¶
官方文档¶
项目资源¶
⏭️ 下一步¶
完成阶段4后,继续学习: - 阶段5:AIGC与大模型 - LangChain + RAG + Agent - 或深入研究特定领域: - 计算机视觉:目标跟踪、3D 视觉、视频理解 - 自然语言处理:大语言模型、多模态模型
准备好了吗?从 M01:深度学习基础 开始你的深度学习之旅! 🚀