--- marp: "true" theme: uncover paginate: "true" footer: XX大学 · 计算机科学学院 --- # 基于深度学习的图像分类研究 ### 张三 · 导师:李四 教授 计算机科学与技术专业 · 2026 届硕士毕业答辩 --- ## 目录 1. 研究背景与意义 2. 相关工作 3. 方法设计 4. 实验结果 5. 总结与展望 --- ## 一、研究背景与意义 --- ### 研究背景 - 图像分类是计算机视觉的**基础任务** - 深度学习在 ImageNet 上取得突破性进展 - AlexNet (2012) → VGG (2014) → ResNet (2015) → ViT (2020) - 现有方法在**细粒度分类**上仍有提升空间 ### 研究意义 > 提出一种基于注意力机制的多尺度特征融合方法,提升细粒度图像分类的准确率。 --- ## 相关工作
### 传统方法 - SIFT + SVM - HOG 特征 - 词袋模型 (BoW) - 精度有限,泛化性差
### 深度学习方法 - CNN 系列:ResNet, DenseNet - 注意力机制:SE-Net, CBAM - Transformer:ViT, Swin - **本研究的切入点**
--- ## 方法设计 ### 整体框架 ```python class MultiScaleModel(nn.Module): def __init__(self, backbone, num_classes): super().__init__() self.backbone = backbone self.attention = CBAM(channels=512) self.classifier = nn.Linear(512, num_classes) def forward(self, x): features = self.backbone(x) attended = self.attention(features) return self.classifier(attended) ``` --- ## 实验结果 | 方法 | CUB-200 | Stanford Cars | FGVC-Aircraft | | --------- | --------- | ------------- | ------------- | | ResNet-50 | 84.2% | 91.3% | 89.7% | | SE-ResNet | 86.1% | 92.8% | 91.2% | | ViT-B/16 | 87.5% | 93.1% | 91.8% | | **Ours** | **89.3%** | **94.6%** | **93.1%** | > [!note] 本方法在三个细粒度数据集上均取得了最优结果。 --- ### 关键发现 1. **多尺度融合**有效捕获不同粒度的视觉特征 2. 注意力机制使模型聚焦于**判别性区域** 3. 相比 ViT,训练数据量减少 **40%** 仍保持竞争力 --- ## 总结与展望 ### 主要贡献 - ✅ 提出多尺度注意力融合框架 - ✅ 在 3 个细粒度数据集上达到 SOTA - ✅ 减少了对训练数据规模的依赖 ### 未来工作 - 🔜 扩展到**目标检测**任务 - 🔜 探索**自监督预训练**的集成 - 🔜 在医学影像领域的应用验证 --- # 谢谢! ### 欢迎提问与讨论