---
marp: "true"
theme: uncover
paginate: "true"
footer: XX大学 · 计算机科学学院
---

<!-- _class: cover -->
<!-- _paginate: false -->

# 基于深度学习的图像分类研究

### 张三 · 导师：李四 教授

计算机科学与技术专业 · 2026 届硕士毕业答辩

---

## 目录

1. 研究背景与意义
2. 相关工作
3. 方法设计
4. 实验结果
5. 总结与展望

---

<!-- _class: trans -->

## 一、研究背景与意义

---

### 研究背景

- 图像分类是计算机视觉的**基础任务**
- 深度学习在 ImageNet 上取得突破性进展
  - AlexNet (2012) → VGG (2014) → ResNet (2015) → ViT (2020)
- 现有方法在**细粒度分类**上仍有提升空间

### 研究意义

> 提出一种基于注意力机制的多尺度特征融合方法，提升细粒度图像分类的准确率。

---

<!-- _class: cols-2 -->

## 相关工作

<div class="ldiv">

### 传统方法

- SIFT + SVM
- HOG 特征
- 词袋模型 (BoW)
- 精度有限，泛化性差

</div>

<div class="rdiv">

### 深度学习方法

- CNN 系列：ResNet, DenseNet
- 注意力机制：SE-Net, CBAM
- Transformer：ViT, Swin
- **本研究的切入点**

</div>

---

## 方法设计

### 整体框架

```python
class MultiScaleModel(nn.Module):
    def __init__(self, backbone, num_classes):
        super().__init__()
        self.backbone = backbone
        self.attention = CBAM(channels=512)
        self.classifier = nn.Linear(512, num_classes)
    
    def forward(self, x):
        features = self.backbone(x)
        attended = self.attention(features)
        return self.classifier(attended)
```

---

## 实验结果

| 方法        | CUB-200   | Stanford Cars | FGVC-Aircraft |
| --------- | --------- | ------------- | ------------- |
| ResNet-50 | 84.2%     | 91.3%         | 89.7%         |
| SE-ResNet | 86.1%     | 92.8%         | 91.2%         |
| ViT-B/16  | 87.5%     | 93.1%         | 91.8%         |
| **Ours**  | **89.3%** | **94.6%**     | **93.1%**     |

> [!note] 本方法在三个细粒度数据集上均取得了最优结果。

---

<!-- _class: dark -->

### 关键发现

1. **多尺度融合**有效捕获不同粒度的视觉特征
2. 注意力机制使模型聚焦于**判别性区域**
3. 相比 ViT，训练数据量减少 **40%** 仍保持竞争力

---

## 总结与展望

### 主要贡献

- ✅ 提出多尺度注意力融合框架
- ✅ 在 3 个细粒度数据集上达到 SOTA
- ✅ 减少了对训练数据规模的依赖

### 未来工作

- 🔜 扩展到**目标检测**任务
- 🔜 探索**自监督预训练**的集成
- 🔜 在医学影像领域的应用验证

---

<!-- _class: ending -->
<!-- _paginate: false -->

# 谢谢！

### 欢迎提问与讨论