Files
llm_wiki/wiki/示例-学校定制Marp演示.md

141 lines
2.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
marp: "true"
theme: uncover
paginate: "true"
footer: XX大学 · 计算机科学学院
---
<!-- _class: cover -->
<!-- _paginate: false -->
# 基于深度学习的图像分类研究
### 张三 · 导师:李四 教授
计算机科学与技术专业 · 2026 届硕士毕业答辩
---
## 目录
1. 研究背景与意义
2. 相关工作
3. 方法设计
4. 实验结果
5. 总结与展望
---
<!-- _class: trans -->
## 一、研究背景与意义
---
### 研究背景
- 图像分类是计算机视觉的**基础任务**
- 深度学习在 ImageNet 上取得突破性进展
- AlexNet (2012) → VGG (2014) → ResNet (2015) → ViT (2020)
- 现有方法在**细粒度分类**上仍有提升空间
### 研究意义
> 提出一种基于注意力机制的多尺度特征融合方法,提升细粒度图像分类的准确率。
---
<!-- _class: cols-2 -->
## 相关工作
<div class="ldiv">
### 传统方法
- SIFT + SVM
- HOG 特征
- 词袋模型 (BoW)
- 精度有限,泛化性差
</div>
<div class="rdiv">
### 深度学习方法
- CNN 系列ResNet, DenseNet
- 注意力机制SE-Net, CBAM
- TransformerViT, Swin
- **本研究的切入点**
</div>
---
## 方法设计
### 整体框架
```python
class MultiScaleModel(nn.Module):
def __init__(self, backbone, num_classes):
super().__init__()
self.backbone = backbone
self.attention = CBAM(channels=512)
self.classifier = nn.Linear(512, num_classes)
def forward(self, x):
features = self.backbone(x)
attended = self.attention(features)
return self.classifier(attended)
```
---
## 实验结果
| 方法 | CUB-200 | Stanford Cars | FGVC-Aircraft |
| --------- | --------- | ------------- | ------------- |
| ResNet-50 | 84.2% | 91.3% | 89.7% |
| SE-ResNet | 86.1% | 92.8% | 91.2% |
| ViT-B/16 | 87.5% | 93.1% | 91.8% |
| **Ours** | **89.3%** | **94.6%** | **93.1%** |
> [!note] 本方法在三个细粒度数据集上均取得了最优结果。
---
<!-- _class: dark -->
### 关键发现
1. **多尺度融合**有效捕获不同粒度的视觉特征
2. 注意力机制使模型聚焦于**判别性区域**
3. 相比 ViT训练数据量减少 **40%** 仍保持竞争力
---
## 总结与展望
### 主要贡献
- ✅ 提出多尺度注意力融合框架
- ✅ 在 3 个细粒度数据集上达到 SOTA
- ✅ 减少了对训练数据规模的依赖
### 未来工作
- 🔜 扩展到**目标检测**任务
- 🔜 探索**自监督预训练**的集成
- 🔜 在医学影像领域的应用验证
---
<!-- _class: ending -->
<!-- _paginate: false -->
# 谢谢!
### 欢迎提问与讨论