2.7 KiB
2.7 KiB
marp, theme, paginate, footer
| marp | theme | paginate | footer |
|---|---|---|---|
| true | uncover | true | XX大学 · 计算机科学学院 |
基于深度学习的图像分类研究
张三 · 导师:李四 教授
计算机科学与技术专业 · 2026 届硕士毕业答辩
目录
- 研究背景与意义
- 相关工作
- 方法设计
- 实验结果
- 总结与展望
一、研究背景与意义
研究背景
- 图像分类是计算机视觉的基础任务
- 深度学习在 ImageNet 上取得突破性进展
- AlexNet (2012) → VGG (2014) → ResNet (2015) → ViT (2020)
- 现有方法在细粒度分类上仍有提升空间
研究意义
提出一种基于注意力机制的多尺度特征融合方法,提升细粒度图像分类的准确率。
相关工作
传统方法
- SIFT + SVM
- HOG 特征
- 词袋模型 (BoW)
- 精度有限,泛化性差
深度学习方法
- CNN 系列:ResNet, DenseNet
- 注意力机制:SE-Net, CBAM
- Transformer:ViT, Swin
- 本研究的切入点
方法设计
整体框架
class MultiScaleModel(nn.Module):
def __init__(self, backbone, num_classes):
super().__init__()
self.backbone = backbone
self.attention = CBAM(channels=512)
self.classifier = nn.Linear(512, num_classes)
def forward(self, x):
features = self.backbone(x)
attended = self.attention(features)
return self.classifier(attended)
实验结果
| 方法 | CUB-200 | Stanford Cars | FGVC-Aircraft |
|---|---|---|---|
| ResNet-50 | 84.2% | 91.3% | 89.7% |
| SE-ResNet | 86.1% | 92.8% | 91.2% |
| ViT-B/16 | 87.5% | 93.1% | 91.8% |
| Ours | 89.3% | 94.6% | 93.1% |
[!note] 本方法在三个细粒度数据集上均取得了最优结果。
关键发现
- 多尺度融合有效捕获不同粒度的视觉特征
- 注意力机制使模型聚焦于判别性区域
- 相比 ViT,训练数据量减少 40% 仍保持竞争力
总结与展望
主要贡献
- ✅ 提出多尺度注意力融合框架
- ✅ 在 3 个细粒度数据集上达到 SOTA
- ✅ 减少了对训练数据规模的依赖
未来工作
- 🔜 扩展到目标检测任务
- 🔜 探索自监督预训练的集成
- 🔜 在医学影像领域的应用验证