Files
llm_wiki/wiki/示例-学校定制Marp演示.md

2.7 KiB
Raw Permalink Blame History

marp, theme, paginate, footer
marp theme paginate footer
true uncover true XX大学 · 计算机科学学院

基于深度学习的图像分类研究

张三 · 导师:李四 教授

计算机科学与技术专业 · 2026 届硕士毕业答辩


目录

  1. 研究背景与意义
  2. 相关工作
  3. 方法设计
  4. 实验结果
  5. 总结与展望

一、研究背景与意义


研究背景

  • 图像分类是计算机视觉的基础任务
  • 深度学习在 ImageNet 上取得突破性进展
    • AlexNet (2012) → VGG (2014) → ResNet (2015) → ViT (2020)
  • 现有方法在细粒度分类上仍有提升空间

研究意义

提出一种基于注意力机制的多尺度特征融合方法,提升细粒度图像分类的准确率。


相关工作

传统方法

  • SIFT + SVM
  • HOG 特征
  • 词袋模型 (BoW)
  • 精度有限,泛化性差

深度学习方法

  • CNN 系列ResNet, DenseNet
  • 注意力机制SE-Net, CBAM
  • TransformerViT, Swin
  • 本研究的切入点

方法设计

整体框架

class MultiScaleModel(nn.Module):
    def __init__(self, backbone, num_classes):
        super().__init__()
        self.backbone = backbone
        self.attention = CBAM(channels=512)
        self.classifier = nn.Linear(512, num_classes)
    
    def forward(self, x):
        features = self.backbone(x)
        attended = self.attention(features)
        return self.classifier(attended)

实验结果

方法 CUB-200 Stanford Cars FGVC-Aircraft
ResNet-50 84.2% 91.3% 89.7%
SE-ResNet 86.1% 92.8% 91.2%
ViT-B/16 87.5% 93.1% 91.8%
Ours 89.3% 94.6% 93.1%

[!note] 本方法在三个细粒度数据集上均取得了最优结果。


关键发现

  1. 多尺度融合有效捕获不同粒度的视觉特征
  2. 注意力机制使模型聚焦于判别性区域
  3. 相比 ViT训练数据量减少 40% 仍保持竞争力

总结与展望

主要贡献

  • 提出多尺度注意力融合框架
  • 在 3 个细粒度数据集上达到 SOTA
  • 减少了对训练数据规模的依赖

未来工作

  • 🔜 扩展到目标检测任务
  • 🔜 探索自监督预训练的集成
  • 🔜 在医学影像领域的应用验证

谢谢!

欢迎提问与讨论