Initial commit: LLM Wiki with raw and wiki folders only
This commit is contained in:
140
wiki/示例-学校定制Marp演示.md
Normal file
140
wiki/示例-学校定制Marp演示.md
Normal file
@@ -0,0 +1,140 @@
|
||||
---
|
||||
marp: "true"
|
||||
theme: uncover
|
||||
paginate: "true"
|
||||
footer: XX大学 · 计算机科学学院
|
||||
---
|
||||
|
||||
<!-- _class: cover -->
|
||||
<!-- _paginate: false -->
|
||||
|
||||
# 基于深度学习的图像分类研究
|
||||
|
||||
### 张三 · 导师:李四 教授
|
||||
|
||||
计算机科学与技术专业 · 2026 届硕士毕业答辩
|
||||
|
||||
---
|
||||
|
||||
## 目录
|
||||
|
||||
1. 研究背景与意义
|
||||
2. 相关工作
|
||||
3. 方法设计
|
||||
4. 实验结果
|
||||
5. 总结与展望
|
||||
|
||||
---
|
||||
|
||||
<!-- _class: trans -->
|
||||
|
||||
## 一、研究背景与意义
|
||||
|
||||
---
|
||||
|
||||
### 研究背景
|
||||
|
||||
- 图像分类是计算机视觉的**基础任务**
|
||||
- 深度学习在 ImageNet 上取得突破性进展
|
||||
- AlexNet (2012) → VGG (2014) → ResNet (2015) → ViT (2020)
|
||||
- 现有方法在**细粒度分类**上仍有提升空间
|
||||
|
||||
### 研究意义
|
||||
|
||||
> 提出一种基于注意力机制的多尺度特征融合方法,提升细粒度图像分类的准确率。
|
||||
|
||||
---
|
||||
|
||||
<!-- _class: cols-2 -->
|
||||
|
||||
## 相关工作
|
||||
|
||||
<div class="ldiv">
|
||||
|
||||
### 传统方法
|
||||
|
||||
- SIFT + SVM
|
||||
- HOG 特征
|
||||
- 词袋模型 (BoW)
|
||||
- 精度有限,泛化性差
|
||||
|
||||
</div>
|
||||
|
||||
<div class="rdiv">
|
||||
|
||||
### 深度学习方法
|
||||
|
||||
- CNN 系列:ResNet, DenseNet
|
||||
- 注意力机制:SE-Net, CBAM
|
||||
- Transformer:ViT, Swin
|
||||
- **本研究的切入点**
|
||||
|
||||
</div>
|
||||
|
||||
---
|
||||
|
||||
## 方法设计
|
||||
|
||||
### 整体框架
|
||||
|
||||
```python
|
||||
class MultiScaleModel(nn.Module):
|
||||
def __init__(self, backbone, num_classes):
|
||||
super().__init__()
|
||||
self.backbone = backbone
|
||||
self.attention = CBAM(channels=512)
|
||||
self.classifier = nn.Linear(512, num_classes)
|
||||
|
||||
def forward(self, x):
|
||||
features = self.backbone(x)
|
||||
attended = self.attention(features)
|
||||
return self.classifier(attended)
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## 实验结果
|
||||
|
||||
| 方法 | CUB-200 | Stanford Cars | FGVC-Aircraft |
|
||||
| --------- | --------- | ------------- | ------------- |
|
||||
| ResNet-50 | 84.2% | 91.3% | 89.7% |
|
||||
| SE-ResNet | 86.1% | 92.8% | 91.2% |
|
||||
| ViT-B/16 | 87.5% | 93.1% | 91.8% |
|
||||
| **Ours** | **89.3%** | **94.6%** | **93.1%** |
|
||||
|
||||
> [!note] 本方法在三个细粒度数据集上均取得了最优结果。
|
||||
|
||||
---
|
||||
|
||||
<!-- _class: dark -->
|
||||
|
||||
### 关键发现
|
||||
|
||||
1. **多尺度融合**有效捕获不同粒度的视觉特征
|
||||
2. 注意力机制使模型聚焦于**判别性区域**
|
||||
3. 相比 ViT,训练数据量减少 **40%** 仍保持竞争力
|
||||
|
||||
---
|
||||
|
||||
## 总结与展望
|
||||
|
||||
### 主要贡献
|
||||
|
||||
- ✅ 提出多尺度注意力融合框架
|
||||
- ✅ 在 3 个细粒度数据集上达到 SOTA
|
||||
- ✅ 减少了对训练数据规模的依赖
|
||||
|
||||
### 未来工作
|
||||
|
||||
- 🔜 扩展到**目标检测**任务
|
||||
- 🔜 探索**自监督预训练**的集成
|
||||
- 🔜 在医学影像领域的应用验证
|
||||
|
||||
---
|
||||
|
||||
<!-- _class: ending -->
|
||||
<!-- _paginate: false -->
|
||||
|
||||
# 谢谢!
|
||||
|
||||
### 欢迎提问与讨论
|
||||
Reference in New Issue
Block a user