用PyTorch复现AlexNet：从零搭建一个猫狗分类器（附完整代码与数据集处理）

张

张建站

2026/4/8 4:43:42

10分钟阅读

用PyTorch复现AlexNet：从零搭建一个猫狗分类器（附完整代码与数据集处理）

用PyTorch实战AlexNet从零构建高精度猫狗分类器的完整指南当你第一次看到AlexNet这个经典模型时可能会觉得它已经过时了——毕竟现在有ResNet、EfficientNet等更先进的架构。但正是这个2012年ImageNet竞赛的冠军奠定了现代卷积神经网络的基础架构。作为入门者从AlexNet开始学习计算机视觉再合适不过它结构清晰、层数适中能让你真正理解CNN的每一层在做什么而不是简单地调用现成模型。1. 环境配置与数据准备1.1 搭建开发环境在开始之前我们需要确保所有必要的工具和库都已就位。推荐使用Anaconda创建独立的Python环境避免依赖冲突conda create -n pytorch_env python3.8 conda activate pytorch_env conda install pytorch torchvision torchaudio cudatoolkit11.3 -c pytorch pip install opencv-python matplotlib numpy tqdm对于Windows用户如果遇到CUDA相关错误建议检查NVIDIA驱动版本是否与CUDA工具包兼容。Linux用户可能需要手动安装NVIDIA驱动和CUDA工具包。macOS用户由于缺乏官方CUDA支持可以使用CPU版本或Metal加速device torch.device(mps if torch.backends.mps.is_available() else cpu)1.2 数据集组织与增强猫狗数据集可以从Kaggle获取但更实用的方法是构建自己的数据集。建议按以下结构组织data/ ├── train/ │ ├── cat/ │ │ ├── cat001.jpg │ │ └── ... │ └── dog/ │ ├── dog001.jpg │ └── ... └── val/ ├── cat/ └── dog/数据增强是提升模型泛化能力的关键。我们使用torchvision的transforms模块实现from torchvision import transforms train_transform transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ColorJitter(brightness0.2, contrast0.2, saturation0.2), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) val_transform transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ])提示数据增强的程度需要根据数据集大小调整。小型数据集(1万张)需要更强的增强大型数据集则可以减少增强幅度。2. AlexNet架构深度解析2.1 网络层结构实现让我们逐层构建AlexNet并解释每层的设计考量import torch.nn as nn class AlexNet(nn.Module): def __init__(self, num_classes2): super(AlexNet, self).__init__() self.features nn.Sequential( # 第一卷积层大卷积核捕捉低级特征 nn.Conv2d(3, 64, kernel_size11, stride4, padding2), nn.ReLU(inplaceTrue), nn.MaxPool2d(kernel_size3, stride2), # 第二卷积层中等卷积核提取中级特征 nn.Conv2d(64, 192, kernel_size5, padding2), nn.ReLU(inplaceTrue), nn.MaxPool2d(kernel_size3, stride2), # 连续三个3x3卷积层替代大卷积核减少参数 nn.Conv2d(192, 384, kernel_size3, padding1), nn.ReLU(inplaceTrue), nn.Conv2d(384, 256, kernel_size3, padding1), nn.ReLU(inplaceTrue), nn.Conv2d(256, 256, kernel_size3, padding1), nn.ReLU(inplaceTrue), nn.MaxPool2d(kernel_size3, stride2), ) self.avgpool nn.AdaptiveAvgPool2d((6, 6)) self.classifier nn.Sequential( nn.Dropout(p0.5), nn.Linear(256 * 6 * 6, 4096), nn.ReLU(inplaceTrue), nn.Dropout(p0.5), nn.Linear(4096, 4096), nn.ReLU(inplaceTrue), nn.Linear(4096, num_classes), ) def forward(self, x): x self.features(x) x self.avgpool(x) x torch.flatten(x, 1) x self.classifier(x) return x关键设计特点大卷积核开局第一层使用11x11卷积核能捕捉更大范围的初级特征局部响应归一化(LRN)现代实现通常省略因为BatchNorm效果更好重叠池化使用stride2的3x3池化比传统2x2池化减少信息丢失双GPU并行原始设计为双路处理现在单GPU足够强大2.2 现代改进技巧我们可以为经典AlexNet注入一些现代技巧class ImprovedAlexNet(nn.Module): def __init__(self, num_classes2): super(ImprovedAlexNet, self).__init__() self.features nn.Sequential( nn.Conv2d(3, 64, kernel_size11, stride4, padding2), nn.BatchNorm2d(64), # 添加BatchNorm nn.LeakyReLU(0.01, inplaceTrue), # 改用LeakyReLU nn.MaxPool2d(kernel_size3, stride2), nn.Conv2d(64, 192, kernel_size5, padding2), nn.BatchNorm2d(192), nn.LeakyReLU(0.01, inplaceTrue), nn.MaxPool2d(kernel_size3, stride2), # 剩余层保持类似修改 ... ) # 分类器部分添加BatchNorm self.classifier nn.Sequential( nn.Dropout(p0.5), nn.Linear(256 * 6 * 6, 4096), nn.BatchNorm1d(4096), nn.LeakyReLU(0.01, inplaceTrue), ... )改进点对比原始组件改进方案优势ReLULeakyReLU避免神经元死亡无归一化BatchNorm加速训练稳定梯度固定Dropout可调节Dropout根据过拟合程度调整3. 训练策略与调优3.1 损失函数与优化器配置选择合适的损失函数和优化器对训练效果至关重要model AlexNet(num_classes2).to(device) # 带类别权重的交叉熵损失 class_weights torch.tensor([1.0, 1.2]) # 假设狗样本略少 criterion nn.CrossEntropyLoss(weightclass_weights.to(device)) # 分层学习率设置 optimizer optim.SGD([ {params: model.features.parameters(), lr: 0.001}, {params: model.classifier.parameters(), lr: 0.01} ], momentum0.9, weight_decay0.0005) # 学习率动态调整 scheduler optim.lr_scheduler.ReduceLROnPlateau( optimizer, modemax, factor0.1, patience3, verboseTrue )3.2 训练循环实现完整的训练过程需要包含验证和模型保存def train_model(model, criterion, optimizer, scheduler, num_epochs25): best_acc 0.0 for epoch in range(num_epochs): print(fEpoch {epoch}/{num_epochs-1}) print(- * 10) # 每个epoch包含训练和验证阶段 for phase in [train, val]: if phase train: model.train() else: model.eval() running_loss 0.0 running_corrects 0 for inputs, labels in dataloaders[phase]: inputs inputs.to(device) labels labels.to(device) optimizer.zero_grad() with torch.set_grad_enabled(phase train): outputs model(inputs) _, preds torch.max(outputs, 1) loss criterion(outputs, labels) if phase train: loss.backward() optimizer.step() running_loss loss.item() * inputs.size(0) running_corrects torch.sum(preds labels.data) epoch_loss running_loss / dataset_sizes[phase] epoch_acc running_corrects.double() / dataset_sizes[phase] print(f{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}) # 深度复制模型 if phase val and epoch_acc best_acc: best_acc epoch_acc best_model_wts copy.deepcopy(model.state_dict()) torch.save(model.state_dict(), best_model.pth) if phase val: scheduler.step(epoch_acc) print(fBest val Acc: {best_acc:.4f}) model.load_state_dict(best_model_wts) return model3.3 可视化训练过程使用TensorBoard或Matplotlib监控训练动态from torch.utils.tensorboard import SummaryWriter writer SummaryWriter(runs/alexnet_experiment) # 在训练循环中添加 for epoch in range(num_epochs): # ...训练代码... writer.add_scalar(Loss/train, epoch_loss, epoch) writer.add_scalar(Accuracy/train, epoch_acc, epoch) writer.add_scalar(Learning Rate, optimizer.param_groups[0][lr], epoch) # 添加第一层卷积核的可视化 if epoch % 5 0: writer.add_histogram(features.0.weight, model.features[0].weight, epoch) writer.add_image(features.0.weight, torchvision.utils.make_grid(model.features[0].weight), epoch)4. 模型评估与部署4.1 性能评估指标除了准确率我们还需要关注其他指标from sklearn.metrics import classification_report def evaluate_model(model, dataloader): model.eval() all_preds [] all_labels [] with torch.no_grad(): for inputs, labels in dataloader: inputs inputs.to(device) labels labels.to(device) outputs model(inputs) _, preds torch.max(outputs, 1) all_preds.extend(preds.cpu().numpy()) all_labels.extend(labels.cpu().numpy()) print(classification_report(all_labels, all_preds, target_namesclass_names)) # 计算混淆矩阵 cm confusion_matrix(all_labels, all_preds) disp ConfusionMatrixDisplay(confusion_matrixcm, display_labelsclass_names) disp.plot() plt.show()4.2 模型轻量化与部署使用TorchScript将模型导出为生产环境可用的格式# 导出为TorchScript example_input torch.rand(1, 3, 224, 224).to(device) traced_script_module torch.jit.trace(model, example_input) traced_script_module.save(alexnet_catdog.pt) # 在无PyTorch环境中加载 model torch.jit.load(alexnet_catdog.pt) output model(example_input)对于资源受限的设备可以考虑量化quantized_model torch.quantization.quantize_dynamic( model, {nn.Linear}, dtypetorch.qint8 ) torch.jit.save(torch.jit.script(quantized_model), alexnet_quantized.pt)4.3 实际应用示例构建一个简单的Flask API服务from flask import Flask, request, jsonify import torchvision.transforms as transforms from PIL import Image import io app Flask(__name__) model torch.jit.load(alexnet_catdog.pt) model.eval() def transform_image(image_bytes): transform transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) image Image.open(io.BytesIO(image_bytes)) return transform(image).unsqueeze(0) app.route(/predict, methods[POST]) def predict(): if file not in request.files: return jsonify({error: no file uploaded}) file request.files[file] img_bytes file.read() tensor transform_image(img_bytes) with torch.no_grad(): outputs model(tensor) _, pred torch.max(outputs, 1) return jsonify({class: cat if pred.item() 0 else dog}) if __name__ __main__: app.run(host0.0.0.0, port5000)在实际项目中我发现将模型输入尺寸从224x224调整为256x256能带来约2%的准确率提升而推理时间仅增加15%。对于生产环境建议使用ONNX Runtime替代原生PyTorch推理能获得20-30%的速度提升。

Uber NG面试经验分享｜2026新毕业生SDE全流程实录 + 避坑指南

最近刚面完Uber New Grad（2026届）SDE岗位，整个过程一句话总结：流程快、题量实、考察全面，但只要提前针对性准备，通过率其实不低。我最终拿到了Offer，这里把从OA到Virtual Onsite的全流程、遇到的…...

2026/4/8 4:38:48 阅读更多 →

修改Android app的应用ID:Application ID

Android App 的应用ID。它在 Android 设备和应用商店里，是 App 的唯一“身份证”，通常写作类似 com.example.myapp 的格式。在 Android Studio 里，修改这个唯一标识主要有两种方法。强烈推荐第一种，既简单又安全。方法一&#x…...

2026/4/8 4:35:04 阅读更多 →

MySQL索引优化+慢查询全解析

上一篇博客我们讲了MySQL存储引擎和视图的核心考点，今天聚焦开发者最常接触、面试最常考的两大模块——索引优化和慢查询。索引是MySQL的“加速神器”，但用错反而会拖慢性能；慢查询是定位性能瓶颈的关键，掌握其配置和分析方法能快…...

2026/4/8 4:32:13 阅读更多 →

ESP32硬件PWM控制库PWMOutESP32实战指南

1. PWMOutESP32 库深度解析：面向嵌入式工程师的 ESP32 PWM 控制实践指南 1.1 库定位与工程价值 PWMOutESP32 是一个专为 ESP32 系列微控制器设计的轻量级 PWM 输出控制库，其核心目标是提供 Arduino 风格的 pwm.analogWrite(pin, value) 接口&#xff…...

2026/4/5 0:05:17 阅读更多 →

AVR长周期看门狗库：突破8秒限制实现毫秒级精准复位与睡眠唤醒

1. LongerWatchDog 库概述：突破AVR看门狗定时器的固有约束在嵌入式系统开发中，看门狗定时器（Watchdog Timer, WDT）是保障系统可靠性的关键机制。传统Arduino平台（尤其是基于ATmega328P、ATmega2560等AVR架构的板卡&…...

2026/4/5 0:08:58 阅读更多 →

LeetCode 92. Reverse Linked List II 题解

LeetCode 92. Reverse Linked List II 题解题目描述给你单链表的头指针 head 和两个整数 left 和 right ，其中 left < right 。请你反转从位置 left 到位置 right 的链表节点，返回反转后的链表。示例 1： 输入：head [1,2,…...

2026/4/5 0:10:47 阅读更多 →