DL踩坑：初尝过拟合

初尝过拟合

猫狗大战数据集

这是kaggle上一个非常经典的二分类图像数据集，训练集包括25000张猫和狗的图片及其标签，测试集则是12500张未标签图片，数据下载地址https://www.kaggle.com/c/dogs-vs-cats/data。不过这个网址比较远古，无法提交自己训练的答案，可以到新的（~~虽然也不新了~~）比赛链接提交https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition/overview
将训练数据按类别分开整理成如下结构

   |-- train
       |-- cat
           |-- 1.jpg
           |-- 2.jpg
           |-- ...
       |-- dog
           |-- 1.jpg
           |-- 2.jpg
           |-- ...

这样就可以调用torchvision来快速生成训练集

all_data =  torchvision.datasets.ImageFolder(
    root='train',
    transform=train_transform
)
all_len = int(len(all_data))
train_len = int(0.8*all_len)
vaild_len = int(all_len-train_len)
train_data , vaild_data= torch.utils.data.random_split(all_data,[train_len,vaild_len])
train_set = torch.utils.data.DataLoader(
    train_data,
    batch_size=BTACH_SIZE,
    shuffle=True
)
vaild_set = torch.utils.data.DataLoader(
    test_data,
    batch_size=BTACH_SIZE,
    shuffle=False
)

上面偷懒对整个train里的图片分成两个分类的文件夹，没有另开一个验证集文件夹，而是使用random_split来划分，本来是没什么问题的，但就是这样埋下了锅，后面乱搞了一下就GG了，导致模型严重过拟合还浑然不知。

模型的选择

一开始直接简单粗暴来AlexNet，但是不知道什么问题，不仅跑的慢，训练了几个epoch后收敛得也慢（~~其实可能根本没有在收敛~~）
好吧那就先放放，换了一个简单的CNN，对就和上次训练MNIST那个那么简单，先训练几个epoch试下，开跑~嗯嗯嗯跑的快了许多，loss也在减少，验证集准确率也终于不是50上下了，虽然和训练集相比提高得有点慢慢
然后我调大了epoch继续训练...

锅在哪里呢？

训练到后面训练集准确率九十多，验证集也九十了，果断把测试机test跑一遍提交~~且沾沾自喜~~
然后一看得分蒙了，和全选猫的得分差不多~~因为我真的提交过~~，很明显是严重的过拟合了
锅出在哪呢，看了下代码原来是我一开始跑的时候保存了模型，然后后面跑的时候再加载继续训练。但由于多次运行main文件，而random_split是随机划分的，所以就等于我把整个训练数据都跑了个遍，再加上模型过于简单，没有加dropout等，过拟合了也不知道，还傻乎乎交了上去

明天在重写一个AlexNet试一下吧

DL踩坑：初尝过拟合

原文地址：https://www.cnblogs.com/weiba180/p/12393116.html

时间： 2024-10-16 21:03:32

DL踩坑：初尝过拟合的相关文章

webpack踩坑之路 (2)——图片的路径与打包

webpack踩坑之路 (2)--图片的路径与打包刚开始用webpack的同学很容易掉进图片打包这个坑里,比如打包出来的图片地址不对或者有的图片并不能打包进我们的目标文件夹里(bundle).下面我们就来分析下在webpack项目中图片的应用场景. 在实际生产中有以下几种图片的引用方式: 1. HTML文件中img标签的src属性引用或者内嵌样式引用 <img src="photo.jpg" /> <div style="background:url(ph

html2canvas的踩坑之路

html2canvas的踩坑之路前言早有耳闻这个html2canvas比较坑,但无奈于产品需求的压迫,必须实现html转图片的功能,自此走上了填坑之路,好在最后的效果还算令人满意,这才没有误了产品上线周期. html2canvas介绍 html2canvas的详细介绍可以点击这里查看,其实简单来说就是通过canvas将HTML生成的DOM节点绘制到画布上,再可以通过自己的需求转换成图片.所以官方文档也说了,最后生成的效果不是100%相同的,这一点大家要有心理准备,无论怎样,一点点小瑕疵是肯定

TiDB 深度实践之旅--真实“踩坑”经历

美团点评 TiDB 深度实践之旅(9000 字长文 / 真实“踩坑”经历) 4 PingCAP · 154 天前 · 3956 次点击这是一个创建于 154 天前的主题,其中的信息可能已经有所发展或是发生改变. 原标题:美团点评携手 PingCAP 开启新一代数据库深度实践之旅一.背景和现状在美团,基于 MySQL 构建的传统关系型数据库服务已经难于支撑公司业务的爆发式增长,促使我们去探索更合理的数据存储方案和实践新的运维方式.随着近一两年来分布式数据库大放异彩,美团 DBA 团队联合架构

Python 踩坑之旅进程篇其四一次性踩透 uid euid suid gid egid sgid的坑坑洼洼

目录 1.1 踩坑案例 1.2 填坑解法 1.3 坑位分析 1.4 技术关键字 1.5 坑后思考下期坑位预告代码示例支持平台: Centos 6.3 Python: 2.7.14 代码示例: 菜单 - Python踩坑指南代码示例 1.1 踩坑案例小明是个服务器管理员, 他从老管理员手里接手了一个非常繁琐的运维工作: 短暂授权root 账号给不同的 team 接口人运行备份任务该运维任务有几个特点: 任务需且仅需运行在 root 下 root 账号只能短暂授权给各个小组通过账号管理平

阿里云磁盘扩容踩坑总结

公司半年前上线一个新的项目,采购了一批阿里云主机,磁盘组成是40G系统盘+100G的数据盘,数据库采用MariaDB Galera Cluster集群部署,由于业务数据量快速增长,导致磁盘存储空间剩余量很少,急需要扩容,先总结整个项目规划中埋下的坑: 1.没有DBA对数据库的容量规划,而前期的运维人员采购时选用100G的SSD云盘: 2.数据库默认使用共享表空间,缺点是删除数据后不释放空间,当数据快速增长后,我们采取了先删除临时表数据的方式来尽量避免暴力扩容,争取在春节期间稳定,删除部分数据后,

Zabbix 踩坑之旅——zabbix触发重启tomcat

一.实验需求公司tomcat服务经常自动崩溃,导致业务中断,暂时用zabbix对其执行监控,在tomcat崩溃时能够先自动启动,保证业务尽快恢复正常. 二.准备环境系统环境:CentOS 6.5 IP地址: zabbix-server: 192.168.239.128 zabbix-agent: 192.168.239.130 zabbix的服务端和客户端的安装此处都以rpm包安装,配置略过.agent端上安装好tomcat. 三.开启踩坑之旅--agent端 ① 修改zabbix-agen

Android开发在路上：少去踩坑，多走捷径【转】

作者:gzjay,腾讯MIG无线产品部高级工程师最近一朋友提了几个Android问题让我帮忙写个小分享,我觉得对新人还是挺有帮助的,所以有了这个小分享. 1.目前, Android APP开发完成后,通常需要在哪些机型上进行测试? 2.目前, 开发Android APP时,需要考虑的分辨率有哪些? 这两个问题可以合起来回答的. http://developer.android.com/about/dashboards/index.html 源自Google Play的数据,每月都会进行upd

初尝Mcafee之在ePO中进行策略和客户端任务设置【06】

一.策略和客户端任务概述在ePO中点击"菜单",可以看到一个策略的大分类:ePO就是通过分配策略和客户端任务给客户端代理,然后代理将这些策略和客户端任务分配给本地相应的Mcafee杀毒防护软件进行执行: 策略是针对软件的内在参数和计划任务的配置,例如VirusScan是否扫描压缩文件,VirusScan的扫描计划的设置: 客户端任务是针对软件的外在交互,例如安装,部署,更新,信息统计等: 二.策略和客户端任务的分配结构: 策略和客户端任务的分配结构有点跟Windows Server的

ELK之ES2.4.1双实例平滑升级至5.2.1踩坑并supervisor管理记

ES老集群用的2.4.1版本,跑的比较好就一直没动,最近看资料ES5.X已经稳定,并且性能有较大提升,心里就发痒了,但由于业务要保持高可以用的属性,就得想一个平滑升级的方案,最后想到了多实例过度的办法,5.X版本网上介绍配置变化较大,也做好了踩坑准备,确定好要升级后,立刻动手. 一.对应升级改造方案使用端口9220和9330 安装并配置好新的ES5.2.1实例-->关掉logstash并将ES2.4.1实例堆栈调小重启(kafka保留3个小时日志所以不会丢失)-->启动ES5.2.1并将lo