文章目录
前言
最近在做深度学习作业,利用ViT实现CIFAR10图像分类,在自己电脑上跑的太慢了,10个epoch要跑一天,实在是受不了,就在网上到处寻找免费的GPU,goole colab上面的GPU只能使用一会儿,长时间会断开,到第二天才能用,然后就把目光瞄准了kaggle。
一、kaggle是什么?
Kaggle是一个全球知名的数据科学竞赛平台,由Anthony Goldbloom和Ben Hamner于2010年在墨尔本创立,并于2017年被谷歌收购,现成为Google Cloud的一部分。Kaggle为数据科学家、机器学习工程师和学生提供了一个展现和提升技能的舞台,通过参与各类数据建模和机器学习的竞赛,用户可以与全球各地的参赛者一决高下。平台还提供大量的公开数据集、机器学习Notebook和教程,为用户提供了学习和练习数据科学技能的优质环境。同时,Kaggle的竞赛通常由各大企业和研究机构赞助,推动了数据科学领域的研究,并为企业寻找创新解决方案提供了机会。
二、如何使用kaggle平台的GPU
在Kaggle上,每周可以免费使用30个小时的GPU,并且GPU的容量是16G起步。但需要注意的是,一次训练最长持续9个小时,超过时长则会自动停止训练。此外,如果选择保存版本离线训练,那么离线训练的环境也在使用你的GPU免费训练时长。如果不退出Kaggle而是继续开启GPU看着模型训练,那么将会使用两倍的GPU训练时长。
1.注册账号
- 访问Kaggle网站:打开浏览器,访问Kaggle的官方网站,即https://www.kaggle.com/。
- 点击注册:在网站的右上角,你会看到“Register”按钮,点击它开始注册过程。
- 选择注册方式:Kaggle支持两种注册方式,使用谷歌账号注册或使用邮箱注册。如果你有谷歌账号,可以选择使用谷歌账号进行注册;如果没有,可以选择使用邮箱注册(推荐使用主流且稳定的邮箱,如qq邮箱,避免因邮箱关闭导致Kaggle账号丢失)。
2.训练前的工作
点击页面左侧的加号,新建一个notebook
然后到达新页面,点击右侧的upload,可以上传数据,另外在Session options里面可以选择设备类型(前提是绑定手机号)。
将数据集和源代码打包上传,设置好名字后,点击create等待上传。
上传成功之后,显示sucess!
3.如何训练模型
- 在线训练
上传的模型会存储在input文件夹下,因为input目录只可读,而output里面的working目录可读可写,我们需要将它转移到output文件夹中.
import shutil
shutil.copytree(r'../input/my-vit', r'./project')
前面是上传模型的路径。后面是output文件夹下的文件名,根据自己的需要来决定。
使用%cd来定位文件夹,在文件夹下使用%ls可以查看文件夹下面的所有文件
%cd /kaggle/working/project/ViT_Code
%ls
然后就可以在这个文件夹下面运行代码了,我要运行train.py文件,输入下面这行代码,就可以开始训练了。
!python train.py
- 离线训练
点击页面右上角的Save version,可以进行离线训练,但是一次训练最多跑9个小时,不过对于我来说已经足够了。如果模型训练时间需要很长时间的,不建议直接在cell中训练,因为一段时间不操作后会掉线。
模型开始进行离线训练。
在项目页面还可以输出日志,便于查看。
总结
被深度学习作业折磨了很久了,自己电脑跑不起来,所以放在了kaggel上面,简单记录了一下,后续有问题会继续跟进。