好运5分快3骗局如何优化你的图像分类模型效果? | 雷锋网

  • 时间:
  • 浏览:0

本文为 AI 研习社编译的技术博客好运5分快3骗局,原标题 :

B好运5分快3骗局oost your Image Classification Model

作者 | Aditya Mishra

翻译 | MichaelChen      编辑 | 邓普斯•杰弗、咩咩咩鱼

原文链接:

https://towardsdatascience.com/boost-your-image-classifier-e1cc7a56b59c

图好运5分快3骗局像分类是曾经认为几乎出理 了的疑问。有趣的是,你需要竭尽所能来提升额外的1%的准确率。当我参加“ Intel Scene Classification Challenge hosted by Analytics Vidhya(由Analytics Vidhya主办的英特尔场景分类挑战)”我非常喜好运5分快3骗局欢这次比赛,已经 我尝试从我的角度学习模型中榨干所有的潜力。下面的技术通常是还并能应用到手肩头的任何图像分类疑问中去。

  疑问

下面的疑问是把给定的图片分类到下面的6个类别中去。

数据类别

数据中中含25,000张自然风景的图片,哪些地方地方图片来自世界各地。

  渐进的(图片)尺寸调整

当训练CNN模型的已经 ,从小到大的线性调整图片尺寸是一项技术。渐进的尺寸调整在很赞的fastai课程中被描述为:进程员的角度学习实践。三种不错的方式是先用小的尺寸,如64 x 64进行训练,再用这个模型的参数,在128 x 128尺寸上进行训练,如此以往。每个较大的模型有的是 其体系特征中中含已经 较小的模型层和权重。

渐进的尺寸调整

  FastAI

fastai库是曾经强大的角度学习库。已经 fastai团队找到了一篇很感兴趣的论文,我们都都会在不同的数据集上进行测试,并实现调参。一旦成功,就会被合并到我们都都的库,因此对它的用户开放阅读。这个库中含了太大太大 内置的先进的技巧。基于pytorch,fastai对于大多数任务有的是 很好的默认参数。每种技巧包括:

  1. 周期性学习率

  2. 曾经周期的学习

  3. 特征化数据的角度学习

  全部的权重初始化

在查看可用的标准数据集时,我偶然发现了Place365数据集。Place365数据集中含365种风景分类的1,1150,000张图片。本次挑战赛提供的数据集与这个数据集很类似于,太大太大 在这个数据集训练的模型,具有某些学习的特征,与我们都都分类的疑问是相关的。已经 我们都都的疑问中的类别是Place365数据集的子集,太大太大 我使用了曾经用Place365权重初始化的ResNet150模型。

这个模型的权重在“pytorch weights”中提供。下面使用的实用函数帮助我们都都正确地将数据加载到fastai的CNN学习器中。

  混合增强

混合增强是三种通过对已有的两幅图像进行加权线性插值,来形成新图像的增强方式。我们都都取两张图像,因此使用哪些地方地方图像的张量进行线性好运5分快3骗局组合。

混合增强

λ是服从beta分布的随机采样。我其实论文的作者建议使用 λ=0.4,因此fastai的库默认值设为0.1。

fastai中的混合增强

  学习率调优

学习率是训练神经网络中最重要的超参数之一。fastai有三种方式来找出至少的初始学习下行速率 。这个技术被称作循环学习率,我们都都用较低的学习率进行试验,并以指数形式增加,记录整个过程的损失。因此我们都都根据学习率绘制损失曲线,并选者损失值最陡峭处的学习率。

fastai中的LR Ffinder



在学习率为1e-06时,损失最陡峭

这个库还为我们都都自动的出理 中含重新启动的随机梯度下降(SGDR)。在SGDR中,学习率在每次迭代现在刚开始有的是重新设置为原始选者的数值,哪些地方地方数值会随着迭代减小,就像余弦退火一样。如此做的主要收益是,已经 学习率在每次迭代的现在刚开始还并能重置,因此学习器并能再次突然出现局部极小值或鞍点。



fastai中中含重启的随机梯度下降

  通用对抗网络

生成式对抗网络(GAN是Generative Adversarial Networks的缩写)在2014年被Ian Goodfellow提出,GANs是由曾经网络组成的角度神经网络特征,它们相互竞争。 GANs还并能模拟任何数据分布。我们都都还并能学习生成类似于原始数据的数据,因此还并能是任何领域——图像、语音、文本等等。我们都都使用fastai的Wasserstein GAN的实现来生成更多的训练数据。

GANs包括训练曾经神经网络,曾经被称为生成器,它生成新的数据实例,曾经被称为判别器,它对它们进行真实性评估,它决定每个数据实例有无 属于实际的训练数据集。让我从这个链接查阅更多。

https://github.com/fastai/course-v3/blob/master/nbs/dl1/lesson7-wgan.ipynb

GAN生成样本图片

  去除混淆的图像

训练神经网络的第一步有的是 写任何的神经网络的代码,就是 彻底观察你的数据。这个步至关重要。我喜欢花费几滴 的时间(以小时为单位)浏览数千张样例,理解我们都都的分布,寻找我们都都的模式。——Andrej Karpathy

正如Andrej Karpathy所说,“数据调查”是曾经重要的一步。关于数据调查,我发现太大太大 数据中含不少于三种的类别。

方式-1

使用已经 训练的模型,我对整个训练数据进行了预测。因此丢弃概率得分超过0.9因此预测错误的图像。下面哪些地方地方图像,是模型明显错误分类的。深入观察已经 ,我发现哪些地方地方图像是被人工错误分类了。

混淆的图像

某些图像的预测概率在0.5到0.6之间,理论上已经 是这个图像表现出不止曾经类别,太大太大 模型给我们都都分配了相同的概率,我也把哪些地方地方图像剔除了。观察哪些地方地方图像,这个理论最终被证明是正确的。

方式 2

fast.ai提供了曾经方便的插件“图像清理器插件”,它允许你为个人的模型清理和准备数据。图像清理器还并能清洗不属于你数据集的图像。它在一行中呈现图像,使你有已经 在文件系统中删除文件。

  测试时间增加

测试时间的增加包括提供原始图像的一系列不同的版本,并把我们都都传递到模型中。不用说同的版本中计算出平均值,并给出图像的最终输出。

fast.ai中测试时间的增加

已经 提出的10-crop技巧跟此技巧类似于。我首先在残差网络的论文中读到了10-crop技巧。10-crop技巧包括沿着四角与生心点各裁剪一次,得到五张图像。反向重复以上操作,得到另外五张图像,一共十张。测试时间增加的方式无论何如比10-crop技巧要快。雷锋网雷锋网雷锋网(公众号:雷锋网)

  集成

机器学习中的集成是三种使用多种学习算法的技术,这个技术还并能获得比单一算法更好的预测性能。集成学习最好在下面的条件下工作:

  1. 组成模型具有不同的性质。比如,集成ResNet150和InceptionNet要比组合ResNet150和InceptionNet有用的多,已经 它们本质上是不同的。

  2. 组成模型的相关性较低。

  3. 改变模型的训练集,能得到更多的变化。

在本例中,我通过选者最大位于类来集成所有模型的预测。已经 有多个类有最大再次突然出现的已经 ,我随机选者其中的曾经类。

结果:

公开排行榜——29名(0.962)

私人排行榜——22名(0.9499)

  结论

  1. 渐进的尺寸调整在现在刚开始时是曾经好主意。

  2. 花时间去理解你的数据因此可视化是需要的。

  3. 像fastai这个具有出色的初始化参数的出色的角度学习库,我我其实有帮助。

  4. 只要有已经 ,就要尽量使用迁移学习,已经 我我其实有用。最近,角度学习和迁移学习已经 应用到了特征化数据,太大太大 迁移学习绝对应该是首好难尝试的事情。

  5. 最先进的技术类似于混合增强,测试时间增加,周期学习率将毫无疑问的帮助你将准确率提高1到曾经百分点。

  6. 始终搜索与你的疑问相关的数据集,因此把我们都都尽已经 的用在你的训练数据集中。已经 已经 ,角度学习模型在哪些地方地方模型上训练已经 ,使用我们都都的参数作为你模型的初始权重。

想要继续查看该篇文章相关链接和参考文献?

点击何如优化你的图像分类模型效果?】即可访问:

https://ai.yanxishe.com/page/TextTranslation/1724

社长今日推荐:2017春季CS231n斯坦福角度视觉

李飞飞主讲王牌课程,计算机视觉的深化课程,神经网络在计算机视觉领域的应用,中含图像分类、定位、检测等视觉识别任务,以及其在搜索、图像理解、应用、地图绘制、医学、无人驾驶飞机和自动驾驶汽车领域的前沿应用。

本课程全部免费!加入小组即可立即观看!

课程链接:https://ai.yanxishe.com/page/groupDetail/19

雷锋网原创文章,未经授权禁止转载。详情见转载须知。