优化算法之间的关系及各自特点的简单分析

作者:神秘网友 发布时间:2021-11-25 14:06:35

优化算法之间的关系及各自特点的简单分析

1 优化算法

https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter07_optimization/7.4_momentum

1.1 动量法

动量法是梯度下降法的改进。梯度下降法的自变量的迭代方向仅仅取决于自变量当前位置,这会带来问题。

动量法对之前1/(1?γ)个时间步进行利用指数加权移动平均,使得自变量的更新方向更加一致,从而降低发散的可能。

1.2AdaGrad算法

AdaGrad 同样是梯度下降法的改进。梯度下降法中目标函数自变量的每一个元素在相同时间步都使用同一个学习率来自我迭代,当存在梯度值相差较大的元素存在问题。

AdaGrad 通过维护 St变量对学习率η进行调整,实现根据不同元素应用不同的学习率。具体作用表现为:如果目标函数有关自变量中某个元素的偏导数一直都较大,那么该元素的学习率将下降较快;反之,如果目标函数有关自变量中某个元素的偏导数一直都较小,那么该元素的学习率将下降较慢。

AdaGrad 存在缺点,由于St一直在累加按元素平方的梯度,自变量中每个元素的学习率在迭代过程中一直在降低(或不变)。所以,当学习率在迭代早期降得较快且当前解依然不佳时,AdaGrad 算法在迭代后期由于学习率过小,可能较难找到一个有用的解。

1.3RMSProp算法

RMSProp 是 AdaGrad 的改进。如上文所言,当学习率在迭代早期降得较快且当前解依然不佳时,AdaGrad算法在迭代后期由于学习率过小,AdaGrad 可能较难找到一个有用的解。

RMSProp 利用动量法中的指数加权移动平均思想对 AdaGrad 中维护的St变量做指数加权移动平均,其可以看作是最近1/(1?γ)个时间步的小批量随机梯度平方项的加权平均。如此一来,自变量每个元素的学习率在迭代过程中就不再一直降低(或不变)。

1.4AdaDelta算法

AdaDelta 是RMSProp 的改进。RMSProp 需要设定超参数学习率,AdaDelta 不需要。

AdaDelta 维护一个Δxt变量,代表有关自变量更新量平方的指数加权移动平均的项,使其代替学习率。

1.5Adam算法

Adam 是 RMSProp 算法与动量法的结合。

Adam 可以看作是在 RMSProp 算法的基础上对 1/(1?γ)个时间步内的小批量随机梯度也做了指数加权移动平均。

2 优化算法之间的关系


本文章教程介绍完毕,更多请访问跳墙网其他文章教程!

优化算法之间的关系及各自特点的简单分析 相关文章

  1. Collection子接口实现类之间的关系与特点(Collection集合)

    Collection子接口实现类之间的关系与特点(Collection集合) Collection大纲 我们先来看一幅图: 一下就很清晰了, Collection 接口下存在三个子接口,他们分别是: Set 、 List 、 Queue ,有如下定义: public interface List extends Collection {} pub...

  2. HMM与Viterbi算法之间的关系以及Viterbi算法如何能够解决分词问

    HMM与Viterbi算法之间的关系以及Viterbi算法如何能够解决分词问题 最近在学习Viterbi算法的过程中遇到一个很棘手的问题,总是搞不清Viterbi算法在实际应用中到底起到了一个什么作用,这让我心烦不已,好在这位老哥的这篇实例文章给...

  3. 微信各平台之间关系及用户间的关系

    微信各平台之间关系及用户间的关系 最近做微信相关的各个平台之间的产品比较多,也踩了不少坑,各平台之间的关系有不少文字类的文章,但是看着不是很清晰,自己总结了一下几个关系图,用于刚入坑的理清它们之间的关...

  4. vue中htmljsvue文件之间的简单引用与关系

    vue中html、js、vue文件之间的简单引用与关系 有关vue文件记录: index.html 在html中运用组件 body app / app !-- 此处app的组件为入口js main.js中定义的组件名 -- script src =build.js / script !-- 此处引用的js为webpack打包生成的js文件 -- / body ma

  5. 移动类型102及122之间的关系区别详解及使用退货PO的适用情况说明

    移动类型102及122之间的关系、区别详解及使用退货PO的适用情况说明 移动类型102及122之间的关系、区别详解及使用退货PO的适用情况说明 作者:袁云飞(AlbertYuan)- 微信号yuanalbert 以下内容均为原创,希望对初学者有一些辅助作...

  6. 掌握百度搜索对优质内容质量4大维度和排名算法之间的关系快速提

    掌握百度搜索对优质内容质量4大维度和排名算法之间的关系,快速提升网站排名! 为什么你的网站排名差??? 关键是要掌握百度搜索对优质网站内容质量4大维度和排名算法之间的关系! 无论是PC/移动网站,还是小程序适用...

  7. javacsript绑定事件的三种方式与各自特点

    javacsript绑定事件的三种方式与各自特点 点击打开链接 javacsript绑定事件的三种方式与各自特点 feipeng88482017-04-11 10:12:00浏览12评论0 javascript函数浏览器demohtmltypeinput 摘要:javacsript绑定事件的三种方式与各自特点 1. 在HTML中直接绑...

  8. Python的实例方法类方法静态方法之间的区别及调用关系

    Python的实例方法,类方法,静态方法之间的区别及调用关系 如果只看这个图,很多人可能会看的一头雾水,特别是学过完全面向对象语言的同学, Python 是双面向的,既可以面向函数编程,也可以面向对象编程,所谓面向函数就是单独一个....

  9. 四个肉夹馍看透程序化交易算法交易量化投资统计套利之间的关系

    四个“肉夹馍”看透程序化交易、算法交易、量化投资、统计套利之间的关系 看着这乱七八糟花里胡哨的概念就让人感到神神叨叨,一头雾水。但其实如果你改行去做肉夹馍也许就能立马对这些看起来遥不可及的东西有所体会...

  10. javacsript绑定事件的三种方式与各自特点

    javacsript绑定事件的三种方式与各自特点 javacsript绑定事件的三种方式与各自特点 [var1] input type=button value=Click me! οnclick=doSomething(); / 在HTML中绑定函数还有两种方式:原生函数和自定义函数(原文链接:链接) ??当JavaScript代码偏...

  11. 十、表与表之间的常见关系及ER图

    十、表与表之间的常见关系及ER图 表与表之间的常见关系及ER图 一、常见关系 一对多: 用户和订单 分类和商品 多对多: 订单和商品 学生和课程 一对一: 丈夫和妻子 二、ER图(E-实体,R-关系。 实体关系图) 如图: 如上图所示,...

  12. WEB服务器,容器及tomcat之间的关系

    WEB服务器,容器及tomcat之间的关系 学习web项目的时候,一直对各种容器和服务器的关系搞不清,觉得很绕,就在网上找了一些博客看了一下后稍微对这些有了一些了解. 首先一个博客讲的已经挺详细了https://blog.csdn.net/tjiyu/article/details/...

  13. JVM常用的8种垃圾回收器:主要特点,使用场景及优化建议

    JVM常用的8种垃圾回收器:主要特点,使用场景及优化建议 文章目录 垃圾回收算法 垃圾回收器 Serial ParNew Parallel Scavenge Serial Old Parallel Old CMS G1 ZGC 总结 参考 垃圾回收算法是所有垃圾回收器的基础,不同的垃圾回收器所使用的垃圾...

  14. (十七)数电(时序逻辑电路的设计与分析)时序逻辑电路的特点及

    (十七)【数电】(时序逻辑电路的设计与分析)时序逻辑电路的特点及描述方法 文章目录 A 时序逻辑电路的特点及描述方法 A.a 时序逻辑电路的特点及分类 A.b 时序逻辑电路的方程描述 A.c 时序逻辑电路的图标描述 A.c.a 状态转...

  15. UML类图及类之间关系总结-简单易懂

    UML类图及类之间关系总结-简单易懂 UML类图总结-简单易懂 [var1] 全称 Unified modeling language ( 统一建模语言 ),是一种用于 软件系统分析和设计的语言工具,它用于帮助软件开发人员进行思考和记录思路的结果。 分类 用例图:...

  16. 《深度学习导论及案例分析》一1.2深层网络的特点和优势

    《深度学习导论及案例分析》一1.2深层网络的特点和优势 ####本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第1章,第1.2节,作者李玉 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.2深...

  17. 卷积与反卷积(转置卷积)关系的公式推导 及其各自的形式

    卷积与反卷积(转置卷积)关系的公式推导 及其各自的形式 2. Transposed Convolution, Fractionally Strided Convolution or Deconvolution https://buptldy.github.io/2016/10/29/2016-10-29-deconv/ Posted on2016-10-29 反卷积层 在介绍反卷积之前,我们

  18. 冒泡算法的简单优化

    冒泡算法的简单优化 冒泡排序算法的原理如下: 比较相邻的元素。如果第一个比第二个大,就交换他们两个。 对每一对相邻元素做同样的工作,从开始第一对到结尾的最后一对。在这一点,最后的元素应该会是最大的数。 针...

  19. 模型算法和训练的关系及迁移学习 AI基础

    模型、算法和训练的关系,及迁移学习 | AI基础 模型、训练、算法这几个概念是机器学习和深度学习的最基础,现在看来有必要说明一下。 以下所有解释均仅限于人工智能领域。 模型 模型是什么? 通常 形容AI语境下的模型一...

  20. [DA45] 使用PageRank算法分析希拉里邮件中的人物关系

    [DA45] 使用PageRank算法分析希拉里邮件中的人物关系 (一) PageRank算法 PageRank 算法是 google 公司的创始人拉里佩奇和谢尔盖布林于1998年提出的网页搜索优化算法. 详细内容请见百度百科:google pagerank. 如果你了解了该算法, 就能明白上...

每天更新java,php,javaScript,go,python,nodejs,vue,android,mysql等相关技术教程,教程由网友分享而来,欢迎大家分享IT技术教程到本站,帮助自己同时也帮助他人!

Copyright 2021, All Rights Reserved. Powered by 跳墙网(www.tqwba.com)|网站地图|关键词