报名热线:

0898-08980898

个/性/化/教/育/行/业/领/跑/者

天辰注册

CURRICULUM

天辰APP下载

0898-08980898

广东省清远市

123456789

天辰新闻 >更多
天辰新闻

当前位置: 首页 > 天辰新闻

优化算法新观点

2024/03/04

这两天闲下来了,写篇新专栏

这个专栏基于我上学期一门课的大作业见下

about.2prime.cn/DOPT.pd

我这里的内容都是很简单的介绍,列一些经典文献而已233

我上面report的更详细,而且有更多我的数值佐证一些观点,做出来的实验和一些文章里assert的理解不太符合

基本想法是,把离散一步一步的优化算法连续化观察

基本的motivation是最简单的梯度下降

x_{k+1}=x_{k}-\\Delta t\
abla f(x_k)

可以理解成在simulate这个ode \\dot X=-\
abla f(X)

然后[1]发现我们熟知的nesterov算法会对应着 \\ddot X +\\frac{3}{t}\\dot X +\
abla f(X)=0

然后大家自己推一下也会发现,动量梯度下降会对应着 \\ddot X +\\dot X +\
abla f(X)=0

[这里其实我有一个更深刻的理解,因为很少有数值ode社区的人来看这个问题,这个\\ddot X在步长变小的时候会消失,其实最后还是收敛到原来的梯度流,变快的原因是\\ddot X是修正方程(就是原来的梯度流是O(\\Delta t)逼近,二阶方程是更高阶的逼近,这个想法我们想继续做一些工作)]

[1]通过构造能量函数[利亚普诺夫分析的方法证明了优化算法的收敛性

这个构造能量函数的方法还有很多用处比如

[3]、[4]用这个想法证明了优化算法脱离鞍点的速度[随机的部分后面会说


[5]乍看起来很神奇

可以看我最开始贴的note的最后,我讲了这个东西怎么出来的

用一个变换就可以吧 \\dot X 项消去,变成典型的牛顿第二定律方程

如果知道一点pde/物理就知道可以用最小作用原理就会出来MJ的那个variational perspective

然后MJ这篇文章还基于了他的同事的工作[6],我觉得因为[1]有boyd和candes,[5]有MJ,[6]这篇文章虽然有大牛peter但是关注的人却很少

他把上面这一套加速的框架推广到了bregman方法上

[2]还推广到了坐标下降,newton类算法[坐标下降这个其实是自然,就是一个类似蒜子分裂的想法吧

张志华老师最近还有一系列工作用nesterov做到了newton类算法里


然后随机的分析方法就是

基本的motivation是最简单的梯度下降

x_{k+1}=x_{k}-\\Delta t\
abla f(x_k)+\\sqrt{\\Delta t}\\eta_k,\\eta_k\\sim N(0;I)

可以理解成在simulate这个sde \\dot X=-\
abla f(X)+dW_t

今年nips有工作把加速的框架放进到这个随机的版本里了,这里不提

我更想说的是

这个sde \\dot X=-\
abla f(X)+dW_t 最后收敛到gibbs分布

所以这里就把贝叶斯采样和优化算法联系起来了,这样也能理解一个著名的结果sgd会“train faster generalize better”,因为贝叶斯会采样到flat的minima,所以会更加robust

不过这个是极限情况了

在有限时间的时候王立威老师做了有限时间sgld的generalize的bound


[1]Su W, Boyd S. A differential equation for modeling Nesterov's accelerated gradient method: theory and insights[C]// International Conference on Neural Information Processing Systems. MIT Press, 2014:2510-2518.

jmlr.org/papers/volume1

[2]Yang L F, Arora R, Braverman V, et al. The Physical Systems Behind Optimization Algorithm.

arxiv.org/pdf/1612.0280

[3]Jin C, Ge R, Netrapalli P, et al. How to Escape Saddle Points Efficiently

[4]Jin C, Netrapalli P, Jordan M I. Accelerated Gradient Descent Escapes Saddle Points Faster than Gradient Descent. 2017.

[5] A. Wibisono, A. Wilson, and M. I. Jordan. A variational perspective on accelerated methods in
optimization. Proceedings of the National Academy of Sciences, 133, E7351-E7358, 2016.

[6]Bartlett P L, Bartlett P L, Bartlett P L. Accelerated mirror descent in continuous and discrete
time[C]// International Conference on Neural Information Processing Systems. MIT Press, 2015:2845-
2853.

关于天辰娱乐 /ABOUT US
天辰最安全、信誉、快捷的娱乐【skype:zhumeng1688】,是亚洲极具公信力的娱乐游戏公司,以互联网技术为基础,引进海外高科技人才,天辰公司自主研发了基于playcraft引擎的H5网页版游戏,致力于带给天辰平台玩家最新颖、最高效的服务与娱乐体验。...

友情链接:

微信平台

手机官网

网站首页| 关于天辰娱乐| 天辰注册| 天辰新闻| 天辰注册| 天辰登录| 天辰平台| 天辰APP下载| 天辰代理加盟|

平台注册入口