418 L03 Parallel Programming Abstractions

ISPC,3种通信模型(共享内存,消息传递,数据并行)

418 L02 A Modern Multi-Core Processor

多核处理器、SIMD、多线程并发

CS294 L20 Meta Learning

元学习

概念

举例:5way-1shot

图中包含meta-train和meta-test。每一行称为一个task,每个task包含$D_{train}$和$D_{test}$。$D_{train}$包含5个类,每个类一个样本(即5way-1shot),$D_{test}$由这5个类的新图片构成。

训练方法(针对监督学习)

HyperNetwork生成参数

直接利用HyperNetwork生成网络f所需要的参数,这里HyperNetwork起到meta network的作用。训练时使用episodic training,每个episode就是一个task。使用训练集输入到hypernetwork,得到f的参数,然后使用测试集输入到f得到预测的标签,最后用测试集的样本标签得到模型的loss,之后就用梯度下降进行训练,整体是端到端的。

这种方法的缺点是生成参数很麻烦,尤其是当参数空间巨大时。

条件神经网络

把$D_{train}$当做条件输入到f中,那么这个f本身就变成一个meta network了。f的结构可以是多种多样的,如wavenet的架构等等。

这种方法的缺点是有一个额外的输入作为条件,相比于另外两种不直观。

MAML(Model-Agnostic Meta-Learning )

内循环算法使用$D_{train}$训练神经网络f,得到新的参数$\theta’$,但并不更新参数;外循环利用新参数$\theta’$训练$D_{test}$,但对原参数$\theta$求梯度并更新原参数(将$\theta’$带入最后一步公式会得到二阶导数)。这样操作的目的是,更新参数$\theta$,使得它能最快的找到参数更新方向$\theta’$(有点绕,就这意思=。=)。

这种方法缺点是二层循环计算慢。

训练方法

recurrent models

  • Learning to reinforcement learn
  • A simple neural attentive meta-learner

可以使用RNN,attention多重结构

gradient-based model,MAML

  • Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
  • 优势:基于梯度,确保至少能收敛到局部最优

CS294 L16 Inverse Reinforcement Learning

1、有些情况下的收益函数很难定义,因此使用逆增强学习学习收益函数;2、特征匹配逆增强学习像SVM一样最大化间隔,但难以优化;2、最大熵逆IRL解决了人类示范不是最优这种情况,基于表格法,适合有限状态空间;3、深度IRL可以用于连续空间,可以不假设有模型存在,较广泛;4、深度IRL和GAN的思路很相似。

CS294 L15 Connection between Inference and Control

1、区别于最佳控制,引入概率图模型假如一些次优策略;2、后向信息、策略、前向信息的推导;3、软化增强学习算法

CS294 L13 Learning Policies by Imitating Optimal Controllers

1、GPS:将策略梯度引入无模型算法中,策略训练跟随轨迹优化,是对最优控制的模仿学习;2、PLATO:将MPC引入DAgger算法,用近似策略不断纠正,保证收敛性

CS294 L11 Model-Based Reinforcement Learning

1、学习系统转移概率$f(\mathbf{s},\mathbf{a})$的四个版本算法;2、全局模型模型簇的选择;3、从全局模型到局部模型:使用高斯分布策略收集数据,使用贝叶斯线性回归拟合数据,通过轨迹的KL散度控制策略变化不要太大。

CS294 L10 Optimal Control and Planning

1、基于模型的增强学习方法学习系统转移概率(以前方法都忽略),然后进行行动决策;2、随机优化,随机打靶,交叉熵;3、蒙特卡洛树搜索;4、轨迹优化,LRQ,iLRQ

CS294 L09 Advanced Policy Gradients

自然策略梯度(NPG),信赖域策略优化(TRPO),近端策略优化(PPO)

CS294 L08 Deep RL with Q-Function

1、针对序列状态的强相关性和目标值总在变动,引入DQN(replay buffer和固定目标值);2、Q函数max操作会使Q值偏大,使用双重Q网络;3、回归的目标值中,到后期Q值占比比较高,使用N步收益;4、连续空间使用DDPG