自然语言处理(NLP)-模型常用技巧：Normalization【Batch Norm、Layer Norm】

对于NLP中 Mask 的作用（ps：padding mask 和 sequence mask不是官方命名）：Padding mask：处理非定长序列，区分padding和非padding部分，如在RNN等模型和Attention机制中的应用等Sequence mask：防止标签泄露，如：Transformer decoder中的mask矩阵，BERT中的[Mask]位，XLNet中的mask矩阵

u013250861

1824人浏览 · 2021-07-31 21:46:02

u013250861 · 2021-07-31 21:46:02 发布

一、为什么对数据归一化

我们知道在神经网络训练开始前，需要对输入数据做归一化处理，那么具体为什么需要归一化呢？

一方面，神经网络学习过程本质就是为了学习数据特征以及数据的分布特征，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；
另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度，这也正是为什么我们需要对数据都要做一个归一化预处理的原因。

同时也是在训练前为什么要把训练数据充分打乱的原因，充分打乱使得每个batch的样本包含各类别的数据，这样通过每个batch的样本训练时各个batch所包含的数据分布更接近，同时和整个训练集的数据分布更接近，更有利于训练出更泛化的模型，同时有利于模型的收敛。

试想不充分打乱数据，若每个batch只包含一个类别的数据，不同的batch数据进行训练时网络就要在每次迭代都去学习适应不同的分布，会使得网络收敛很慢。

二、数据进行归一化标准化常用的方法

归一化层，目前主要有这几个方法，Batch Normalization（2015年）、Layer Normalization（2016年）、Instance Normalization（2017年）、Group Normalization（2018年）、Switchable Normalization（2018年）；

将输入的图像shape记为[N, C, H, W]，这几个方法主要的区别就是在，

batchNorm是在batch上，对NHW做归一化，对小batchsize效果不好；
layerNorm在通道方向上，对CHW归一化，主要对RNN作用明显；
instanceNorm在图像像素上，对HW做归一化，用在风格化迁移；
GroupNorm将channel分组，然后再做归一化；
SwitchableNorm是将BN、LN、IN结合，赋予权重，让网络自己去学习归一化层应该使用什么方法。

在这里插入图片描述

在这里插入图片描述
论文总结：

Batch Normalization
https://arxiv.org/pdf/1502.03167.pdf
Layer Normalizaiton
https://arxiv.org/pdf/1607.06450v1.pdf
Instance Normalization
https://arxiv.org/pdf/1607.08022.pdf
https://github.com/DmitryUlyanov/texture_nets
Group Normalization
https://arxiv.org/pdf/1803.08494.pdf
Switchable Normalization
https://arxiv.org/pdf/1806.10779.pdf
https://github.com/switchablenorms/Switchable-Normalization

1、Batch Normalization

首先，在进行训练之前，一般要对数据做归一化，使其分布一致，但是在深度神经网络训练过程中，通常以送入网络的每一个batch训练，这样每个batch具有不同的分布；此外，为了解决internal covarivate shift问题，这个问题定义是随着batch normalizaiton这篇论文提出的，在训练过程中，数据分布会发生变化，对下一层网络的学习带来困难。

所以batch normalization就是强行将数据拉回到均值为0，方差为1的正太分布上，这样不仅数据分布一致，而且避免发生梯度消失。

此外，internal corvariate shift和covariate shift是两回事，前者是网络内部，后者是针对输入数据，比如我们在训练数据前做归一化等预处理操作。

在这里插入图片描述 )
算法过程：

沿着通道计算每个batch的均值u
沿着通道计算每个batch的方差 $σ^2$
对 $x$ 做归一化， $x'=\cfrac{(x-u)}{\sqrt{(σ^2+ε)}}$
加入缩放和平移变量 $γ$ 和 $β$ ,归一化后的值， $y = γ x^{'} + β$

加入缩放平移变量的原因是：保证每一次数据经过归一化后还保留原有学习来的特征，同时又能完成归一化操作，加速训练。这两个参数是用来学习的参数。

import numpy as np

def Batchnorm(x, gamma, beta, bn_param):

    # x_shape:[B, C, H, W]
    running_mean = bn_param['running_mean']
    running_var = bn_param['running_var']
    results = 0.
    eps = 1e-5

    x_mean = np.mean(x, axis=(0, 2, 3), keepdims=True)
    x_var = np.var(x, axis=(0, 2, 3), keepdims=True0)
    x_normalized = (x - x_mean) / np.sqrt(x_var + eps)
    results = gamma * x_normalized + beta

    # 因为在测试时是单个图片测试，这里保留训练时的均值和方差，用在后面测试时用
    running_mean = momentum * running_mean + (1 - momentum) * x_mean
    running_var = momentum * running_var + (1 - momentum) * x_var

    bn_param['running_mean'] = running_mean
    bn_param['running_var'] = running_var

    return results, bn_param

2、Layer Normalizaiton

Batch Normalization存在以下缺点：

对batchsize的大小比较敏感，由于每次计算均值和方差是在一个batch上，所以如果batchsize太小，则计算的均值、方差不足以代表整个数据分布；
BN实际使用时需要计算并且保存某一层神经网络batch的均值和方差等统计信息，对于对一个固定深度的前向神经网络（DNN，CNN）使用BN，很方便；但对于RNN来说，sequence的长度是不一致的，换句话说RNN的深度不是固定的，不同的time-step需要保存不同的statics特征，可能存在一个特殊sequence比其他sequence长很多，这样training时，计算很麻烦。（参考https://blog.csdn.net/lqfarmer/article/details/71439314）

与Batch Normalization不同，Layer Normalizaiton是针对深度网络的某一层的所有神经元的输入按以下公式进行normalize操作。
在这里插入图片描述
BN与LN的区别在于：

LN中同层神经元输入拥有相同的均值和方差，不同的输入样本有不同的均值和方差；
BN中则针对不同神经元输入计算均值和方差，同一个batch中的输入拥有相同的均值和方差。

所以，LN不依赖于batch的大小和输入sequence的深度，因此可以用于batch_size为1和RNN中对边长的输入sequence的normalize操作。

LN用于RNN效果比较明显，但是在CNN上，不如BN。

def ln(x, b, s):
    _eps = 1e-5
    output = (x - x.mean(1)[:,None]) / tensor.sqrt((x.var(1)[:,None] + _eps))
    output = s[None, :] * output + b[None,:]
    return output

用在四维图像上，

def Layernorm(x, gamma, beta):

    # x_shape:[B, C, H, W]
    results = 0.
    eps = 1e-5

    x_mean = np.mean(x, axis=(1, 2, 3), keepdims=True)
    x_var = np.var(x, axis=(1, 2, 3), keepdims=True0)
    x_normalized = (x - x_mean) / np.sqrt(x_var + eps)
    results = gamma * x_normalized + beta
    return results

3、Batch Normalization和Layer Normalization的对比分析

在这里插入图片描述

Batch Normalization和Layer Normalization的对比：

Batch Normalization 的处理对象是对一批样本， Layer Normalization 的处理对象是单个样本。
Batch Normalization 是对这批样本的同一维度特征（每个神经元）做归一化， Layer Normalization 是对这单个样本的所有维度特征做归一化。
LN不依赖于batch的大小和输入sequence的深度，因此可以用于batch-size为1和RNN中对边长的输入sequence的normalize操作。但在大批量的样本训练时，效果没BN好。
实践证明，LN用于RNN进行Normalization时，取得了比BN更好的效果。但用于CNN时，效果并不如BN明显。

参考资料：
BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm、SwitchableNorm总结
 什么是批标准化 (Batch Normalization)
Batch Normalization和Layer Normalization的对比分析

智源数据社区

更多推荐

自然语言处理(NLP)-下游任务&数据集：语言模型、机器翻译、问答、文本分类、情感分析、文本生成、自动摘要、命名实体识别、阅读理解、自然语言推理、信息提取、词性标注、共指消解、实体链接【＞200项】

智源数据社区

利用科大讯飞开放平台进行自然语言处理（NLP）Python

最近在做聊天机器人的人工智能实践，需要用到依存句法分析和语义依存分析，所以利用强大的中文语言技术平台注册及快速入门网址 https://www.xfyun.cn/快速入门文档 https://www.xfyun.cn/doc/platform/quickguide.htmlIP白名单设置运行demo时，会出现类似{"code":"10105","data":{},"desc":"ill...