对于每一个batch,前向传播计算,计算Z,A,损失函数,再反向传播,计算梯度,更新参数 =》 这是完成一个min-batch样本的操作,比如这里是1000个样本
size=1:随机梯度下降
合适的mini-batch梯度下降:较快的速度收敛到最小【绿色】
使用移动平均数,计算w和b的梯度,可减缓梯度下降的幅度
decay_rate:需调整的超参数