神经网络：卷积神经网络（CNN）

2024-05-13

1. 神经网络：卷积神经网络（CNN）

神经网络 最早是由心理学家和神经学家提出的，旨在寻求开发和测试神经的计算模拟。
  
 粗略地说， 神经网络 是一组连接的 输入/输出单元 ，其中每个连接都与一个 权 相关联。在学习阶段，通过调整权值，使得神经网络的预测准确性逐步提高。由于单元之间的连接，神经网络学习又称 连接者学习。 
  
 神经网络是以模拟人脑神经元的数学模型为基础而建立的，它由一系列神经元组成，单元之间彼此连接。从信息处理角度看，神经元可以看作是一个多输入单输出的信息处理单元，根据神经元的特性和功能，可以把神经元抽象成一个简单的数学模型。
  
 神经网络有三个要素： 拓扑结构、连接方式、学习规则 
  
  
   
                                          
  神经网络的拓扑结构 ：神经网络的单元通常按照层次排列，根据网络的层次数，可以将神经网络分为单层神经网络、两层神经网络、三层神经网络等。结构简单的神经网络，在学习时收敛的速度快，但准确度低。
  
 神经网络的层数和每层的单元数由问题的复杂程度而定。问题越复杂，神经网络的层数就越多。例如，两层神经网络常用来解决线性问题，而多层网络就可以解决多元非线性问题
  
  神经网络的连接 ：包括层次之间的连接和每一层内部的连接，连接的强度用权来表示。
  
 根据层次之间的连接方式，分为：
  
 1）前馈式网络：连接是单向的，上层单元的输出是下层单元的输入，如反向传播网络，Kohonen网络
  
 2）反馈式网络：除了单项的连接外，还把最后一层单元的输出作为第一层单元的输入，如Hopfield网络
  
 根据连接的范围，分为：
  
 1）全连接神经网络：每个单元和相邻层上的所有单元相连
  
 2）局部连接网络：每个单元只和相邻层上的部分单元相连
  
  神经网络的学习 
  
 根据学习方法分：
  
 感知器：有监督的学习方法，训练样本的类别是已知的，并在学习的过程中指导模型的训练
  
 认知器：无监督的学习方法，训练样本类别未知，各单元通过竞争学习。
  
 根据学习时间分：
  
 离线网络：学习过程和使用过程是独立的
  
 在线网络：学习过程和使用过程是同时进行的
  
 根据学习规则分：
  
 相关学习网络：根据连接间的激活水平改变权系数
  
 纠错学习网络：根据输出单元的外部反馈改变权系数
  
 自组织学习网络：对输入进行自适应地学习
  
 
  
  
 摘自《数学之美》对人工神经网络的通俗理解：
  
 
  
                                          
 
  
                                          
 神经网络种类很多，常用的有如下四种：
  
 1）Hopfield网络，典型的反馈网络，结构单层，有相同的单元组成
  
 2）反向传播网络，前馈网络，结构多层，采用最小均方差的纠错学习规则，常用于语言识别和分类等问题
  
 3）Kohonen网络：典型的自组织网络，由输入层和输出层构成，全连接
  
 4）ART网络：自组织网络
  
  深度神经网络： 
  
 Convolutional Neural Networks(CNN)卷积神经网络
  
 Recurrent neural Network(RNN)循环神经网络
  
 Deep Belief Networks(DBN)深度信念网络
  
 深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。
  
  深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。 
  
  
   
                                          
 
  
  
  Machine Learning vs. Deep Learning  
                                          
 
  
                                          
 神经网络（主要是感知器）经常用于 分类 
  
 神经网络的分类知识体现在网络连接上，被隐式地存储在连接的权值中。
  
 神经网络的学习就是通过迭代算法，对权值逐步修改的优化过程，学习的目标就是通过改变权值使训练集的样本都能被正确分类。
  
 神经网络特别适用于下列情况的分类问题：
  
 1) 数据量比较小，缺少足够的样本建立模型
  
  2) 数据的结构难以用传统的统计方法来描述 
  
  3) 分类模型难以表示为传统的统计模型 
  
 缺点：
  
 1) 需要很长的训练时间，因而对于有足够长训练时间的应用更合适。
  
 2) 需要大量的参数，这些通常主要靠经验确定，如网络拓扑或“结构”。
  
 3)  可解释性差 。该特点使得神经网络在数据挖掘的初期并不看好。
  
 优点：
  
 1) 分类的准确度高 
  
 2)并行分布处理能力强
  
 3)分布存储及学习能力高
  
 4)对噪音数据有很强的鲁棒性和容错能力
  
 
  
  
 最流行的基于神经网络的分类算法是80年代提出的 后向传播算法 。后向传播算法在多路前馈神经网络上学习。 
                                          
  定义网络拓扑  
  
 在开始训练之前，用户必须说明输入层的单元数、隐藏层数（如果多于一层）、每一隐藏层的单元数和输出层的单元数，以确定网络拓扑。 
  
 对训练样本中每个属性的值进行规格化将有助于加快学习过程。通常，对输入值规格化，使得它们落入0.0和1.0之间。
  
 离散值属性可以重新编码，使得每个域值一个输入单元。例如，如果属性A的定义域为(a0,a1,a2)，则可以分配三个输入单元表示A。即，我们可以用I0 ,I1 ,I2作为输入单元。每个单元初始化为0。如果A = a0，则I0置为1；如果A = a1，I1置1；如此下去。
  
 一个输出单元可以用来表示两个类（值1代表一个类，而值0代表另一个）。如果多于两个类，则每个类使用一个输出单元。
  
 隐藏层单元数设多少个“最好” ，没有明确的规则。
  
 网络设计是一个实验过程，并可能影响准确性。权的初值也可能影响准确性。如果某个经过训练的网络的准确率太低，则通常需要采用不同的网络拓扑或使用不同的初始权值，重复进行训练。
  
  后向传播算法学习过程： 
  
 迭代地处理一组训练样本，将每个样本的网络预测与实际的类标号比较。
  
 每次迭代后，修改权值，使得网络预测和实际类之间的均方差最小。
  
 这种修改“后向”进行。即，由输出层，经由每个隐藏层，到第一个隐藏层（因此称作后向传播）。尽管不能保证，一般地，权将最终收敛，学习过程停止。
  
 算法终止条件：训练集中被正确分类的样本达到一定的比例，或者权系数趋近稳定。
  
  后向传播算法分为如下几步： 
  
  1) 初始化权  
  
 网络的权通常被初始化为很小的随机数（例如，范围从-1.0到1.0，或从-0.5到0.5）。
  
 每个单元都设有一个偏置（bias），偏置也被初始化为小随机数。
  
  2) 向前传播输入  
  
 对于每一个样本X，重复下面两步：
  
 向前传播输入，向后传播误差
  
 计算各层每个单元的输入和输出。输入层：输出=输入=样本X的属性；即，对于单元j，Oj = Ij = Xj。隐藏层和输出层：输入=前一层的输出的线性组合,即，对于单元j， Ij =wij Oi + θj，输出=
                                          
  3) 向后传播误差 
  
 计算各层每个单元的误差。
  
 输出层单元j，误差：
                                          
 Oj是单元j的实际输出，而Tj是j的真正输出。
  
 隐藏层单元j，误差：
                                          
 wjk是由j到下一层中单元k的连接的权，Errk是单元k的误差
  
 更新 权 和 偏差 ，以反映传播的误差。
  
 权由下式更新：
                                          
  其中，△wij是权wij的改变。l是学习率，通常取0和1之间的值。
  
  偏置由下式更新：
                                          
   其中，△θj是偏置θj的改变。
  
 
  
                                          
 
  
  
 Example
  
 
  
                                          
 
  
  
 人类视觉原理：
  
 深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。1981 年的诺贝尔医学奖，颁发给了 David Hubel（出生于加拿大的美国神经生物学家） 和Torsten Wiesel，以及Roger Sperry。前两位的主要贡献，是“发现了视觉系统的信息处理”， 可视皮层是分级的 。
  
 人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。
  
 
  
                                          
 对于不同的物体，人类视觉也是通过这样逐层分级，来进行认知的：
  
 
  
                                          
 在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等），到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确的区分不同的物体。
  
 可以很自然的想到：可以不可以模仿人类大脑的这个特点，构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类呢？答案是肯定的，这也是许多深度学习算法（包括CNN）的灵感来源。
  
 卷积神经网络是一种多层神经网络，擅长处理图像特别是大图像的相关机器学习问题。卷积网络通过一系列方法，成功将数据量庞大的图像识别问题不断降维，最终使其能够被训练。
  
 CNN最早由Yann LeCun提出并应用在手写字体识别上。LeCun提出的网络称为LeNet，其网络结构如下：
  
 
  
                                          
 这是一个最典型的卷积网络，由 卷积层、池化层、全连接层 组成。其中卷积层与池化层配合，组成多个卷积组，逐层提取特征，最终通过若干个全连接层完成分类。
  
  CNN通过卷积来模拟特征区分，并且通过卷积的权值共享及池化，来降低网络参数的数量级，最后通过传统神经网络完成分类等任务。 
  
 降低参数量级：如果使用传统神经网络方式，对一张图片进行分类，那么，把图片的每个像素都连接到隐藏层节点上，对于一张1000x1000像素的图片，如果有1M隐藏层单元，一共有10^12个参数，这显然是不能接受的。
  
 
  
                                          
 但是在CNN里，可以大大减少参数个数，基于以下两个假设：
  
 1）最底层特征都是局部性的，也就是说，用10x10这样大小的过滤器就能表示边缘等底层特征
  
 2）图像上不同小片段，以及不同图像上的小片段的特征是类似的，也就是说，能用同样的一组分类器来描述各种各样不同的图像
  
 基于以上两个假设，就能把第一层网络结构简化
  
 用100个10x10的小过滤器，就能够描述整幅图片上的底层特征。
  
 
  
                                          
 
  
                                          
 卷积运算的定义如下图所示：
                                          
 如上图所示，一个5x5的图像，用一个3x3的 卷积核 ：
  
    1　　0　　1
  
    0　　1　　0
  
    1　　0　　1
  
 来对图像进行卷积操作（可以理解为有一个滑动窗口，把卷积核与对应的图像像素做乘积然后求和），得到了3x3的卷积结果。
  
 这个过程可以理解为使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值。在实际训练过程中， 卷积核的值是在学习过程中学到的。 
  
 在具体应用中，往往有多个卷积核，可以认为， 每个卷积核代表了一种图像模式 ，如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果设计了6个卷积核，可以理解为这个图像上有6种底层纹理模式，也就是用6种基础模式就能描绘出一副图像。以下就是24种不同的卷积核的示例：
                                          
  池化 的过程如下图所示：
                                          
 可以看到，原始图片是20x20的，对其进行采样，采样窗口为10x10，最终将其采样成为一个2x2大小的特征图。
  
 之所以这么做，是因为即使做完了卷积，图像仍然很大（因为卷积核比较小），所以为了降低数据维度，就进行采样。
  
 即使减少了许多数据，特征的统计属性仍能够描述图像，而且由于降低了数据维度，有效地避免了过拟合。
  
 在实际应用中，分为最大值采样（Max-Pooling）与平均值采样（Mean-Pooling）。
  
 
  
  
 LeNet网络结构：
                                          
 注意，上图中S2与C3的连接方式并不是全连接，而是部分连接。最后，通过全连接层C5、F6得到10个输出，对应10个数字的概率。
  
 卷积神经网络的训练过程与传统神经网络类似，也是参照了反向传播算法
  
 第一阶段，向前传播阶段：
  
 a）从样本集中取一个样本(X,Yp)，将X输入网络；
  
 b）计算相应的实际输出Op
  
 第二阶段，向后传播阶段
  
 a）计算实际输出Op与相应的理想输出Yp的差；
  
 b）按极小化误差的方法反向传播调整权矩阵。

神经网络：卷积神经网络（CNN）

2. CNN卷积神经网络结构有哪些特点？

局部连接，权值共享，池化操作，多层次结构。
　　1、局部连接使网络可以提取数据的局部特征；

　　2、权值共享大大降低了网络的训练难度，一个Filter只提取一个特征，在整个图片(或者语音/文本) 中进行卷积；

　　3、池化操作与多层次结构一起，实现了数据的降维，将低层次的局部特征组合成为较高层次的特征，从而对整个图片进行表示。

3. CNN（卷积神经网络）是什么？

在数字图像处理的时候我们用卷积来滤波是因为我们用的卷积模版在频域上确实是高通低通带通等等物理意义上的滤波器。然而在神经网络中，模版的参数是训练出来的，我认为是纯数学意义的东西，很难理解为在频域上还有什么意义，所以我不认为神经网络里的卷积有滤波的作用。接着谈一下个人的理解。首先不管是不是卷积神经网络，只要是神经网络，本质上就是在用一层层简单的函数（不管是sigmoid还是Relu）来拟合一个极其复杂的函数，而拟合的过程就是通过一次次back propagation来调参从而使代价函数最小。

CNN（卷积神经网络）是什么？

4. 一文看懂卷积神经网络-CNN（基本原理+独特价值+实际应用）

在 CNN 出现之前，图像对于人工智能来说是一个难题，有2个原因：
  
 图像需要处理的数据量太大，导致成本很高，效率很低
  
 图像在数字化的过程中很难保留原有的特征，导致图像处理的准确率不高
  
 下面就详细说明一下这2个问题：
  
 
  
  
 图像是由像素构成的，每个像素又是由颜色构成的。
                                          
 现在随随便便一张图片都是 1000×1000 像素以上的， 每个像素都有RGB 3个参数来表示颜色信息。
  
 假如我们处理一张 1000×1000 像素的图片，我们就需要处理3百万个参数！
  
 1000×1000×3=3,000,000
  
 这么大量的数据处理起来是非常消耗资源的，而且这只是一张不算太大的图片！
  
  卷积神经网络 – CNN 解决的第一个问题就是「将复杂问题简化」，把大量参数降维成少量参数，再做处理。 
  
  更重要的是：我们在大部分场景下，降维并不会影响结果。比如1000像素的图片缩小成200像素，并不影响肉眼认出来图片中是一只猫还是一只狗，机器也是如此。 
  
 
  
  
 图片数字化的传统方式我们简化一下，就类似下图的过程：
                                          
 假如有圆形是1，没有圆形是0，那么圆形的位置不同就会产生完全不同的数据表达。但是从视觉的角度来看， 图像的内容（本质）并没有发生变化，只是位置发生了变化 。
  
 所以当我们移动图像中的物体，用传统的方式的得出来的参数会差异很大！这是不符合图像处理的要求的。
  
  而 CNN 解决了这个问题，他用类似视觉的方式保留了图像的特征，当图像做翻转，旋转或者变换位置时，它也能有效的识别出来是类似的图像。 
  
 那么卷积神经网络是如何实现的呢？在我们了解 CNN 原理之前，先来看看人类的视觉原理是什么？
  
 
  
  
 深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。
  
 1981 年的诺贝尔医学奖，颁发给了 David Hubel（出生于加拿大的美国神经生物学家） 和TorstenWiesel，以及 Roger Sperry。前两位的主要贡献，是“ 发现了视觉系统的信息处理 ”，可视皮层是分级的。
  
 人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素 Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。下面是人脑进行人脸识别的一个示例：
                                          
 
  
  
 对于不同的物体，人类视觉也是通过这样逐层分级，来进行认知的：
                                          
 我们可以看到，在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等），到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确的区分不同的物体。
  
 那么我们可以很自然的想到：可以不可以模仿人类大脑的这个特点，构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类呢？
  
  答案是肯定的，这也是许多深度学习算法（包括CNN）的灵感来源。 
  
 
  
  
 典型的 CNN 由3个部分构成：
  
 卷积层
  
 池化层
  
 全连接层
  
 如果简单来描述的话：
  
 卷积层负责提取图像中的局部特征；池化层用来大幅降低参数量级(降维)；全连接层类似传统神经网络的部分，用来输出想要的结果。
                                          
 下面的原理解释为了通俗易懂，忽略了很多技术细节，如果大家对详细的原理感兴趣，可以看这个视频《 卷积神经网络基础 》。
  
 
  
  
 卷积层的运算过程如下图，用一个卷积核扫完整张图片：
                                          
 这个过程我们可以理解为我们使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值。
  
 在具体应用中，往往有多个卷积核，可以认为，每个卷积核代表了一种图像模式，如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果我们设计了6个卷积核，可以理解：我们认为这个图像上有6种底层纹理模式，也就是我们用6中基础模式就能描绘出一副图像。以下就是25种不同的卷积核的示例：
                                          
  总结：卷积层的通过卷积核的过滤提取出图片中局部的特征，跟上面提到的人类视觉的特征提取类似。 
  
 
  
  
 池化层简单说就是下采样，他可以大大降低数据的维度。其过程如下：
                                          
 上图中，我们可以看到，原始图片是20×20的，我们对其进行下采样，采样窗口为10×10，最终将其下采样成为一个2×2大小的特征图。
  
 之所以这么做的原因，是因为即使做完了卷积，图像仍然很大（因为卷积核比较小），所以为了降低数据维度，就进行下采样。
  
  总结：池化层相比卷积层可以更有效的降低数据维度，这么做不但可以大大减少运算量，还可以有效的避免过拟合。 
  
 
  
  
 这个部分就是最后一步了，经过卷积层和池化层处理过的数据输入到全连接层，得到最终想要的结果。
  
 经过卷积层和池化层降维过的数据，全连接层才能”跑得动”，不然数据量太大，计算成本高，效率低下。
                                          
 典型的 CNN 并非只是上面提到的3层结构，而是多层结构，例如 LeNet-5 的结构就如下图所示：
  
  卷积层 – 池化层- 卷积层 – 池化层 – 卷积层 – 全连接层 
  
 在了解了 CNN 的基本原理后，我们重点说一下 CNN 的实际应用有哪些。
  
 
  
  
 卷积神经网络 – CNN 很擅长处理图像。而视频是图像的叠加，所以同样擅长处理视频内容。下面给大家列一些比较成熟的应用�：
  
 
  
  
  图像分类、检索 
  
 图像分类是比较基础的应用，他可以节省大量的人工成本，将图像进行有效的分类。对于一些特定领域的图片，分类的准确率可以达到 95%+，已经算是一个可用性很高的应用了。
  
 典型场景：图像搜索…
                                          
 
  
  
  目标定位检测 
  
 可以在图像中定位目标，并确定目标的位置及大小。
  
 典型场景：自动驾驶、安防、医疗…
                                          
 
  
  
  目标分割 
  
 简单理解就是一个像素级的分类。
  
 他可以对前景和背景进行像素级的区分、再高级一点还可以识别出目标并且对目标进行分类。
  
 典型场景：美图秀秀、视频后期加工、图像生成…
                                          
 
  
  
  人脸识别 
  
 人脸识别已经是一个非常普及的应用了，在很多领域都有广泛的应用。
  
 典型场景：安防、金融、生活…
                                          
 
  
  
  骨骼识别 
  
 骨骼识别是可以识别身体的关键骨骼，以及追踪骨骼的动作。
  
 典型场景：安防、电影、图像视频生成、游戏…
                                          
 
  
  
 今天我们介绍了 CNN 的价值、基本原理和应用场景，简单总结如下：
  
  CNN 的价值： 
  
 能够将大数据量的图片有效的降维成小数据量(并不影响结果)
  
 能够保留图片的特征，类似人类的视觉原理
  
  CNN 的基本原理： 
  
 卷积层 – 主要作用是保留图片的特征
  
 池化层 – 主要作用是把数据降维，可以有效的避免过拟合
  
 全连接层 – 根据不同任务输出我们想要的结果
  
  CNN 的实际应用： 
  
 图片分类、检索
  
 目标定位检测
  
 目标分割
  
 人脸识别
  
 骨骼识别
  
 本文首发在 easyAI - 人工智能知识库
  
 《 一文看懂卷积神经网络-CNN（基本原理+独特价值+实际应用） 》

5. CNN（卷积神经网络）算法

基础知识讲解：
   卷积：通过两个函数f 和g 生成第三个函数的一种数学算子，表征函数f 与g经过翻转和平移的重叠部分函数值乘积对重叠长度的积分。
   前馈神经网络：各神经元分层排列，每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层．各层间没有反馈。
   卷积神经网络：是一类包含卷积计算且具有深度结构的前馈神经网络
   卷积核：就是图像处理时，给定输入图像，输入图像中一个小区域中像素加权平均后成为输出图像中的每个对应像素，其中权值由一个函数定义，这个函数称为卷积核。
   下采样：对于一个样值序列间隔几个样值取样一次，这样得到新序列就是原序列的下采样。
   结构介绍
   输入层：用于数据输入
   卷积层：利用卷积核进行特征提取和特征映射
   激励层：非线性映射，卷积是线性映射，弥补不足
   池化层：进行下采样，对特征图稀疏处理，减少数据运算量
   全连接层：在CNN的尾部进行重新拟合，减少特征信息的损失
  
 输入层：
   在CNN的输入层中，（图片）数据输入的格式 与 全连接神经网络的输入格式（一维向量）不太一样。CNN的输入层的输入格式保留了图片本身的结构。
   对于黑白的 28×28 的图片，CNN的输入是一个 28×28 的的二维神经元：
   而对于RGB格式的28×28图片，CNN的输入则是一个 3×28×28 的三维神经元（RGB中的每一个颜色通道都有一个 28×28 的矩阵）
  
 卷积层：
                                          
 左边是输入，中间部分是两个不同的滤波器Filter w0、Filter w1，最右边则是两个不同的输出。
   ai.j=f(∑m=02∑n=02wm,nxi+m,j+n+wb)
   wm,n:filter的第m行第n列的值
   xi,j: 表示图像的第i行第j列元素
   wb:用表示filter的偏置项
   ai,j:表示Feature Map的第i行第j列元素
   f:表示Relu激活函数
  
 激励层：
   使用的激励函数一般为ReLu函数：
   f(x)=max(x,0)
   卷积层和激励层通常合并在一起称为“卷积层”。
  
 池化层：
   当输入经过卷积层时，若感受视野比较小，布长stride比较小，得到的feature map （特征图）还是比较大，可以通过池化层来对每一个 feature map 进行降维操作，输出的深度还是不变的，依然为 feature map 的个数。
   池化层也有一个“池化视野（filter）”来对feature map矩阵进行扫描，对“池化视野”中的矩阵值进行计算，一般有两种计算方式：
   Max pooling：取“池化视野”矩阵中的最大值
   Average pooling：取“池化视野”矩阵中的平均值
                                          
 训练过程：
   1.前向计算每个神经元的输出值aj（ 表示网络的第j个神经元，以下同）；
   2.反向计算每个神经元的误差项σj，σj在有的文献中也叫做敏感度(sensitivity)。它实际上是网络的损失函数Ed对神经元加权输入的偏导数
   3.计算每个神经元连接权重wi,j的梯度（ wi,j表示从神经元i连接到神经元j的权重）
   1.最后，根据梯度下降法则更新每个权重即可。
   参考： https://blog.csdn.net/love__live1/article/details/79481052

CNN（卷积神经网络）算法

6. 卷积神经网络通俗理解

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一 。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络。

卷积神经网络仿造生物的视知觉机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征，例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程要求

7. 卷积神经网络通俗理解

卷积神经网络通俗理解如下：
卷积神经网络(CNN)-结构
① CNN结构一般包含这几个层：
输入层：用于数据的输入
卷积层：使用卷积核进行特征提取和特征映射
激励层：由于卷积也是一种线性运算，因此需要增加非线性映射
池化层：进行下采样，对特征图稀疏处理，减少数据运算量。
全连接层：通常在CNN的尾部进行重新拟合，减少特征信息的损失
输出层：用于输出结果
② 中间还可以使用一些其他的功能层：
归一化层（Batch Normalization）：在CNN中对特征的归一化
切分层：对某些（图片）数据的进行分区域的单独学习
融合层：对独立进行特征学习的分支进行融合

请点击输入图片描述
卷积神经网络(CNN)-输入层
① CNN的输入层的输入格式保留了图片本身的结构。
② 对于黑白的 28×28的图片，CNN 的输入是一个 28×28 的二维神经元。
③ 对于 RGB 格式的 28×28 图片，CNN 的输入则是一个3×28×28 的三维神经元（RGB中的每一个颜色通道都有一个 28×28 的矩阵）
2）卷积神经网络(CNN)-卷积层
感受视野
① 在卷积层中有几个重要的概念：
local receptive fields（感受视野）
shared weights（共享权值）
② 假设输入的是一个 28×28 的的二维神经元，我们定义 5×5 的 一个 local receptive fields（感受视野），即 隐藏层的神经元与输入层的 5×5 个神经元相连，这个 5*5 的区域就称之为 Local Receptive Fields，

卷积神经网络通俗理解

8. 初识卷积神经网络

按照上文中介绍的神经网络，如果处理一张图片的话，参数有多大呢？假设图像的大小为1200 * 1200，下一层的神经元个数为10^5，不难得出参数量为 1200 * 1200 * 10^5 = 1.44 * 10^12。可以看出一层的参数量就是很大了，如果再多加几层，那参数量大的应该是超出了内存的承受范围，这从研究和工程的角度都是不允许的。而且参数太多，很容易造成过拟合。
  
 怎么解决这个问题呢？经过研究，从稀疏连接、参数共享和平移不变性三个方面来进行改进。
  
 可能有些人不懂这种稀疏连接是怎么实现的？先来说说卷积操作，以一个二维矩阵为输入（可以看作是一个单通道图片的像素值），卷积产生的稀疏连接根本原因就是这块的核函数，一般的核函数的大小远小于输入的大小。
  
 以下图例：卷积操作可以看做是一种滑窗法，首先，输入维度是4×4，输入中红色部分，先和核函数中的元素对应相乘，就是输出中左上角的元素值s1,即 s1 = a×k1+b×k2+e×k3+f×k4。
                                          
 参数共享是指在一个模型的多个函数中使用相同的参数，它是卷积运算带来的固有属性。
  
 在全连接中，计算每层的输出时，权重矩阵中的元素只作用于某一个输入元素一次；
  
 而在卷积神经网络中，卷积核中的每一个元素将作用于每一个局部输入的特定位置上。根据参数共享的思想，我们只需要学习一组参数集合，而不需要针对每一个位置的每一个参数来进行优化学习，从而大大降低了模型的存储需求。
  
 如果一个函数的输入做了一些改变，那么输出也跟着做出同样的改变，这就时平移不变性。
  
 平移不变性是由参数共享的物理意义所得。在计算机视觉中，假如要识别一个图片中是否有一只猫，那么无论这只猫在图片的什么位置，我们都应该识别出来，即就是神经网络的输出对于平移不变性来说是等变的。
  
 根据稀疏连接、参数共享和平移不变性三个思想，卷积核就应运而生了。看下图，有个直观的感受。
                                          
 上图就是在一个通道上做的卷积，但现实中，图片一般是由3个通道构成（R\G\B）,卷积核也由二维的平面生成了三维立体。具体的样子如下图：
                                          
 如上图所示，Filter W0 即为卷积核，其大小为(3 * 3 * 3)，每个3*3的二维平面会和图片的相应的通道进行卷积，3个通道的结果相加后加上统一的偏置b0，结果即为Output Volume 第一个通道的第一个位置的数。
  
 从上图还可以看出 Input Volume 四周加了0，这个0叫做padding，一般是为了卷积划动的过程中包含原有的所有数；而多通道卷积核计算过程和卷积核计算过程，不太一样的是多通道卷积核计算过程每次滑2下，这个滑动的距离叫做步长-stride。
  
 所以通过输入大小和卷积核大小，我们可以推断出最终的结果的大小。比如上图卷积核计算过程，输入大小为5 * 5，卷积核为3 * 3，那么卷积核在原图上每次滑动一格，横向滑3次，纵向也是3次，最终结果为  3 * 3。在多通道卷积核计算过程中，每次滑动为2格，横向滑3次，纵向也是3次，最终结果也为  3*3。可以推断出，最终大小的公式为：（输入大小 - 卷积核大小）/ 滑动步长。
  
 在卷积核计算过程，可以看出经过卷积后的大小变小了，那能不能经过卷积计算且大小不变呢？这里，引出了 padding 的另一个作用，保证输入和输出的大小一致。比方输出的 5*5 加 padding，那么四周就被0围绕了，这时的输入大小就变为7 * 7, 再经过 3 * 3的卷积后，按照上边推断出的公式，可以得出 最终的大小为 5 * 5，这时与输入大小保持了一致。
  
 池化层夹在连续的卷积层中间， 用于压缩数据和参数的量，减小过拟合。
   简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。
  
 池化层用的方法有Max pooling 和 average pooling，而实际用的较多的是Max pooling。下图演示一下Max pooling。
                                                                                  
 对于每个2 * 2的窗口选出最大的数作为输出矩阵的相应元素的值，比如输入矩阵第一个2 * 2窗口中最大的数是1，那么输出矩阵的第一个元素就是1，如此类推。
  
 全连接层的部分就是将之前的结果展平之后接到最基本的神经网络了。
                                                                                  
 根据上边的介绍，可以得出，卷积核的通道数目和输入的图像的通道数目是保持一致的，而输出的通道数目是和卷积核数目是一致的。这样参数量可以得出，假设输入的通道为5，卷积核大小为 3 * 3 ，输出的通道数目为10，那么参数量为：3 * 3 * 5 * 10，其中3 * 3 * 5是1个卷积核的参数个数，3 * 3 * 5 * 10 是 10个卷积核的参数个数，也就总共的参数个数。
  
 在卷积中，滑动一次会经过多次的点乘，只经过一次的加法，所以加法的计算量可以忽略不计。其中，滑动一次会的点乘次数和卷积核的大小有关系，比方 3 * 3的卷积，则是经过了 3 * 3 = 9次点积。一共滑动多少次和输出大小有关系，比方 输出的结果也为 3 * 3，那么就是滑动了9次。这样就可以得出输入和输出单通道时计算量 3 * 3 * 3 * 3 = 81。那么对于输入多通道时，卷积核也需要增加相应的通道数目，此时应该在刚才的计算量上乘以通道的数目，得出输入多通道的一个卷积核的计算量。这样，对于输出多通道，总的计算量则是乘以多个卷积核即可。