第17章 我是谁?(10/13)
一张照片放大后是由一个个微小的像素组成,不同灰度的像素排列组合形成了图像,眼睛看到世间万物的原理也是如此。光反射进眼睛被视网膜中的光敏细胞捕捉,光敏细胞将光信号转换为电信号,通过视神经传递到大脑的视觉皮层,进而重构出看到的图像。福岛邦彦所做的就是用计算机模拟这一过程。
下面介绍一下神经网络的工作原理。以识别阿拉伯数字“3”为例,先扫描手写数字得到 28x28 像素的图像,将每个像素点对应一个神经元,共 784 个神经元,用 0 到 1 之间的数字标记,0 代表最黑,1 代表白色,中间灰度用不同数值表示。这 784 个神经元构成输入层,相当于人眼的光敏细胞。最后一层是输出层,假设有十个神经元对应 0 到 9 这十个数字。中间的层是隐藏层,通常不止两层,隐藏层越多神经网络越复杂,大脑也是如此。手写数字存在一定模式,比如数字 9 可看成一个圈加一个数,数字 8 是在一个圈下再加一个圈,数字 4 可看成竖竖横三个部分。以 9 为例,当它出现时会点亮下一层认为接近圈和数的神经元,大概有 8 到 10 个神经元被点亮,然后进入倒数第二层确认代表圈和数的神经元,最终在输出层得出结果。但实际上,仅从输入层计算复杂的非线性问题难度很大,于是计算机专家想到了人脑的经验机制。比如“杯弓蛇影”,弓的倒影和蛇相似,经验会影响判断,输出端也会反过来影响大脑对事物的认知。在图像识别中,当机器识别手写数字 2 时,可能会认为 3 和 6 的可能性最高而给出错误结果,这时可通过人工在输出层给出新权重,将 2 打成最高分,其他数字为 0,反向输入后机器就能学会识别类似的手写 2,这种训练方法就是反向传播,它是深度学习的核心训练方法之一。然而,神经网络存在“黑箱”问题,它由多层神经元组成,大量参数相互作用,决策基于统计规律,人类难以理解其逻辑,也很难解释每一层学习到的含义。人类大脑约有 860 亿个神经元,通过约 100 万亿个神经突触相互沟通协作,其运作原理同样神秘。
2017 年,谷歌的八位计算机专家发表了具有跨时代意义的论文《注意力机制是唯一需要的》,提出的 transfo
本章还未完,请点击下一页继续阅读>>>