引言

近几十年,因为检测技术和实验水平的进步,同时神经科学受到机器学习发展的启发,开始重新审视以前各种实验的数据,并发展出能够拟合更多数据的新理论。

随着人们对大脑的了解越来越深入,我们可以用最新的理论来解密大脑,进而可以获得全新的视角。

更深入地理解大脑的工作原理,也能更深入地理解大语言模型技术。

本篇文章的主题包括:

  • 大脑的学习过程
  • 大脑的建模过程
  • 大脑的预测过程
  • 预测与多巴胺
  • 好奇心

大脑的学习过程

大脑包含超过100亿的神经元。大脑的学习在微观层面就是神经元的连接,一个人的一切知识都存储在神经元的连接中,思想观念都只是神经元的活动。

微观学习

  • 神经元之间可以建立新的连接,建立新的连接需要接受刺激。建立新的连接是我们学习的主要方式。
  • 神经元之间的连接可以消失,就是遗忘。
  • 神经元之间的连接可以加强,接受刺激越多,连接就越强,这是短时记忆变长期记忆的机制。
  • 神经元之间的连接可以减弱,长期不接受刺激就会节省资源,减弱连接,减弱到一定程度就消失,遗忘。

宏观学习

从宏观层面看,包含超过100亿个神经元的大脑,是这样进行学习的:

  • 大脑内部构建了一个现实世界的模型,这个模型以参考系为基础。大脑把信息存储在参考系中。当我们听到一辆车的声音,大脑可以把耳朵听到的声音信号投射到大脑的模型中,并可以判断车所在的位置。
  • 大脑通过「感觉运动」模式进行学习,通过观察我们感觉输入如何随着运动而变化来学习世界模型。思考和在记忆里搜寻也都是运动。
  • 大脑会简化信息后进行存储,比如大脑会把看到的充满信息的画面,简化为一个概念进行存储,比如我们看到一个生物,面部很长,有四只脚,颈部有长鬃毛,尾部有长尾巴,大脑中存储时不会存储所有细节,而会把它简单记录成「马」。大脑还会简化思考过程并记住结论,如果推理原因出错,但大脑已经只记住结论,就产生了偏见。标签和刻板印象也是简化的一种体现。
  • 当大脑学习到新的信息时,会把信息分配到之前已经建立的参考系,如果之前尚未建立该信息的参考系,大脑会很疲惫,比如我们直接去读神经科学的论文,里面有很多新概念,看起来只会头大,正确的做法是先从从教材和基本概念入门,建立参考系,让新信息的存储在参考系中。
  • 大脑的模型具有稳定性,可以维护我们对这个世界的稳定认知。比如我们上下轻轻晃动脑袋,这时候视觉上是非常混乱动态的,但大脑不会认为世界在晃动。再比如我们受到一些新观念的冲击时,大脑会抵御冲击,并怀疑新观念的真实性。
  • 大脑的模型不仅包括实体世界,还包括社会规范、道德、意识形态等。从儿童到成年并进入社会的过程,也是大脑构建社会模型的过程。

大脑建模的过程

  • 大脑通过学习完成了对世界的建模,可以说我们生活在一个虚拟世界,这个虚拟世界并非是计算机提供的,而是我们大脑提供的世界模型。
  • 最初我们只能通过感知来建立世界模型。
  • 后来我们有了语言,可以通过语言知道山那边的样子,而不必亲自去感知。
    语言帮助我们拓展了世界模型。
  • 后来我们有了望远镜,显微镜,这些工具也在帮我们拓展世界模型。
  • 后来我们有了更多的媒介,录音、照片、视频,通过这些媒介可以更建立更精细准确的世界模型。
  • 后来我们有了vlog,直播。直播和短视频与纪录片相比,是个体自发的视角,是人人不同的视角。我们居然可以通过不同人的视角来拓展自己的世界模型。

大脑的预测过程

通过建立模型,大脑可以用模型进行预测,通过预测,大脑可以不假思素地做出反应,相比「思考」要更快速,并节省认知资源的消耗。我们听到一段熟悉旋律的前几个音符,自然可以哼出后面几个,看到「灯,灯灯灯···」,我们就能预测到后面还有一个灯。

  • 大脑每时每刻都在利用模型进行预测。我们看到一只笔从桌边滚落,会通过预测位置去试图接住。这个过程是非常迅速的,速度超过思考。
  • 我们有时候并不会感知到预测过程,因为这些预测是在神经元内部发生的,并不会把预测过程传递给其他神经元。
  • 有一本书叫《思考,快与慢》,简单来看,快就是预测,非常节能,慢就是思考,耗费脑力。
  • 大脑会把足够熟练的流程变为「自动加工」。比如学开车的过程,就是从「控制加工」变成「自动加工」的过程。自动加工可以用「预测」代替「分析并判断」, 可以更加快速地做出反应。
  • 大脑预测后,如果实际结果与预测不同,大脑会更新模型。
  • 机器学习里推荐算法的本质也是预测,比如 Youtube 的推荐页面是预测的是你最会花更多时间观看的视频。Google 也会根据你的历史搜索预测你更想看到的结果。

预测与多巴胺

在大脑中,有一组神经元,与奖赏、快乐、笑、成瘾等行为息息相关,这就是「伏隔核」。

  • 伏隔核通过增强多巴胺水平来对预期奖赏的信号进行反馈。多巴胺更大的作用是形成「动机」而非产生「快感」。
  • 甜点可以让人产生多巴胺,信息甜点也可以。信息甜点就是我们所消费的微博图片短视频等。
  • 而多巴胺的分泌也和预测有关,多巴胺分泌的机制是「奖赏预测误差」:即结果和预测之间的差。如果结果和我们的预测相同,是不会产生多巴胺的。只有结果超出预期,才会产生多巴胺。
  • 比如一个游戏玩家,需要收集7颗宝石,如果打开的每一个箱子里都有一颗宝石,这就是可预测的结果。这样就不会有惊喜,不会有奖赏预测误差,也不会有多巴胺了。 如果是这开宝箱时随机给宝石,拿当玩家在开出宝石时就会有多巴胺产生。赌博、彩票、盲盒,都是应用了这一机制。
  • 玩家在通关游戏前,预测不到是否可以通关,那通关就会产生多巴胺。一旦通关了游戏,就不需要再预测了,游戏也就变得无聊了。同理,自己打游戏和看通关视频,产生的多巴胺也是完全不同的。
  • 再比如固定的工资和意外的奖励,固定的工资已经符合了预期,产生的多巴胺是逐渐减少的。