大脑建模・预测过程・多巴胺

千脑智能：大脑是世界的建模

orange.ai

・

15 Jun, 2024

引言

近几十年，因为检测技术和实验水平的进步，同时神经科学受到机器学习发展的启发，开始重新审视以前各种实验的数据，并发展出能够拟合更多数据的新理论。

随着人们对大脑的了解越来越深入，我们可以用最新的理论来解密大脑，进而可以获得全新的视角。

更深入地理解大脑的工作原理，也能更深入地理解大语言模型技术。

本篇文章的主题包括：

大脑的学习过程
大脑的建模过程
大脑的预测过程
预测与多巴胺
好奇心

大脑的学习过程

大脑包含超过100亿的神经元。大脑的学习在微观层面就是神经元的连接，一个人的一切知识都存储在神经元的连接中，思想观念都只是神经元的活动。

微观学习

神经元之间可以建立新的连接，建立新的连接需要接受刺激。建立新的连接是我们学习的主要方式。
神经元之间的连接可以消失，就是遗忘。
神经元之间的连接可以加强，接受刺激越多，连接就越强，这是短时记忆变长期记忆的机制。
神经元之间的连接可以减弱，长期不接受刺激就会节省资源，减弱连接，减弱到一定程度就消失，遗忘。

宏观学习

从宏观层面看，包含超过100亿个神经元的大脑，是这样进行学习的：

大脑内部构建了一个现实世界的模型，这个模型以参考系为基础。大脑把信息存储在参考系中。当我们听到一辆车的声音，大脑可以把耳朵听到的声音信号投射到大脑的模型中，并可以判断车所在的位置。
大脑通过「感觉运动」模式进行学习，通过观察我们感觉输入如何随着运动而变化来学习世界模型。思考和在记忆里搜寻也都是运动。
大脑会简化信息后进行存储，比如大脑会把看到的充满信息的画面，简化为一个概念进行存储，比如我们看到一个生物，面部很长，有四只脚，颈部有长鬃毛，尾部有长尾巴，大脑中存储时不会存储所有细节，而会把它简单记录成「马」。大脑还会简化思考过程并记住结论，如果推理原因出错，但大脑已经只记住结论，就产生了偏见。标签和刻板印象也是简化的一种体现。
当大脑学习到新的信息时，会把信息分配到之前已经建立的参考系，如果之前尚未建立该信息的参考系，大脑会很疲惫，比如我们直接去读神经科学的论文，里面有很多新概念，看起来只会头大，正确的做法是先从从教材和基本概念入门，建立参考系，让新信息的存储在参考系中。
大脑的模型具有稳定性，可以维护我们对这个世界的稳定认知。比如我们上下轻轻晃动脑袋，这时候视觉上是非常混乱动态的，但大脑不会认为世界在晃动。再比如我们受到一些新观念的冲击时，大脑会抵御冲击，并怀疑新观念的真实性。
大脑的模型不仅包括实体世界，还包括社会规范、道德、意识形态等。从儿童到成年并进入社会的过程，也是大脑构建社会模型的过程。

大脑建模的过程

大脑通过学习完成了对世界的建模，可以说我们生活在一个虚拟世界，这个虚拟世界并非是计算机提供的，而是我们大脑提供的世界模型。
最初我们只能通过感知来建立世界模型。
后来我们有了语言，可以通过语言知道山那边的样子，而不必亲自去感知。
语言帮助我们拓展了世界模型。
后来我们有了望远镜，显微镜，这些工具也在帮我们拓展世界模型。
后来我们有了更多的媒介，录音、照片、视频，通过这些媒介可以更建立更精细准确的世界模型。
后来我们有了vlog，直播。直播和短视频与纪录片相比，是个体自发的视角，是人人不同的视角。我们居然可以通过不同人的视角来拓展自己的世界模型。

大脑的预测过程

通过建立模型，大脑可以用模型进行预测，通过预测，大脑可以不假思素地做出反应，相比「思考」要更快速，并节省认知资源的消耗。我们听到一段熟悉旋律的前几个音符，自然可以哼出后面几个，看到「灯，灯灯灯···」，我们就能预测到后面还有一个灯。

大脑每时每刻都在利用模型进行预测。我们看到一只笔从桌边滚落，会通过预测位置去试图接住。这个过程是非常迅速的，速度超过思考。
我们有时候并不会感知到预测过程，因为这些预测是在神经元内部发生的，并不会把预测过程传递给其他神经元。
有一本书叫《思考，快与慢》，简单来看，快就是预测，非常节能，慢就是思考，耗费脑力。
大脑会把足够熟练的流程变为「自动加工」。比如学开车的过程，就是从「控制加工」变成「自动加工」的过程。自动加工可以用「预测」代替「分析并判断」，可以更加快速地做出反应。
大脑预测后，如果实际结果与预测不同，大脑会更新模型。
机器学习里推荐算法的本质也是预测，比如 Youtube 的推荐页面是预测的是你最会花更多时间观看的视频。Google 也会根据你的历史搜索预测你更想看到的结果。

预测与多巴胺

在大脑中，有一组神经元，与奖赏、快乐、笑、成瘾等行为息息相关，这就是「伏隔核」。

伏隔核通过增强多巴胺水平来对预期奖赏的信号进行反馈。多巴胺更大的作用是形成「动机」而非产生「快感」。
甜点可以让人产生多巴胺，信息甜点也可以。信息甜点就是我们所消费的微博图片短视频等。
而多巴胺的分泌也和预测有关，多巴胺分泌的机制是「奖赏预测误差」：即结果和预测之间的差。如果结果和我们的预测相同，是不会产生多巴胺的。只有结果超出预期，才会产生多巴胺。
比如一个游戏玩家，需要收集7颗宝石，如果打开的每一个箱子里都有一颗宝石，这就是可预测的结果。这样就不会有惊喜，不会有奖赏预测误差，也不会有多巴胺了。如果是这开宝箱时随机给宝石，拿当玩家在开出宝石时就会有多巴胺产生。赌博、彩票、盲盒，都是应用了这一机制。
玩家在通关游戏前，预测不到是否可以通关，那通关就会产生多巴胺。一旦通关了游戏，就不需要再预测了，游戏也就变得无聊了。同理，自己打游戏和看通关视频，产生的多巴胺也是完全不同的。
再比如固定的工资和意外的奖励，固定的工资已经符合了预期，产生的多巴胺是逐渐减少的。

DEL

千脑智能：大脑是世界的建模

引言

大脑的学习过程

微观学习

宏观学习

大脑建模的过程

大脑的预测过程

预测与多巴胺

《GPT-4V，多模态大模型的黎明》论文内容精选与翻译

技术的涟漪效应：RAG与Long Context的认知冲突

用最简单方法提升模型能力

2024年AI赛道观察总结

Sora - 创造物理世界模拟器的希望之路

Agent 到底是什么？