关于本刊
这是猫鱼周刊的第 40 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在
博客:阿猫的博客-猫鱼周刊
RSS:猫鱼周刊
邮件订阅:猫鱼周刊
微信公众号:猫兄的和谐号列车
文章
能力成长四阶段
能力成长四阶段(Four Stages of Competence)描述了从无能到有能的技能发展过程中涉及的心理状态。这四个阶段是:
- 无意识的无能
- 有意识的无能
- 有意识的有能
- 无意识的有能
之前网上流传过一张图,标题写的是邓宁-克鲁格效应,如下。
邓宁-克鲁格效应(Dunning–Kruger effect)是一种认知偏差,指在特定领域知识或能力有限的人往往会大大高估自己在该领域的知识或能力。这种效应表明,在特定领域不够胜任的个体往往意识不到自己的无能,并倾向于高估自己的能力。
邓宁-克鲁格效应实际上对应的是能力成长四阶段的第一阶段,在这个阶段初学者先是会表示出谦卑和谨慎,在逐渐掌握之后,会产生一种「过度自信」,或者说「狂妄」。但是在遭遇到失败后,并不会造成传闻的「信心崩溃」,而是会出现对过度自信的微调,自信水平会继续上升,并不会出现图中的「绝望之谷」。对于这个误解,有个知乎的回答值得一看。
这个图我收藏了很久,我觉得它非常契合我在软件开发这个领域这六七年的感受。在大一刚开始的时候,之前就自学过一点 Python 的我在 C++的课程上表现得非常好,而且在第一次校内的算法比赛上拿到了不错的名次,前一两个学期拿了挺多的校内奖项,那段时间就有点膨胀,觉得自己很强。直到大一学年结束,看到了同级的同学有人拿到了非常多的综测分,拿了非常多奖,当时的反应是:啊,原来我跟强者有这么强的差距!这是第一阶段的「泡沫破裂」时刻。之后有一段时间都比较低落,觉得自己怎么会跟别人有这么大的差距;同时,这段时间学习带来的成就感不再像入门的时候那么激烈,在很长时间里都不会感知到自己能力有很明显的提升,这应该就是第二阶段了。但从此之后,我会定期审视自己,评估自己的能力等等,开始有计划去学习、探索,进入了第三阶段,就像图中画的那样,这个阶段非常长,可能从大三大四一直持续到现在。最近的一年,我会偶然发现自己在工作时做出一些比较简洁且完善、稳定的设计,比如说设计的一些基础组件多个团队不同项目可以很低成本接入、解决了一些系统整体的稳定性问题、设计了性能又好对业务侵入也比较小的系统等等。
总的来说,在学习的过程中,「吾日三省吾身」很重要,需要定期去评估自己的能力,对自己的信心进行微调。在遇到挫折时,最重要的是调整心态和方法,不要掉进所谓「绝望深渊」。
什么是 LLM 测评?
在之前的周刊里,我提到过衡量 LLM 的能力,不能简单通过某一些 case(例如算术、鲁迅和周树人的关系等等)来衡量,最好的方式就是通过测评(benchmark)。这篇文章对一些常用的指标、数据集做了介绍,如果你对不同的评测数据集感兴趣,可以看看这个集合。
同时,如果你对各种 LLM 在这些数据集上的表现感兴趣,这里有一些排行榜(Leaderboard)可供参考。
- LLM Leaderboard 2024:主要是一些商业模型的比较,例如 GPT、Claude 系列等。
- Open LLM Leaderboard 2 - a Hugging Face Space by open-llm-leaderboard:主要是开源模型的比较。
- lmarena.ai:通过竞技场的方式,由真人给两个模型给出的回答评出优劣,通过 ELO 评分系统 来给模型排名。比较独特的是,比起构造的数据集,人工提问明显有更大的样本量,更复杂的多样性,覆盖更多的边缘条件,同时人工打分更加贴合「使用体验」而非死板的学术场景。覆盖了商业和开源模型。
- LLM Rankings | OpenRouter:通过平台内消耗 token 数来排名,「用脚投票」。同样覆盖了商业和开源模型。
- LiveBench:一个每月更新的数据集,防止 LLM 针对性「作弊」。同时,问题都是可以验证的事实,不需要通过 LLM 来判分;数据集会随着更新变难。也是涵盖了商业和开源模型。
项目
判断文本的语言 - pemistahl/lingua-go
pemistahl/lingua-go - GitHub
项目地址
在短文本上实现识别语言的包,支持 75 种语言,准确率在八九成左右。作者名下还有对应的 Kotlin、Rust、Python 版本。
在 Docker 里运行的虚拟浏览器 - m1k1o/neko
Docker 里运行的虚拟浏览器,官方给出的应用场景是安全和隐私隔离、共享访问、协作等等。
工具/网站
优质周刊集合
收录了一些优质的周刊,以及他们的 RSS 订阅地址。作者本身也创作 FAV0 周刊,值得一看。
公共 DNS 地址大全
在研究一些「航天技术」的时候碰到了 DNS 的问题,恰好碰到了这个网站。除了公共 DNS 外,还有一些 NTP 服务器、Linux 镜像等收集。
想法
你的隐私值多少钱?
你的隐私值多少钱?你的掌纹也许只值两块。
公司楼下的微信掌纹支付终端在扫码之后会有推广信息,说是首次使用掌纹支付优惠两元。这两块钱你可以理解为用来吸引用户使用的获客成本,也可以说花两块钱就买走了你的生物信息(biometric)。
国内一直很自豪移动支付的发展,扫码支付已经是基操,甚至发展到扫脸、掌纹支付,看似好像很方便;国外这方面好像还没有什么大的发展,除了从过去的磁条换成芯片卡,再到 NFC、Apple Pay 等,甚至还有在用支票的场景。是国外的技术不行吗?李彦宏说过,中国人愿意用隐私换方便,而免费的服务,往往就是通过后向的收入赚钱。你在什么时段,去便利店买什么下午茶,又或者晚餐吃得哪家餐馆,周末去哪里玩,统统都成为大公司的数据,用来做用户画像、协同推荐给你推送广告,又或者转手打包卖给其他公司盈利。
再来延伸一下,开盒(或者曾经说的人肉)的门槛已经非常低,甚至不用花什么钱就能获得一个人的住址、身份证号、电话号码等等。想像一下,如果生物信息泄露,别人可以拿着你的指纹、掌纹、声纹去干各种各样的事情,跳进黄河都洗不清。
最后
本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿。如果你觉得周刊的内容不错,可以分享给你的朋友,让更多人了解到好的内容,对我也是一种认可和鼓励。(或许你也可以请我喝杯咖啡)
另外,我建了一个交流群,欢迎入群讨论或反馈,可以通过文章头部的联系邮箱私信我获得入群方式。