这是一个朴素的方法。
简单但是行之有效,是经过理论和实践的双重检验。
不管是产品、运营还是大学生实习,都一学就会,用过之后甚至会觉得比预期的还要简单。
为了简单,也不引用各种概念(RLHF、PPO、DPO、RHAIF、Self-Reward什么的)。
只写每个人都一看就懂,每个人都轻松上手的方法。
使用模型时遇到的最常见的问题
大家都说大模型好用,什么事情都知道,什么问题都能回答,但是用在自己的用户场景里,经常会遇到这些问题:
- 模型输出结果不够理想,不如人写的好,而且总有badcase。
- 看模型跑分刷榜分都很高,实际用起来却像开了个廉价的车,怎么开都不顺手。
- 有些参数量很小的模型,价格便宜推理快速,但是能力又差点意思。
这些问题的本质就是模型没见过你的用户场景,所以无法很好地完成任务。
评价一个模型好不好,标准有很多,但核心的标准只有一个:
- 在我的用户场景里是不是个好模型。
接下来让我们一起看看怎么搞个好模型。
原理和思路
模型的学习方法是见多识广
教育模型的方法是举个栗子( show,not tell)
一个例子不够就一百个例子。
一个例子不够就一万个例子。
思路就是这么简单粗暴。
再讲讲原理。
好数据出好模型。
要训好模型,核心就是搞出好的训练数据。
拆解下来就是三件事:
- 训练数据
- 好的数据
- 好的模型
训练数据怎么搞?
左脚踩右脚,用大模型来搞。
怎么评价数据好不好?
左脚踩右脚,用大模型来搞。
怎么评价模型好不好?
左脚踩右脚,用大模型来搞。