准备训练数据（Dataset）：概念《 OpenAI：微调模型》

在微调 GPT 模型的时候，我们需要准备大量的高质量的训练数据，这些数据最好经过人工审查，确保数据的质量，比如数据的准确性，一致性还有相关性，这样训练出来的模型才更好用。另外数据的数量尽量大一些，比如几百条，几千条或者上万条，数据量越大，模型的效果还有性能也就会越好。也就是训练数据的质量，数量还有多样性，决定了你训练出来的模型的效果。

这些训练数据的格式可以选择使用 JSONL，这种数据格式跟普通的 JSON 格式差不多，只不过它的每一行都是一个单独的 JSON 数据，不同的数据记录之间使用换行符分隔开。这种数据格式比较适用处理大量的数据记录，因为可以逐行读取文件里的每一条记录，不用一下把文件内容全部加载到内存里。我们可以使用 OpenAI 命令行工具，把普通的 JSON 数据转换成 JSONL 这种格式的数据。

另外数据记录需要使用特定的格式，比如 prompt 是设计好的提示文本，completion 属性的值是主体内容。如果 prompt 的值是一个问题，那 completion 的值应该就是这个问题的答案。模型会学习你提供的这些数据的 prompt 是怎么设计的，对应的 completion 是什么样子的。它会找到其中的规律。

分隔符

在训练数据的 prompt 的结尾需要添加一个固定的分隔符，这个符号你可以随便定义，只要这个符号不会在 prompt 的其它地方出现就行。这个分隔符的作用分隔开 prompt 还有 completion，也就是它相当于是告诉模型，prompt 在哪里结束，completion 从哪里开始。比如 OpenAI 的官方文档里推荐使用 \n\n###\n\n 作为分隔符。

另外在 completion 这个属性值的开头要用一个空格，然后在它的结尾，需要再添加一个结束符，这个结束符的作用就是告诉模型什么时候停止生成文本内容。比如可以使用 \n，也就是换行符，或者 ### 作为结束符。

准备训练数据（Dataset）：概念《 OpenAI：微调模型》

统计

社会化网络

关于

微信订阅号

用户登录

准备训练数据（Dataset）：概念《 OpenAI：微调模型 》

统计

社会化网络

关于

微信订阅号

准备训练数据（Dataset）：概念《 OpenAI：微调模型》