迪士尼彩乐园总代理 DeepSeek V3+R1满血微调用具上线!一键启动,硬件条目降10倍

迪士尼彩乐园
迪士尼彩乐园Ⅱ

你的位置:迪士尼彩乐园 > 迪士尼彩乐园Ⅱ > 迪士尼彩乐园总代理 DeepSeek V3+R1满血微调用具上线!一键启动,硬件条目降10倍

迪士尼彩乐园总代理 DeepSeek V3+R1满血微调用具上线!一键启动,硬件条目降10倍

发布日期:2024-04-03 17:02    点击次数:73

机器之心发布迪士尼彩乐园总代理

机器之心剪辑部

DeepSeek V3/ R1 火爆全网,基于原始模子的惩处决策和 API 劳动已遍地可见,堕入廉价和免费内卷。

若何站在巨东说念主肩膀上,通事后考验(post-training)辘集专科领域数据,低资本打造高质料特有模子,擢升业务竞争力与价值?

已收货近4 万 GitHub Star的 Colossal-AI,发布开源大模子后考验用具箱,包含:

DeepSeek V3/ R1 满血 671B LoRA 低资本 SFT 微调;圆善的强化学惯用具链 PPO,GRPO,DPO,SimPO 等;无缝适配 DeepSeek 系列蒸馏模子在内的 HuggingFace 开源模子;兼容复古 GPU、华为昇腾 NPU 等多种硬件;复古羼杂精度考验,gradient checkpoint 等考验加快裁减资本;活泼的考验确立接口,复古自界说奖励函数、耗费函数等;提供活泼的并行计谋确立接口,包括数据并行、模子并行、行家并行、ZeRO 和 Offload 等,以相宜不同硬件领域。

开源地址:https://github.com/hpcaitech/ColossalAI

北京普惠健康保可以满足您!为您提供专业护士上门雾化护理服务,不用家里医院两头跑,省心更贴心。

薏仁,又名薏苡、六谷米、五谷等,是禾本科植物薏苡的种仁,在全国大部分地区均有生长。

低资本监督微调满血版 DeepSeek V3/R1 671B

DeepSeek V3/R1 满血版参数高达 6710 亿,若何低资本进行低资本微调呢?仅需以下几个程序,即可快速完成。

数据集准备

该剧本继承 JSONL 样式的文献当作输入数据集,举例 https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/examples/training_scripts/lora_sft_data.jsonl。数据集的每一转应为一个聊天对话列表。举例:

[{\"role\": \"user\", \"content\": \"你好,最近若何样?\"}, {\"role\": \"assistant\", \"content\": \"我很好。今天有什么不错帮你的吗?\"}][{\"role\": \"user\", \"content\": \"火烧赤壁 曹操为何不拨打 119 求救?\"}, {\"role\": \"assistant\", \"content\": \"因为在三国时刻,还莫得电话和当代的消防系统,是以曹操无法拨打 119 求救。\"}]

该数据样式,兼容 Huggingface chat template,复古自界说 system prompt,因此可活泼按需确立。

模子权重准备

为保证更好的微调恶果,使用 BF16 权重进行微调。

如若已下载了 FP8 的 DeepSeek V3/R1 权重,不错使用 DeepSeek 官方剧本 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/inference/fp8_cast_bf16.py 通过 GPU 将权重调整为 BF16。

关于使用国产昇腾算力,不错下载 https://gitee.com/ascend/ModelZoo-PyTorch/blob/master/MindIE/LLM/DeepSeek/DeepSeek-V2/NPU_inference/fp8_cast_bf16.py 剧本调整权重。

使用行径

在准备好数据集和模子权重后,可使用 Colossal-AI 提供的一键启动剧本 https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/examples/training_scripts/lora_finetune.py

该剧本与常见 SFT 剧本相同,且完满兼容 HuggingFace PEFT,启动号令:

colossalai run --hostfile path-to-host-file --nprocpernode 8 lorafinetune.py --pretrained path-to-DeepSeek-R1-bf16 --dataset path-to-dataset.jsonl --plugin moe --lr 2e-5 --maxlength 256 -g --ep 8 --pp 3 --batchsize 24 --lorarank 8 --loraalpha 16 --numepochs 2 --warmupsteps 8 --tensorboarddir logs --save_dir DeepSeek-R1-bf16-lora

联系每个参数的更多详备信息,迪士尼彩乐园Ⅱ不错运行 python lora_finetune.py --help 检察。该剧本可通过 tensorboard 记载学习率、loss、grad norm 信息,便捷对考验进行监控。

使用 LoRA 优化硬件资源破钞

通过使用 LoRA 等优化,示例号令已将 SFT DeepSeek V3/R1 671B最低硬件条目裁减近 10 倍,可使用 32 个 Ascend 910B NPU 64GB(使用 ep=8,pp=4)或 24 个 H100/H800 GPU(使用 ep=8,pp=3)。如若你通过 --zero_cpu_offload 启用 CPU offload,硬件条目不错进一步裁减,但会耗费一定的考验速率。

如下图考据,在 SFT DeepSeek V3/R1 671B 时,Loss 不错告成裁减:

关于资金充裕简直立团队,也不错使用上述剧本,将并行度高效膨胀至数百及数千卡,快速完成 DeepSeek V3/R1 671B 全参微调或并行加快。

关于预算有限,又念念借助强化学习构建我方的类 DeepSeek R1 模子, Colossal-AI 也提供了惩处决策,并哄骗小模子对算法进行了考据。

通过强化学习微调蒸馏版 DeepSeek

Colossal-AI 团队考据并已矣了 DeepSeek 论文中的GRPO 算法及 verifiable reward,使用 Qwen2.5-3B-Base 模子进行了履行。其中,奖励的揣测打算如下:

1. 奖励 = 0,如若样式是作假的;

2. 奖励 = 1, 如若样式是正确的可是死心是作假的;

3. 奖励 = 10,如若样式与死心齐是正确的。

Colossal-AI 团队以 Qwen2.5-3B-Base 模子为例,提供了用于考据 GRPO 的对话模板及设定(https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/conversation_template/Qwen_Qwen2.5-3B.json),通过确立以下 bash 文献,即可一键启动:

https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/examples/training_scripts/train_grpo.sh

同期,在 GRPO 章节,Colossal-AI 团队还提供了考据经由中的部分发现及各式参数的详备形容,可供参考。

代码中揣测打算了可活泼确立奖励函数的模板,因此,用户可凭据我方的具体情况揣测打算我方的奖励函数体系。

由下图不错看到,即使是 3B 的模子,平均奖励与模子修起长度跟着时辰冉冉增长。

跟着考验的进行,咱们不错看到一些挑升旨道理的例子。举例跟着考验迭代,模子运行了自我改良:

Colossal-AI:最好后考验用具箱

Colossal-AI 在深耕大模子预考验降本增效的基础上,发奋于于进一步成为确立者开箱即用的最好后考验用具,匡助用户基于开源模子,低资本快速构建特有模子。

开源地址:https://github.com/hpcaitech/ColossalAI



上一篇:迪士尼彩乐园怎样 特朗普称俄罗斯应重返七国集团

下一篇:没有了

Powered by 迪士尼彩乐园 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024