零門檻復(fù)現(xiàn)ChatGPT：預(yù)訓(xùn)練模型數(shù)據(jù)集直接用，包含完整RLHF流程

作者：用戶投稿時(shí)間：2023-04-02 12:31 點(diǎn)擊：次

導(dǎo)讀：

明敏發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

這邊ChatGPT、GPT-4等AI大模型和應(yīng)用打得火熱,；

另一邊“平替”開源復(fù)現(xiàn)方案也加緊更新迭代,。

這不，“首個(gè)開源ChatGPT低成本復(fù)現(xiàn)流程”就來了波大更新,！

現(xiàn)在,，僅需不到百億參數(shù),，利用RLHF簡單微調(diào)，模型即可掌握中,、英雙語能力,，達(dá)到與ChatGPT和GPT-3.5相當(dāng)?shù)男Ч?/p>

中文對(duì)話效果如下：

零門檻復(fù)現(xiàn)ChatGPT：預(yù)訓(xùn)練模型數(shù)據(jù)集直接用，包含完整RLHF流程

這就是ColossalChat,。

由Colossal-AI推出。一個(gè)月前,，Colossal-AI乘著ChatGPT熱潮火速開源了低成本復(fù)現(xiàn)流程,。

而新升級(jí)的ColossalChat，以Meta最新開源的LLaMA為基礎(chǔ)預(yù)訓(xùn)練模型,，能力更強(qiáng),、門檻還更低了：

Demo：可直接在線體驗(yàn)?zāi)Ｐ托Ч瑹o需注冊或waitinglist
訓(xùn)練代碼：開源完整 RLHF 訓(xùn)練代碼,，已開源至含7B,、13B兩種模型
數(shù)據(jù)集：開源104K中、英雙語數(shù)據(jù)集
推理部署：4bit量化推理70億參數(shù)模型僅需4GB顯存
模型權(quán)重：僅需單臺(tái)服務(wù)器少量算力即可快速復(fù)現(xiàn)
更大規(guī)模模型,、數(shù)據(jù)集,、其他優(yōu)化等將保持高速迭代添加

要知道，模型開源,、數(shù)據(jù)集,、訓(xùn)練應(yīng)用成本、核心數(shù)據(jù)安全性等,，是AI大模型浪潮下最被關(guān)注的一些問題,。ColossalChat針對(duì)于此，一次性給出了應(yīng)對(duì)方法,。

由此,，想要快速跟進(jìn)ChatGPT這輪技術(shù)浪潮，門檻又低了一些,。

開源地址：https://github.com/hpcaitech/ColossalAI

包含完整 RLHF 流程

具體來看,，ColossalChat的能力包括知識(shí)問答、中英文對(duì)話,、內(nèi)容創(chuàng)作,、編程等。

和ChatGPT一樣,，ColossalChat知道NBA和喬丹是誰：

會(huì)寫郵件,，格式非常規(guī)范：

編程能力也不錯(cuò)，能搞定算法：

據(jù)了解，為了能更逼近ChatGPT,、GPT-4的驚艷效果,，ColossalChat使用LLaMA作為預(yù)訓(xùn)練模型，并包含完整RLHF流程,。

之所以這樣做,，主要是因?yàn)楝F(xiàn)有開源方案都可被視為只得到了人類反饋強(qiáng)化學(xué)習(xí)（RLHF）中第一步的監(jiān)督微調(diào)模型，沒有進(jìn)行后續(xù)的對(duì)齊和微調(diào)工作,。

△RLHF的三個(gè)階段

比如Meta 開源了LLaMA模型,，其參數(shù)量從70億到650億不等,，號(hào)稱130 億參數(shù)即可勝過1750億的GPT-3模型在大多數(shù)基準(zhǔn)測試的表現(xiàn)。

但是由于沒有被指令微調(diào)（instruct tuning）,，因此實(shí)際生成效果不夠理想,。

斯坦福的Alpaca通過調(diào)用OpenAI API，以self-instruct方式生成訓(xùn)練數(shù)據(jù),，使得僅有70億參數(shù)的輕量級(jí)模型以極低成本微調(diào)后,，即可獲得媲美GPT-3.5這樣千億參數(shù)的超大規(guī)模語言模型的對(duì)話效果。

而ChatGPT,、GPT-4效果好的一大關(guān)鍵就是將RLHF引入訓(xùn)練流程,，才能讓生成內(nèi)容更符合人類價(jià)值觀。

因此,，基于LLaMA模型,，包含完整RLHF流程的類Chat模型復(fù)現(xiàn)方案 ColossalChat，可以稱得上是目前最接近ChatGPT原始技術(shù)路線的實(shí)用開源項(xiàng)目,。

總結(jié)來看,，和Alpaca相比較ColossalChat具備4個(gè)方面的優(yōu)勢。

第一,、ColossalChat開源了第一個(gè)完整的RLHF pipeline,，斯坦福Alpaca沒有做RLHF，也就是沒有做Stage2和3,。

第二,、ColossalChat采用了更多的指令數(shù)據(jù)，質(zhì)量更好、范圍更大,，并使用強(qiáng)化學(xué)習(xí)做了alignment使回答更接近人類。

第三、ColossalChat訓(xùn)練流程集成了Colossal-AI的諸多系統(tǒng)優(yōu)化,，同等數(shù)據(jù)集和模型大小的訓(xùn)練速度可以比AIpaca快3倍左右,，能讓科研人員和中小企業(yè)獨(dú)立訓(xùn)練部署自己的會(huì)話系統(tǒng)。

第四,、ColossalChat采集了更多數(shù)據(jù)集：訓(xùn)練的英文一共 24M tokens,，中文大約 30M tokens，總共約 54M tokens,。其中ColossalChat自己收集的數(shù)據(jù)集英文 6M,，中文 18M tokens。

訓(xùn)練數(shù)據(jù)集開源

數(shù)據(jù)集方面，ColossalChat開源了包含約10 萬條問答的中,、英雙語數(shù)據(jù)集,。

該數(shù)據(jù)集收集并清洗了社交平臺(tái)上人們的真實(shí)提問場景作為種子數(shù)據(jù)集，利用self-instruct技術(shù)擴(kuò)充數(shù)據(jù),，花費(fèi)約900美元進(jìn)行標(biāo)注,。

對(duì)比其他self-instruct方法生成的數(shù)據(jù)集，該數(shù)據(jù)集的種子數(shù)據(jù)更加真實(shí),、豐富,，生成的數(shù)據(jù)集涵蓋的話題更多。

該數(shù)據(jù)可以同時(shí)用于微調(diào)和RLHF訓(xùn)練,。通過高質(zhì)量的數(shù)據(jù),，ColossalChat能進(jìn)行更好地對(duì)話交互，同時(shí)支持中文,。

△ColossalChat數(shù)據(jù)集收集流程

RLHF算法復(fù)現(xiàn)

RLHF第一步（Stage1）是supervised-fintuning,，即使用上文提到的數(shù)據(jù)集進(jìn)行模型微調(diào),。

RLHF第二步（Stage2）訓(xùn)練了獎(jiǎng)勵(lì)模型，它通過對(duì)于同一個(gè)prompt的不同輸出進(jìn)行人工排序,，得到對(duì)應(yīng)分?jǐn)?shù),，監(jiān)督訓(xùn)練獎(jiǎng)勵(lì)模型。

RLHF第三步（Stage3）使用了強(qiáng)化學(xué)習(xí)算法，是訓(xùn)練流程中最復(fù)雜的一部分：

△RLHF-Stage3算法流程圖

在PPO部分，ColossalChat分為兩個(gè)階段進(jìn)行：

首先是Make Experience部分,，利用SFT,、Actor、RM,、Critic模型計(jì)算生成Experience存入buffer中,；之后是參數(shù)更新部分，利用Experience計(jì)算策略損失和價(jià)值損失,。

在PTX部分,，ColossalChat計(jì)算Actor輸出response和輸入語料的回答部分的交叉熵?fù)p失函數(shù)，用來在PPO梯度中加入預(yù)訓(xùn)練梯度,，以保持語言模型原有性能防止遺忘,。最后將策略損失、價(jià)值損失和 PTX 損失加和進(jìn)行反向傳播和參數(shù)更新,。

快速上手

ColossalChat開源了基于 LLaMA 模型,，復(fù)現(xiàn)訓(xùn)練 ChatGPT 三個(gè)階段的完整代碼。

第一階段,，訓(xùn)練SFT模型：

# Training with a 4-GPU servers

colossalai run --nproc_per_node=4 train_sft.py

--pretrain "/path/to/LLaMa-7B/"

--model 'llama'

--strategy colossalai_zero2

--log_interval 10

--save_path /path/to/Coati-7B

--dataset /path/to/data.json

--batch_size 4

--accimulation_steps 8

--lr 2e-5

第二階段,，訓(xùn)練獎(jiǎng)勵(lì)模型：

# Training with a 4-GPU servers

colossalai run --nproc_per_node=4 train_reward_model.py

--pretrain "/path/to/LLaMa-7B/"

--model 'llama'

--strategy colossalai_zero2

--dataset /path/to/datasets

第三階段，使用RL訓(xùn)練：

# Training with a 8-GPU servers

colossalai run --nproc_per_node=8 train_prompts.py prompts.csv

--strategy colossalai_zero2

--pretrain "/path/to/Coati-7B"

--model 'llama'

--pretrain_dataset /path/to/dataset

在獲得最終模型權(quán)重后,，還可通過量化降低推理硬件成本,，并啟動(dòng)在線推理服務(wù)，僅需單張約4GB顯存的GPU即可完成70億參數(shù)模型推理服務(wù)部署,。

python server.py /path/to/pretrained --quant 4bit --gptq_checkpoint /path/to/coati-7b-4bit-128g.pt --gptq_group_size 128

系統(tǒng)性能優(yōu)化與開發(fā)加速

ColossalChat能夠快速跟進(jìn)ChatGPT完整RLHF流程復(fù)現(xiàn),，離不開AI大模型基礎(chǔ)設(shè)施Colossal-AI及相關(guān)優(yōu)化技術(shù)的底座支持，相同條件下訓(xùn)練速度相比Alpaca采用的FSDP(Fully Sharded Data Parallel) 可提升3倍以上,。

系統(tǒng)基礎(chǔ)設(shè)施Colossal-AI

AI大模型開發(fā)系統(tǒng)Colossal-AI為該方案提供了基礎(chǔ)支持,，它可基于PyTorch高效快速部署AI大模型訓(xùn)練和推理，從而降低AI大模型應(yīng)用的成本,。

Colossal-AI由加州伯克利大學(xué)杰出教授James Demmel和新加坡國立大學(xué)校長青年教授尤洋領(lǐng)導(dǎo)開發(fā),。

自從它開源以來，Colossal-AI已經(jīng)多次在GitHub熱榜位列世界第一,，獲得GitHub Star約兩萬顆,，并成功入選SC、AAAI,、PPoPP,、CVPR,、ISC等國際AI與HPC頂級(jí)會(huì)議的官方教程。

減少內(nèi)存冗余的ZeRO+Gemini

Colossal-AI支持使用無冗余優(yōu)化器 (ZeRO) 提高內(nèi)存使用效率,，低成本容納更大模型,，同時(shí)不影響計(jì)算粒度和通信效率。

自動(dòng)Chunk機(jī)制可以進(jìn)一步提升ZeRO的性能,，提高內(nèi)存使用效率,，減少通信次數(shù)并避免內(nèi)存碎片。

異構(gòu)內(nèi)存空間管理器Gemini支持將優(yōu)化器狀態(tài)從GPU顯存卸載到CPU內(nèi)存或硬盤空間,，以突破GPU顯存容量限制，擴(kuò)展可訓(xùn)練模型的規(guī)模,，降低AI大模型應(yīng)用成本,。

使用LoRA低成本微調(diào)

Colossal-AI支持使用低秩矩陣微調(diào)（LoRA）方法，對(duì)AI大模型進(jìn)行低成本微調(diào),。

LoRA方法認(rèn)為大語言模型是過參數(shù)化的,，而在微調(diào)時(shí)，參數(shù)改變量是一個(gè)低秩矩陣,。

因此,，可以將這個(gè)矩陣分解為兩個(gè)更小的矩陣的乘積。

在微調(diào)過程中,，大模型的參數(shù)被固定,，只有低秩矩陣參數(shù)被調(diào)整，從而顯著減小了訓(xùn)練所需的參數(shù)量,，并降低成本,。

低成本量化推理

△GPTQ量化

為降低推理部署成本,，Colossal-AI使用GPTQ 4bit量化推理。

在GPT/OPT/BLOOM類模型上,，它比傳統(tǒng)的RTN(rount-to-nearest) 量化技術(shù)能夠獲得更好的Perplexity效果,。相比常見的FP16推理，它可將顯存消耗降低75%,，只損失極少量的吞吐速度與Perplexity性能,。

以ColossalChat-7B為例，在使用4bit量化推理時(shí),，70億參數(shù)模型僅需大約4GB顯存即可完成短序列（生成長度為128）推理,，在普通消費(fèi)級(jí)顯卡上即可完成（例如RTX 3060 Laptop），僅需一行代碼即可使用,。

if args.quant == '4bit':

model = load_quant(args.pretrained, args.gptq_checkpoint, 4, args.gptq_group_size)

如果采用高效的異步卸載技術(shù)(offload),，還可以進(jìn)一步降低顯存要求，使用更低成本的硬件推理更大的模型。

開放協(xié)作

不過目前由于算力和數(shù)據(jù)集有限,，在部分場景下的實(shí)際性能還有提升空間,。

比如還是會(huì)被弱智吧問題難住：

而在這輪技術(shù)浪潮中，除了科技巨頭們,，PyTorch,、Hugging Face和OpenAI等開源社區(qū)與初創(chuàng)企業(yè)也起到了關(guān)鍵作用。

借鑒這些成功經(jīng)驗(yàn),，Colossal-AI也歡迎各方參與共建,，并給出了多種參與方式：

在GitHub發(fā)布issue或提交pull request (PR)
加入Colossal-AI用戶微信或Slack群交流
發(fā)送正式合作提案到郵箱[email protected]

如果你對(duì)這項(xiàng)工作感興趣，可以趕快和他們?nèi)〉寐?lián)系~

開源地址：

https://github.com/hpcaitech/ColossalAI

參考鏈接：

https://medium.com/@yangyou_berkeley/colossalchat-an-open-source-solution-for-cloning-chatgpt-with-a-complete-rlhf-pipeline-5edf08fb538b

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

打賞

感謝您的支持,，我會(huì)繼續(xù)努力的!

掃碼打賞，你說多少就多少

打開支付寶掃一掃,，即可進(jìn)行掃碼打賞哦

上一篇：能鏈智電推出首款充電機(jī)器人進(jìn)軍無人駕駛補(bǔ)能領(lǐng)域
下一篇：馬斯克們叫停 GPT-5，更像是場行為藝術(shù)

隨便看看：

相關(guān)推薦：

網(wǎng)友評(píng)論：

推薦使用友言,、多說、暢言(需備案后使用)等社會(huì)化評(píng)論插件

欄目分類