4 月 16 日消息,中國(guó)電信已開(kāi)源 120 億參數(shù) TeleChat-12B 星辰語(yǔ)義大模型,還表示將于年內(nèi)開(kāi)源千億級(jí)參數(shù)大模型。
相較 1 月開(kāi)源的 7B 版本,12 版版本在內(nèi)容、性能和應(yīng)用等方面整體效果提升 30%,其中多輪推理、安全問(wèn)題等領(lǐng)域提升超 40%。
據(jù)介紹,TeleChat-12B 將 7B 版本 1.5T 訓(xùn)練數(shù)據(jù)提升至 3T,優(yōu)化數(shù)據(jù)清洗、標(biāo)注策略,持續(xù)構(gòu)建專(zhuān)項(xiàng)任務(wù) SFT (監(jiān)督微調(diào)) 數(shù)據(jù),優(yōu)化數(shù)據(jù)構(gòu)建規(guī)范,大大提升數(shù)據(jù)質(zhì)量;同時(shí),基于電信星辰大模型用戶(hù)真實(shí)回流數(shù)據(jù),優(yōu)化獎(jiǎng)勵(lì)模型和強(qiáng)化學(xué)習(xí)模型,有效提升模型問(wèn)答效果。
TeleChat-12B 在模型結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練方法等方面進(jìn)行了改進(jìn),在通用問(wèn)答和知識(shí)類(lèi)、代碼類(lèi)、數(shù)學(xué)類(lèi)榜單上相比 TeleChat-7B 均有大幅提升。
在模型結(jié)構(gòu)方面,使用小規(guī)模的模型嘗試多種模型結(jié)構(gòu)的組合選擇最優(yōu)結(jié)構(gòu)。相比 TeleChat-7B 模型,TeleChat-12B 模型采用了詞嵌入層與輸出層解耦的結(jié)構(gòu),將詞嵌入層和輸出 lm head 層參數(shù)分開(kāi),有助于增強(qiáng)訓(xùn)練穩(wěn)定性和收斂性。
在訓(xùn)練數(shù)據(jù)方面,收集了覆蓋書(shū)籍、百科、新聞、政務(wù)、法律、醫(yī)藥、專(zhuān)利、論文、數(shù)學(xué)、代碼等諸多方面的大量中英文數(shù)據(jù);通過(guò)優(yōu)化數(shù)據(jù)清洗策略大幅提升數(shù)據(jù)的文本干凈度、觀點(diǎn)無(wú)偏性、內(nèi)容有效性、格式規(guī)范性。
在訓(xùn)練方法方面,使用科學(xué)數(shù)據(jù)配比學(xué)習(xí)與課程學(xué)習(xí)的方法,使用小參數(shù)模型在多種數(shù)據(jù)配比的數(shù)據(jù)上擬合,得到對(duì)各個(gè)數(shù)據(jù)集難度的先驗(yàn)估計(jì);訓(xùn)練過(guò)程中每隔一段時(shí)間自動(dòng)化評(píng)估當(dāng)前模型在所有數(shù)據(jù)集上的 loss,以及在評(píng)測(cè)集上的生成效果,動(dòng)態(tài)提升較難學(xué)習(xí)的數(shù)據(jù)集權(quán)重,保證模型在各個(gè)數(shù)據(jù)集上都有較佳的擬合效果。
中國(guó)電信表示,此次開(kāi)源提供基礎(chǔ)模型以及基于相應(yīng)版本的對(duì)話(huà)模型、不僅支持傳統(tǒng)的全量參數(shù)更新還支持 LoRA 等只更新部分參數(shù)的高效微調(diào)方法、支持 Deepspeed 微調(diào)、支持 int8、int4 量化和國(guó)產(chǎn)芯片訓(xùn)練推理,推動(dòng)大模型國(guó)產(chǎn)化進(jìn)程。
發(fā)布日期: 2023-12-13
發(fā)布日期: 2024-06-13
發(fā)布日期: 2024-10-29
發(fā)布日期: 2023-07-04
發(fā)布日期: 2023-07-04
發(fā)布日期: 2024-03-01
發(fā)布日期: 2024-06-27
發(fā)布日期: 2024-11-29
發(fā)布日期: 2025-03-31
發(fā)布日期: 2025-03-31
發(fā)布日期: 2025-03-31
發(fā)布日期: 2025-03-31
發(fā)布日期: 2025-03-31
尋找更多銷(xiāo)售、技術(shù)和解決方案的信息?
廣州綠測(cè)電子科技有限公司(簡(jiǎn)稱(chēng):綠測(cè)科技)成立于2015年11月,是一家專(zhuān)注于耕耘測(cè)試與測(cè)量行業(yè)的技術(shù)開(kāi)發(fā)公司。綠測(cè)科技以“工程師的測(cè)試管家”的理念向廣大客戶(hù)提供專(zhuān)業(yè)的管家服務(wù)。綠測(cè)科技的研發(fā)部及工廠設(shè)立于廣州番禺區(qū),隨著公司業(yè)務(wù)的發(fā)展,先后在廣西南寧、深圳、廣州南沙、香港等地設(shè)立了機(jī)構(gòu)。綠測(cè)科技經(jīng)過(guò)深耕測(cè)試與測(cè)量領(lǐng)域多年,組建了一支經(jīng)驗(yàn)豐富的團(tuán)隊(duì),可為廣大客戶(hù)提供品質(zhì)過(guò)硬的產(chǎn)品及測(cè)試技術(shù)服務(wù)等支持。
技術(shù)工程師
020-22042442