在科學(xué)研究領(lǐng)域,尤其是涉及高能物理實(shí)驗(yàn)等大規(guī)模數(shù)值數(shù)據(jù)分析和計(jì)算的場景中,現(xiàn)有通用語言模型的表現(xiàn)并不理想。
為解決上述問題,超越對(duì)稱(上海)技術(shù)公司(以下簡稱“超對(duì)稱技術(shù)”)與中國科學(xué)院高能物理研究所、北京大學(xué)等團(tuán)隊(duì)合作,開發(fā)了一款統(tǒng)一基座大模型 BBT-Neutron,能夠在真實(shí)科研場景中解決多種實(shí)驗(yàn)數(shù)值分析任務(wù)。
該模型在噴注起源識(shí)別(JoI,Jet Origin Identification)實(shí)驗(yàn)上的表現(xiàn),與最先進(jìn)的專業(yè)模型的最佳性能相當(dāng),實(shí)現(xiàn)了行業(yè)最強(qiáng)性能(SOTA,State of the Art)。
圖丨從左至右依次為:BBT-Neutron 模型十一種類的粒子噴注來源鑒別結(jié)果、ParticleNet 模型十一種類的粒子噴注來源鑒別結(jié)果、Particle Transformer 模型十一種類的粒子噴注來源鑒別結(jié)果(來源:arXiv)
BBT-Neutron 作為基座模型,未來有望應(yīng)用于多個(gè)領(lǐng)域的大規(guī)模數(shù)值實(shí)驗(yàn)數(shù)據(jù)場景,尤其在高能物理(如粒子對(duì)撞機(jī))、核物理(如核聚變)、天文觀測等大科學(xué)裝置的實(shí)驗(yàn)數(shù)據(jù)分析中發(fā)揮重要作用。
另一方面,因該模型具有語言對(duì)話能力,未來有潛力成為具有多模態(tài)數(shù)據(jù)分析能力的科研助手,服務(wù)于高校、科研院所和企業(yè)等研究人員。
此外,BBT-Neutron 的統(tǒng)一材料計(jì)算框架能夠加速研究人員的創(chuàng)新科研過程,幫助發(fā)現(xiàn)新規(guī)律和新材料,例如材料基因工程和密度泛函理論計(jì)算等領(lǐng)域。
同時(shí),它還可能在航天航空、石油化工、鋼鐵、生物醫(yī)藥等重工業(yè)場景中進(jìn)行數(shù)值分析,從而實(shí)現(xiàn)節(jié)省實(shí)驗(yàn)成本、提升科研效率的目標(biāo)。
日前,相關(guān)論文以《擴(kuò)展粒子碰撞數(shù)據(jù)分析》(Scaling Particle Collision Data Analysis)為題發(fā)表在預(yù)印本網(wǎng)站 arXiv 上 [1]。據(jù)悉,BBT-Neutron 模型的項(xiàng)目代碼已開源。
超對(duì)稱技術(shù)創(chuàng)始人吳恒魁博士是第一作者兼通訊作者,超對(duì)稱技術(shù)算法工程師池盼盼是共同第一作者,中國科學(xué)院高能物理研究所研究員阮曼奇擔(dān)任共同通訊作者。
圖丨相關(guān)論文(來源:arXiv)
BBT-Neutron 模型基于一種創(chuàng)新的二進(jìn)制分詞方法(Binary Tokenization),來應(yīng)對(duì)數(shù)值分析問題。
該方法將輸入數(shù)據(jù)編碼為字節(jié)序列,有效保留了數(shù)值數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和數(shù)量完整性,并避免了通過分割或合并數(shù)值和文本信息引起的歧義。
這種創(chuàng)新的分詞方法展示了在統(tǒng)一表示不同數(shù)據(jù)模態(tài)(包括文本、數(shù)值、圖像)方面的能力,這對(duì)于大規(guī)模實(shí)驗(yàn)中產(chǎn)生的以二進(jìn)制格式存儲(chǔ)的科學(xué)數(shù)據(jù)尤為重要。
BBT-Neutron 模型的結(jié)構(gòu)設(shè)計(jì)包含 Patch Embedding、Patch Self-Attention 和 LM Head,這三個(gè)要素共同構(gòu)成了模型的主體框架。
這一架構(gòu)使得模型能夠?qū)⑤斎氲男蛄袛?shù)據(jù),通過字節(jié)分詞技術(shù)轉(zhuǎn)換成高維向量形式,從而賦予了模型執(zhí)行多樣化任務(wù)的能力,包括分類和回歸分析等。
在眾多科學(xué)應(yīng)用領(lǐng)域,這些任務(wù)對(duì)于處理輸入數(shù)據(jù)至關(guān)重要,它們可能涉及對(duì)數(shù)據(jù)的分類,也可能涉及預(yù)測連續(xù)數(shù)值,而不僅僅是生成新的序列數(shù)據(jù)。
圖丨 BBT-Neutron 模型架構(gòu)圖(來源:arXiv)
研究人員將該模型運(yùn)用在粒子物理 JoI 任務(wù)中,其性能通過混淆矩陣、噴注味標(biāo)記效率和電荷翻轉(zhuǎn)率這三個(gè)關(guān)鍵指標(biāo)進(jìn)行評(píng)估。
實(shí)驗(yàn)結(jié)果顯示,BBT-Neutron 基座模型達(dá)到了與傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)模型 ParticleNet 和 ParticleTransformer 相同的最佳水平。
值得關(guān)注的是,其在數(shù)據(jù)量增加時(shí)的性能擴(kuò)展行為,顯示出與特定于任務(wù)的模型不同的“涌現(xiàn)”現(xiàn)象。
這意味著,BBT-Neutron 在數(shù)據(jù)和模型大小超過一定閾值時(shí),其解決特定任務(wù)的能力會(huì)突然顯著提高。然而,該現(xiàn)象在專業(yè)模型 ParticleNet 或 Particle Transformer 的實(shí)驗(yàn)結(jié)果中并未被觀察到。
圖丨噴注味標(biāo)記準(zhǔn)確率 (上) 以及電荷誤判率 (下) 與訓(xùn)練數(shù)據(jù)量的關(guān)系(來源:arXiv)
作為第一個(gè)能夠處理此類數(shù)據(jù)的通用大語言模型,BBT-Neutron 在 JoI 任務(wù)中的表現(xiàn)與最先進(jìn)的專業(yè)模型相當(dāng),展現(xiàn)了其在大規(guī)模科學(xué)計(jì)算任務(wù)中的卓越可擴(kuò)展性。
這一發(fā)現(xiàn)不僅證實(shí)了 BBT-Neutron 模型架構(gòu)的潛力,也預(yù)示著它有望成為跨領(lǐng)域的科學(xué)計(jì)算基座模型。
據(jù)了解,在日本 K2K 高能物理會(huì)議(KEK to Kamioka)上,阮曼奇研究員展示了 BBT-Neutron 的成果,并引起了與會(huì)者的極大興趣。
最初,他們對(duì)模型缺乏先驗(yàn)的置換對(duì)稱性導(dǎo)致的性能突變感到新奇,但經(jīng)過反復(fù)實(shí)驗(yàn)后,確認(rèn)了這一能力突變并非隨機(jī)擾動(dòng),而是模型學(xué)習(xí)能力的體現(xiàn)。
在數(shù)據(jù)預(yù)處理方面,該課題組面臨挑戰(zhàn):從中國科學(xué)院高能物理研究所計(jì)算中心模擬出來的數(shù)據(jù)需要經(jīng)過清洗才能輸入模型。這一過程非常棘手,研究人員投入了大量時(shí)間和精力來提高數(shù)據(jù)清洗的效率。
此外,BBT-Neutron 通用架構(gòu)還被用于數(shù)值回歸和晶格計(jì)算工作。出乎意料的是,當(dāng)它作為通用架構(gòu)在不同專業(yè)領(lǐng)域時(shí),表現(xiàn)達(dá)到行業(yè) SOTA。
盡管如此,該模型在語言能力與數(shù)值處理能力的統(tǒng)一性上還需進(jìn)一步提升。該團(tuán)隊(duì)計(jì)劃在未來的研究中,進(jìn)一步完善語言與數(shù)值處理的結(jié)合能力,以期達(dá)到更高的性能。
此外,他們還致力于提高測試模型的多任務(wù)泛化能力,未來將在 JOI、CSI(Color Singlet Interaction)和 One-to-One Correspondence 這三項(xiàng)任務(wù)上聯(lián)合訓(xùn)練并測試 BBT-Neutron 的能力。
同時(shí),該課題組也正在嘗試將多任務(wù)學(xué)習(xí)遷移到暗物質(zhì)探測等完全不同的實(shí)驗(yàn)中,測試模型在多個(gè)實(shí)驗(yàn)層面的任務(wù)學(xué)習(xí)能力。
總體來說,BBT-Neutron 模型的開發(fā)和應(yīng)用,為科學(xué)計(jì)算領(lǐng)域帶來了新的可能性,其在多模態(tài)數(shù)據(jù)處理和大規(guī)模數(shù)值實(shí)驗(yàn)數(shù)據(jù)分析中的表現(xiàn),預(yù)示著它有望成為未來科學(xué)研究的重要工具。