感官超載:模擬大型強子對撞機上的質子-質子碰撞。(禮貌:歐洲核子研究中心)
深度學習可能是理解世界首屈一指的粒子加速器中產生的質子碰撞的關鍵。這是來自歐洲和美國物理學家的信息,他們展示了一種為語言翻譯而開發的算法如何有效地濾除歐洲核子研究中心大型強子對撞機探測器所采集數據中的噪聲。一旦 LHC 升級,該算法可以為物理學家提供發現奇異新粒子的最佳機會。
LHC 以令人難以置信的高能量將質子撞擊在一起,以產生一系列大質量粒子。這可能包括粒子物理學標準模型未描述的假設粒子——發現它是對撞機的主要目標。
LHC 實際上會碰撞包含數十億個質子的束,以確保一個束中的至少一個質子與另一束中的質子相互作用的合理機會。解釋對撞機數據的一個主要挑戰是將(廣受歡迎的)正面碰撞產生的粒子與掠射產生的粒子區分開來。后者被稱為堆積,主要由最終散布在探測器周圍的π介子組成,使確定任何新粒子的存在變得更加困難。
隨著大型強子對撞機的碰撞率上升,堆積物將在未來幾年成為一個特殊的問題。從 2027 年開始,高亮度大型強子對撞機將在每次碰撞時產生大約 200 次堆積事件,比五年前的結果高出大約一個數量級。
追溯
物理學家設計了幾種方法來關注有趣的碰撞。一種簡單的方法是考慮帶電粒子在穿過檢測器時留下的軌跡,并且只保留帶有可追溯到正面碰撞的軌跡的事件——起源于所謂的主頂點。
一種稱為 PUPPI 的更復雜的替代方案除了篩選對撞機中產生的中性粒子外,還可以執行此操作。它通過確定每個中性粒子周圍的帶電粒子的來源,然后根據與前者的關系計算后者起源于初級頂點的概率來實現這一點。
在最新的工作中,歐洲核子研究中心的 Benedikt Maier 及其同事著手使用機器學習來達到同樣的目的。雖然 PUPPI 依靠逐步計算來直接確定某些粒子是否來自主頂點,但這種情況下的算法——研究人員稱之為 PUMA 的高級神經網絡類型——學習了粒子屬性和碰撞起源之間的關系。使用包含多個輸入-輸出對的數據集進行訓練。
這不是第一個旨在嘗試處理 LHC 堆積問題的人工神經網絡。例如,在 2017 年,美國哈佛大學的Matthew Schwartz及其同事報告稱,他們設計了一個所謂的卷積神經網絡來清理以圖像形式表示的 ATLAS 和 CMS 檢測器的輸出——每個像素的強度表示粒子的能量分布。通過教導網絡將所有中性粒子的圖像與僅顯示來自主頂點的中性粒子的相應圖像相關聯,他們發現當在其輸入端輸入新的噪聲數據時,該算法可以生成清理后的圖像。
變壓器算法
然而,根據 Maier 的說法,這種和其他基于機器學習的方法依賴于 PUPPI 的結果作為其輸入的一部分。相比之下,PUMA 僅根據原始探測器數據消除堆積。它使用一種稱為轉換器的算法來實現這一點,該算法旨在將一種語言的短語轉換為另一種語言的等效短語。它重新用于粒子物理學,而是將表示來自碰撞事件的一系列粒子的數據轉換為 0 到 1 之間的數字序列——每個粒子來自主頂點的概率。
其他機器翻譯器在計算一串單詞的含義時往往只關注單詞的最近鄰居,而轉換器也解釋了間隔較遠的單詞之間的鏈接。他們通過分析稱為注意力的過程來做到這一點,該過程涉及將單詞表示為特征向量,將該向量乘以某些矩陣,然后通過點積函數將這些計算的結果與另一個粒子的等效結果相結合。
PUMA 代表 Pile-Up Mitigation using Attention,它同樣通過將每個粒子編碼為包含粒子類型、能量和角度等參數的向量來實現。然后,它使用注意力過程生成一組新的向量,這些向量反映每個粒子與其他粒子的關系,并將這些向量輸入一個簡單的神經網絡,該網絡將信息提煉成每個粒子的一個數值——原點概率。通過使用與已知二進制概率相關的輸入向量訓練網絡,計算輸出和預期輸出之間的差異可用于迭代地調整注意力矩陣,以便將來該算法可以識別新的原始數據是否對應于來自初級的粒子頂點或從堆積。
探測器快照
Maier 及其同事使用 200,000 個“檢測器快照”訓練他們的網絡,這些“檢測器快照”是他們使用 DELPHES 計算機程序生成的 CMS 模擬生成的。每個快照都包含一次主要質子碰撞的殘余物和大約 140 次掃視。這相當于每個快照大約 5000 個粒子,因此總共有 10 億個輸入向量和相關概率。然后,他們使用進一步的模擬數據將 PUMA 的性能與 PUPPI 等經典算法進行比較。特別是,他們專注于橫向動量——當碰撞的質子相互飛行時,橫向動量為零,一旦從數據中刪除所有無關粒子,在碰撞后應該保持如此。
人工智能和粒子物理學:強大的伙伴關系
研究人員發現,與基于其他堆積算法去除的計算相比,基于 PUMA 堆積消除的凈橫向動量計算更接近最佳情況——模擬樣品沒有堆積。他們現在計劃使用來自將安裝在 CMS 中的一個特定子檢測器的真實數據來測試 PUMA。然而,邁爾指出,盡管新算法比競爭對手的方案有所改進,但新算法仍然與最佳情況相悖。“為了未來的研究,看看模型中仍然缺少什么,”他說。
未參與最新研究的法國巴黎城市大學的 Matteo Cacciari 對“出色的結果”表示歡迎,并指出機器學習通過設計利用比傳統技術更廣泛的信息。但他補充說,要準確理解這個和其他神經網絡從哪里獲得“辨別力”也更難,他認為,很難發現算法中任何不需要的偏差。“在科學中,盡可能廣泛地理解事物總是更好的,”他說。