與羅塞塔石碑上刻的文字不同,數(shù)字?jǐn)?shù)據(jù)并非寫在幾乎不可改變的載體上。寫出來幾年后,其格式就會過時,讀出分析工具無法在計算機上運行,可視化代碼也不再起作用。但數(shù)據(jù)仍然可以包含有趣的科學(xué)信息,這些信息應(yīng)該可以保留給未來的科學(xué)家使用。
一組可能引起極大興趣的數(shù)據(jù)是LEP的數(shù)據(jù),它是 CERN 的前旗艦加速器,在 2000 年之前用于對撞電子和正電子。與當(dāng)前的 LHC 一樣,LEP 有四個對撞點,每個對撞點都進(jìn)行一項實驗 - ALEPH、DELPHI、OPAL 和 L3 - 由數(shù)百名科學(xué)家操作。LEP 保持著世界上最高的 e+e- 能量對撞記錄,但二十多年前收集的數(shù)據(jù)仍然只有一小部分人可以獲取。
就像發(fā)掘古代文明遺跡的考古學(xué)家一樣,數(shù)字考古學(xué)家是計算專家,他們在合作轉(zhuǎn)向其他實驗多年后檢索數(shù)據(jù)。“第一步是在合作中就開放和共享數(shù)據(jù)以及利用數(shù)據(jù)所需的軟件達(dá)成一致。然后,就像考古學(xué)家一樣,我們深入研究以前的合作者編寫的有關(guān)數(shù)據(jù)架構(gòu)的文檔,并檢索用于實際分析的軟件”,IT 部門的前 DELPHI 物理學(xué)家和計算專家 Ulrich Schwickerath 解釋說。這不是一件容易的事,因為信息通常位于未發(fā)表的文檔或私人存儲庫中,甚至可能未在合作中共享。
LEP 時期的分析軟件存放在 CERNLIB 中,這是 CERN 開發(fā)的軟件庫,于 2003 年停用。“在 CERNLIB 的最新版本發(fā)布后不久,許多外部愛好者保留了它,并對軟件進(jìn)行了快速修復(fù),即所謂的補丁。在社區(qū)的努力下,這些補丁被收集在一起,以創(chuàng)建一個社區(qū)版本,使舊軟件能夠適應(yīng)現(xiàn)代架構(gòu),”Ulrich 解釋道。“從那時起,我們與一些 LEP 愛好者一起,使用新的社區(qū)驅(qū)動版本的 CERNLIB 恢復(fù)了 DELPHI 和 OPAL 實驗的軟件堆棧。我們正在努力使數(shù)據(jù)集以原始格式完全可用,盡可能與現(xiàn)代硬件和軟件工具兼容,并修改舊的可視化代碼,以便今天的的科學(xué)家可以進(jìn)行適當(dāng)?shù)姆治觥?rdquo;