2014年7月21日, 中國科學院云南天文臺2.4 m光學天文望遠鏡2014年下半年觀測時間正式面向國內外天文學家開放申請。 與以往通過發送電子郵件來提交申請材料不同, 此次觀測時間的申請只有一個入口, 即"中國虛擬天文臺". 這個看似微小的變化卻意味著我國天文學研究領域一個新時代的到來, 即從傳統的工作模式走向泛在融合的信息化時代。
1 數據密集型時代
天文學, 與許多學科類似, 正在信息與計算技術(ICT)等新興科技的驅動下發生著根本性的變革。 地基和空基的望遠鏡等觀測設施的工作波段已經覆蓋了整個電磁波譜(從射電一直到g射線)以及多個非電磁窗口(比如宇宙線、中微子、引力波等), 收集的數據經過規范處理后進入數據庫, 為下一步的科學分析做好準備。 天文學數據正在以前所未有的速度從數據量、增長量和復雜性等各方面快速發展。 這些豐富的數據資源大大加深了人類對宇宙的認識。
2019年將正式投入運行的LAMOST光譜巡天望遠鏡每晚拍攝數萬條天體的光譜, 產生20 GB的光譜數據。 地面廣角相機陣GWAC每天的觀測數據量可達7.4 TB(1 TB=1024 GB)。 "天籟計劃"大型射電干涉儀陣列一期96面天線的數據流量為4.8 GB/s, 二期1000面天線的數據流量為3.2 TB/s. 國際上, 大口徑全天巡視望遠鏡(LSST)2018年投入運行后預計每晚可產生15 TB的原始觀測數據, 低頻射電陣(LOFAR)每秒產生上百千兆字節的科學數據, 一平方千米天線陣(SKA) 整體運行后每秒鐘收集的原始觀測數據更是高達千萬億字節。 海量而復雜的圖像、光譜、星表、時序等數據就像一個深邃的數字宇宙, 為天文學家提供了廣闊的挖掘空間。 例如, 通過對收錄著數十上百億天體的多波段巡天數據庫的融合來深入研究宇宙的大尺度結構和銀河系的精細結構, 在海量數據中借助高級的數據挖掘手段發現稀有和新的天體類型, 在宇宙時標尺度上揭示類星體、星系和星系團的演化, 將大規模數值模擬結果與精細的觀測數據進行比對分析等。
天文數據是寶貴的科研資料, 是人類了解和研究宇宙奧秘的第一手素材。 在人類探索宇宙奧秘和自身起源強烈的好奇心驅使下, 隨著科學和技術的不斷進步, 特別是望遠鏡設計與制造技術、探測器設計與制造技術、信息與計算技術等的發展, 天文學已經進入海量數據時代, 或者說"大數據"時代。 天文學研究成為一項以數據為中心, 為數據所驅動的科研活動。
驅動這場變革的背后推手除了有不斷豐富的數據, 還有互聯網帶來的便捷的數據訪問和資源共享。
現代天文數據庫中蘊含的信息內容十分豐富, 檔案研究和數據挖掘不僅是必要的而且是必需的。 大多數情況下, 數據的擁有者發掘的信息只是這些數據庫科學價值的很小一部分。
與此同時, 數值模擬不再僅僅是理論分析的一種輔助手段, 而變成研究許多復雜現象(比如宇宙大尺度結構的形成與演化、星系間的相互作用、恒星系統的形成)主要乃至唯一的途徑, 這些數值模擬程序也產生大量的數據。 換句話說, 理論家不再僅是用公式來表達自己的思想, 還有大量的數據。 實驗(觀測)和理論都在用大量的數據來推動人類知識的發展。 現代科學與傳統科學無論是從量上還是從質上都發生了根本的變化, 成為一門數據驅動的科學, 這就是"第四范式"[1]. 基于數據的科學發現已成為繼實驗(觀測)、理論分析、科學計算之后, 科學發展的另一個重要支柱。
天文學是數據密集型科學的領頭羊, 這主要歸因于下面3個因素[2]. 首先, 天文學最早采用(某種程度上是發展了)現代數字探測器, 例如CCD和數字相干器, 并把科學計算作為數據處理的手段, 把數值模擬作為一種科研工具。 國際天文學領域中e-Science的文化理念早在20世紀80年代, 在英特網(WWW)和商業數據庫誕生之前, 就被培育起來。 天文數據集的體量從最初的千字節到兆字節, 20世紀80年代末發展到千兆字節, 90年代中期到萬億字節, 如今則是千萬億字節。 天文學家早在20世紀80年代初就設計了領域內通用的數據交換標準, 即FITS[3].
第二個重要的因素是美國宇航局(NASA)等空間機構為其空間科學計劃建立起一批數據中心, 在一定的保護期后把科學數據向全社會開放共享。 天文學家的這種做法不但推動了數據庫和數據管理工具的發展, 也逐漸培育出科學數據開放共享和重復利用的科學文化。 這些數據中心成為今天虛擬天文臺的發祥地和重要基礎。
第三個重要因素是大型數字巡天計劃的出現并成為天文數據的主要來源。 利用照相底片做巡天觀測, 通過掃描實現數字化, 這樣的傳統巡天工作在20世紀90年代便壽終正寢。 傳統巡天計劃造就了第一個萬億字節量級的天文數據集, 即數字化帕洛瑪巡天(DPOSS)[4]. 這個記錄很快便被斯隆數字巡天(SDSS)等純數字的巡天計劃打破[5]. 除了取得矚目的科學成果, 現代數字巡天計劃還改變了天文學的研究模式和天文學家的思維模式。 基于現代巡天數據庫, 科研人員不依賴于望遠鏡也能做出漂亮的研究成果。 數字巡天時代的天文學發展不但需要天文學家的個人智慧, 更需要大型科研團隊的協同創新。
數據密集型時代的天文學研究給天文學家和技術專家帶來諸多機遇的同時也帶來非常多的挑戰。
數據密集型環境下, 天文學研究所需的資源不但包括數據和文獻, 更是需要數據庫、分布式存儲、高性能計算、數據挖掘和知識發現工具、創新的可視化環境等。 不同波段、時刻、空間尺度的數據融合把這些挑戰又提升到一個新的高度。 針對數據的采集、歸檔、管理、訪問、處理、挖掘、展現, 這些科研活動環節, 在數據量不斷增大、數據結構越來越復雜的大數據時代, 傳統的方式和手段已不再適用和滿足天文學研究的需求。
2 虛擬天文臺
虛擬天文臺就是要把天文學從老的數據貧乏的研究體制變革到新的數據極大豐富的研究體制, 充分利用信息技術來解決新的、數據密集型天文學時代的挑戰。
虛擬天文臺(virtual observatory, VO)[6,7]是通過先進的信息技術將全球范圍內的天文研究資源無縫透明連結在一起形成的數據密集型網絡化天文學研究和科普教育環境。 其將全球的天文數據庫連接起來形成一個多波段的數字星空, 一個全球性的天文數據網格, 讓科學家和普通用戶能夠基于數據發現、高效數據訪問和互操作, 以各種創新的方式進行檢索、展現和分析, 打造創新型的科學研究和資源使用環境。
由各國虛擬天文臺項目組成的國際虛擬天文臺聯盟(簡稱IVOA)致力于為實現數據的互操作制訂有關的標準和規范, 使數據產品生成、管理和使用的各個環節都在標準的框架下進行。 虛擬天文臺的誕生消除了各個數據庫系統訪問標準不統一的問題, 使得星表數據交叉證認、異構圖像和光譜數據的分析處理、多波段數據的可視化等以往棘手的工作可由程序和軟件來完成。
傳統研究模式為人類留下了千兆字節量級的數據遺產, 巡天模式為人類留下了萬億字節量級的數據遺產, 虛擬天文臺模式則把人類帶入千萬億字節量級的數據密集型時代。 這3種模式并不是一種取代另一種, 而是同時存在于現代天文學研究活動中。
中國虛擬天文臺旨在完成國際虛擬天文臺宏偉構想中的中國部分, 正在以國內核心天文觀測設備的時間申請、審批, 數據匯交、共享、使用, 課題設計、開展為線索, 融合天文觀測和科研活動所需的科學數據、科技文獻、高性能計算、軟件和實用工具等資源, 打造一個物理上分散、邏輯上統一的網絡化科學研究平臺; 基于虛擬天文臺技術和云計算技術實現一個全生命周期數據管理與開放共享平臺[8,9]. 中國虛擬天文臺是一個數據驅動的科研信息化環境,基于標準、完整、有質量保障的元數據和科學數據系統, 通過具備互操作能力的軟件、工具和服務, 為天文學家等科學用戶打造一個泛在融合的信息化科研新模式。 同時, 這是一個開放的平臺, 通過標準的接口和協議與國際上的資源和服務實現無縫融合。
3 天文信息學
通過虛擬天文臺連通起來的全球天文數據網格讓天文數據的發現和訪問變得空前便捷, 從理論上講這至少能夠適應下一代巡天和空間計劃的需求。
但這只是萬里長征邁出的第一步, 其中缺少的一個關鍵環節便是使用方便、適應性強、可以從海量數據集中提取信息和知識的工具庫, 特別是那些可以在萬億字節量級數據集上開展數據挖掘和分析的工具。
目前這方面的工作主要靠個別的研究小組以及一些天文臺和巡天計劃來開展。要全面應對海量科學數據時代天文學研究的挑戰, 天文學家們需要更寬廣的視野和長久的策略, 需要一個重要的新學科, 即天文信息學(Astroinformatics)。 天文信息學旨在為天文學和信息技術以及計算機應用科學搭建橋梁, 以基于VO框架建立起來的數據網格為基礎, 為數據密集型天文學的研究者們提供一個更廣闊的社區。
虛擬天文臺的核心目標是制訂一套完整的標準來實現對全球天文信息資源的發現、訪問和互操作,這是天文信息學的基礎和出發點。 為了應對數據密集型的天文學研究, 還需要更多系統性的研究和開發, 把計算和分析的科學工具應用到天文學領域, 從海量的數據中甄別出新的模式和新的發現。 天文信息學代表了數據密集型天文科學研究的一種新模式。
它涵蓋一系列內在相互關聯的領域, 包括數據組織、數據描述、天文分類學、天文概念語義、數據挖掘、機器學習、可視化、天文統計學等。 研究的內容包括:數據模型、數據轉換和歸一化方法、索引技術、信息提取和整合方法、知識發現方法、基于內容和基于語境的信息呈現、一致化的語義描述、分類學、天文本體論等。
4 數據挖掘和知識發現
隨著數據密集型時代的到來, 天文學研究的模式正在從以往的小樣本向著大數據模式轉變, 從個人研究到團隊協作轉變。 海量的天文數據給天文學家帶來巨大的機遇和挑戰, 天文學研究越來越離不開大數據集的統計分析, 即數據挖掘和知識發現。
大多數傳統的數據分析方法都無法適應萬億字節量級或者高維度的數據, 必須開發和采用現代的數據挖掘和數據庫知識發現技術[10]. 人工審查海量數據已無可能, 必須采用機器學習技術來自動化的完成這項工作。 當前大多數的數據挖掘工具雖然可以應對較大的數據量但無法應對很高的數據維度,需要研究能適應現代海量復雜數據集的數據挖掘工具和方法。
以新一代概要巡天觀測為代表的新興觀測手段讓時域天文學獲得長足發展, 同時帶來許多新的需求和挑戰[11]. 新一代概要式巡天能夠實現對大面積天區的快速、多次掃描, 從而產生很多倍于傳統數字巡天的數據量。 新一代概要式巡天計劃的實施把數據處理和分析的對象從海量數據集變為海量數據流,研究工作的復雜度進一步提升。 很多物理過程和事件持續的時間很短, 要求近乎實時地完成目標證認、特征提取、天體分類、隨動觀測優先級確定等工作。
這與傳統的數據處理和分析要求很不相同。 受限于可調動的觀測資源, 概要式巡天計劃探測到的暫現事件中只能有很小一部分能夠得到隨動觀測。 現有的分類方法會被用來為這些暫現事件自動判定隨動觀測優先級。 事件分類和可用資源都在動態地發生著變化。 前者歸因于新的測量結果, 后者則受到資源分配、天氣、晝夜交替等多種因素的限制。 為能應對這些棘手的挑戰, 必須通過創新的手段實現對海量數據流的魯棒、靈活、實時處理和挖掘。
有效的可視化是數據探究、分析和理解的重要環節, 也是數據挖掘不可分割的一部分。 可以說, 可視化是科學數據所蘊含的定量內容和對其直觀理解的橋梁。 對不同波段、不同天區的精彩圖片進行展現是天文學獨特的優勢, 但對高維參數空間的海量現代天文數據進行可視化仍然需要很多創新的手段和方法。 這是當代"大數據"科學所面臨的一個共同挑戰。
人類的視覺感知和模式識別能力是很有限的。 把幾個維度的數據通過一些技巧來呈現在一個偽3D的圖像上還是可以接受的, 但現代科學數據集已經具有數百上千的維度。 可視化是制約數據密集型科學研究的關鍵瓶頸之一[12].
5 結論
這是一個令人興奮的時代。 新技術、新方法層出不窮, 天文學家隨時都有可能從海量數據中取得新的發現。 探測器、傳感器、高性能計算集群等快速積累著各種數據, 對網絡、存儲、計算等信息化基礎設施提出幾乎無窮盡的需求。 數據挖掘、知識發現、數據可視化專家需要不停地思考如何讓研究工具更加強壯。