關鍵詞 高通量測序,微生物檢測,數據分析方法,性能評測。
微生物檢測旨在通過傳統生化、免疫實驗方法或者高通量測序方法鑒別宏基因組樣品中的微生物種類和定量信息。常用傳統微生物檢測方法包括涂片鏡檢法、PCR 擴增法以及基因芯片法等。涂片鏡檢法通過對樣本微生物進行染色,觀察大小形態,與圖例進行對比從而完成檢測工作。其優勢為快速、成本低和不需要特殊儀器[1].基因芯片法通過熒光標記探針雜交顯示特異微生物的序列信息和位置。其優勢為敏感度高、檢測快速[2].PCR擴增法利用寡核苷酸引物引導待測基因片段進行擴增,從而能夠有效增強檢測信號,提高檢測效率[3].但是傳統微生物檢測方法都難以解決未知微生物的檢測問題:首先,如果樣本中存在未知微生物,則無法通過形態學特征等獲取其種屬信息,分離培養法和涂片鏡檢法不再適用;其次,PCR 擴增法和基因芯片技術的探針設計需要對樣本的先驗知識有所了解,同樣也難以鑒別未知微生物[4].
快速準確地檢測宏基因組樣本中的微生物,確定其種源、毒力等信息是疾病防控和生物安全的關鍵問題[5].新發未知的微生物由于其突發性、無法獲取先驗知識等特征,難以通過傳統微生物檢測方法進行快速、有效的應對。第二代測序(next-generation sequencing,NGS)技術經過 10 年左右的快速發展,功能不斷完善,成本逐漸降低,一次運行可以測定千萬級別的短序列[6].基于 NGS 的微生物檢測的完整流程包括:通過對宏基因組樣本進行大規模完全測序,得到宏基因組的核酸序列;再利用生物信息學工具對核酸序列數據進行分析,從而進一步得到微生物基因、耐藥性、毒力信息等[7].基于 NGS 的微生物檢測技術無需進行需要先驗知識的樣本形態學特征查找或者探針設計,能夠對未知致病微生物進行檢測,彌補了傳統微生物檢測方法的不足,成為預防未知生物威脅的重要手段。
隨著測序實驗技術的日趨成熟,數據分析方法逐漸成為制約基于 NGS 的微生物檢測應用的關鍵環節。本文對近些年來基于 NGS 的微生物檢測數據分析方法的流程設計和關鍵算法做簡要介紹,比較各個數據分析方法的特點及適用情況。最后總結面向應用需求的微生物檢測數據分析方法,對相關領域的未來走向提出了預測。希望本文對應用高通量測序技術進行微生物檢測的工作人員在數據分析方面提供有價值的參考。
1基于NGS的微生物檢測數據分析策略。
根據樣本來源、提取方法、建庫策略的不同,基于NGS的微生物檢測數據分析方法所采取的數據處理策略也略有不同。微生物樣本多來自血液、口腔、痰液、病理組織等,在進行DNA或RNA的提取后,利用高通量測序儀建庫測序,即獲得原始reads數據,存儲格式通常為fasta或fastq文件,后者包含堿基質量信息。測序原始數據需要進一步的數據分析以獲得其中微生物種群的相關信息[8].
基于NGS的微生物檢測數據分析方法面臨以下幾個關鍵問題:第一,檢測數據分析方法速度要快。由于 NGS 產出數據的通量越來越高,檢測數據分析方法的速度需要與之相匹配,才能夠達到快速確認,快速應對的目的[9].第二,檢測數據分析方法精度要高。面向未知微生物的檢測數據分析方法需要盡可能降低檢測的假陽性和假陰性比例。如果假陽性過高,無法有效確認疑似微生物,會造成時間和效率的浪費;如果假陰性過高,則無法充分檢測出宏基因組樣品中的微生物序列,影響后期確認和毒力評估[10].另外,NGS測序儀的測序讀長通常為35 ~250 bp (堿基),比第一代測序的讀長(650~800 bp)短,因此需要進行de-novo拼接以獲得完整微生物序列信息[11].除此之外微生物檢測數據分析方法還會遇到計算性能上的問題,需要提高檢測方法在不同體系結構上的運行效率,或通過算法優化檢測方法所需的計算量等。針對這些問題,目前多數基于NGS的微生物檢測方法可以歸納為以下數據分析策略(圖 1)。