
Information technology — Genomic information representation — Part 5: Conformance
出版:International Organization for Standardization

專家解讀視頻
高通量測序(HTS)技術的出現有可能促進基因組信息在日常實踐中的應用,從生物學研究到臨床個性化的基因組醫學。因此,在過去幾年中,生成的數據量急劇增加,預計在不久的將來還會有更顯著的增長。 目前,基因組信息主要通過多種數據格式進行交換,如FASTA/FASTQ用于未對齊的測序讀取,SAM/BAM/CRAM用于對齊的讀取。關于這種格式,ISO/IEC 23092系列為基因組測序信息的表示和壓縮提供了一種新的解決方案: ——指定排序數據的抽象表示,而不是直接實現的特定格式。 ——在技術和用例更加成熟的時候被設計。這允許解決文本SAM格式的一個局限性,對于這種局限性,隨著時間的推移,會增加一些特別的特性,從而導致總體冗余和次優的格式,同時不會導致一般和不必要的復雜。 ——從標準基因組數據表示中規范地分離沒有明確語義的自由域用戶定義信息。這允許在不同的數據生產者之間進行完全互操作和自動的信息交換。 ——允許將相關元數據信息與數據復用,因為數據和元數據在不同的概念級別上被劃分。 ——在過去的30年里,在數字媒體的傳輸格式、文件格式、壓縮表示和應用程序接口方面,遵循了一個嚴格的、有監督的開發過程。 本文件提供了使能技術,使社區能夠在基因組信息處理領域創建一個新的、可互操作的解決方案生態系統。特別是,它提供: ——致的、通用的和適當設計的格式定義和數據結構,用于存儲排序和對齊信息。一個魯棒的框架,可以作為實現不同壓縮算法的基礎。 ——通過新設計的數據聚類和優化存儲方法,選擇性地訪問編碼數據的速度和靈活性。 -基于實時應用程序域啟發的傳輸協議,數據傳輸的低延遲和遠程位置的快速可用性。 ——內置的隱私和敏感信息的保護,由于一個靈活的框架,允許在數據層次結構的所有層的可定制的,安全的訪問。 ——技術的可靠性以及工具和系統之間的互操作性,這是因為提供了一個標準程序,以在詳盡的數據集上評估對本文件的符合性。 ——通過提供涵蓋ISO/IEC 23092系列全部內容的標準參考實施,支持實現一個完整的兼容設備和應用生態系統。 您可以聯系您的國家成員對本國際標準草案發表意見。意見征集于2020年5月3日結束。