MPEG-G
MPEG-G (ISO / IEC 23092) é um padrão ISO/IEC projetado para representação de informações genômicas pela colaboração do ISO/IEC JTC 1/SC 29 /WG 9 (MPEG) e do ISO TC 276 "Biotechnology" Work Group 5. O objetivo do padrão é fornecer soluções interoperáveis para armazenamento, acesso e proteção de dados em diferentes implementações possíveis para informações de dados geradas por máquinas de sequenciamento de alto rendimento e seu processamento e análise subsequentes.[1][2] O padrão é composto de diferentes partes, cada uma abordando um aspecto específico, como compressão, associação de metadados, Application Programming Interfaces (APIs) e um software de referência para decodificação de dados. Juntamente com o software decodificador de referência, implementações comerciais e de código aberto[3] começaram a estar disponíveis em 2019, cobrindo progressivamente mais partes publicadas do padrão.
Background
[editar | editar código-fonte]O advento das tecnologias de High-throughput methods (HTS) revolucionou o campo da biologia quantitativa. A disponibilidade de grandes coleções de informações genômicas agora faz parte da prática cotidiana e se tornou a base de diversas disciplinas, desde a pesquisa biológica até a medicina personalizada na clínica. Atualmente, as informações genômicas são trocadas principalmente por meio de uma variedade de formatos de dados, como FASTA / FASTQ para leituras de sequenciamento não alinhadas e SAM / BAM / CRAM para leituras alinhadas. O padrão ISO/IEC 23092 (MPEG-G) visa fornecer um formato unificado para a representação e compactação eficientes de dados tão diversos, tanto para armazenamento de arquivos quanto para transporte de dados. Para isso, o padrão é dividido em várias partes.
Estrutura padrão
[editar | editar código-fonte]O padrão MPEG-G utiliza tecnologia e arquiteturas de representação de dados previamente validadas no campo da mídia digital. Eles permitem compactar e transportar dados de sequenciamento do genoma mesmo em cenários complexos, por exemplo, quando é necessário acesso a grandes quantidades de dados possivelmente distribuídos ou quando parte dos dados precisa ser criptografada por motivos de privacidade. Conceitualmente, tais requisitos levam à definição de uma série de mecanismos mutuamente inter-relacionados, que são resumidos na lista a seguir:
- Formato e compressão de dados[4]
- Transmissão de dados[4]
- Concatenação de arquivo compactado[4]
- Atualização incremental de dados de sequenciamento e metadados[4]
- Acesso seletivo a dados compactados, por exemplo, consultas rápidas por intervalo genômico[5]
- Associação de metadados[6]
- Aplicação das regras de privacidade[6]
- Criptografia seletiva de dados e metadados[6]
- Anotação e ligação de segmentos genômicos.[7]
Por sua vez, alguns desses tópicos foram reunidos para tornar o padrão mais fácil de entender e implementar. Como resultado, a norma ISO/IEC 23092 é fisicamente estruturada como uma série de documentos separados, da seguinte forma:
Parte | Número | Primeira data de lançamento público (primeira edição) | Última data de lançamento público (edição) | Última alteração | Título | Descrição |
---|---|---|---|---|---|---|
Part 1 | ISO/IEC 23092-1 | 2019 | 2019 | Transporte e armazenamento de informações genômicas | Especificação do formato de arquivo, streaming e indexação[4] | |
Part 2 | ISO/IEC 23092-2 | 2019 | 2019 | Codificação de Informação Genômica | Compressão de dados de sequenciamento do genoma não mapeados (brutos) e alinhados[5] | |
Part 3 | ISO/IEC 23092-3 | 2020 | 2020 | Metadados e Application Programming Interfaces (APIs) | Especificação de interfaces padrão, sintaxe para metadados e descrição de mecanismos de proteção de conteúdo[6] | |
Part 4 | ISO/IEC 23092-4 | (2020) | Software de referência | Ele descreve a implementação de código aberto de um decodificador normativo e codificador informativo. Ele também fornece fluxos de bits compactados que podem ser usados para fins de referência. Observe que existem outras implementações de código aberto desenvolvidas por grupos independentes[8][9] | ||
Part 5 | ISO/IEC 23092-5 | (2020) | Teste de conformidade | Ele detalha o procedimento de teste e os fluxos de bits de referência compactados associados a serem usados quando se deseja avaliar a conformidade de uma implementação de decodificador com o padrão MPEG-G[10] | ||
Part 6 | ISO/IEC 23092-6 | (2021) | Codificação de anotações genômicas | Representação compactada de anotações genômicas — ou seja, uma série de tipos de dados heterogêneos associados a intervalos do genoma de referência aos quais os dados de sequenciamento foram alinhados.[7] |
ISO/IEC 23092-1 MPEG-G Part 1
[editar | editar código-fonte]A ISO/IEC 23092-1 especifica como os dados genômicos são organizados dentro de estruturas MPEG-G para transporte (ou seja, streaming) e armazenamento. Os formatos de registro genômico, registro de referência, arquivo MPEG-G e fluxo de transporte são definidos nesta parte. Ele apresenta o Access Unit como o contêiner dos dados genômicos compactados e fornece um processo de conversão de referência entre diferentes formatos.
ISO/IEC 23092-2 MPEG-G Part 2
[editar | editar código-fonte]A ISO/IEC 23092-2 especifica a sintaxe e os métodos para compressão sem perdas MPEG-G de dados de sequenciamento e compressão com perdas de pontuações de qualidade associadas. O MPEG-G, como é típico dos padrões MPEG, especifica apenas o processo de decodificação, enquanto o processo de codificação é deixado aberto a inovações algorítmicas e específicas de implementação. Todos os decodificadores compatíveis com MPEG-G produzem saídas idênticas dos fluxos de bits multiplexados incluídos nos arquivos MPEG-G e dos fluxos de dados em cenários de streaming.
Os dados de entrada do codificador são registros genômicos ou metadados, com dados de referência opcionais, enquanto sua saída é um arquivo MPEG-G ou fluxos de transporte.
ISO/IEC 23092-3 MPEG-G Part 3
[editar | editar código-fonte]A ISO/IEC 23092-3 especifica um formato de metadados e fornece APIs de representação de dados genômicos para dar suporte à interoperabilidade entre ferramentas e sistemas existentes. A Parte 3 especifica como um fluxo de bits compatível com MPEG-G pode ser integrado com metadados, bem como mecanismos para implementar controle de acesso, verificação de integridade, autenticação e mecanismos de autorização. Esta parte também contém uma seção informativa dedicada ao mapeamento entre estruturas de dados SAM e MPEG-G, incluindo compatibilidade com versões anteriores do conteúdo SAM existente. Ele define:
Grupo de funções | Breve Descrição |
---|---|
Informação Genômica | Funções usadas para consultar a estrutura e recuperar as informações genômicas codificadas em um fluxo de bits compatível com a série ISO/IEC 23092. |
Metadados | Funções usadas para consultar a estrutura e recuperar os metadados associados aos dados genômicos codificados. |
Proteção | Funções usadas para recuperar os metadados de proteção associados aos dados genômicos codificados. |
Referência | Funções usadas para recuperar a referência associada a um conjunto de dados. |
Estatísticas | Funções usadas para recuperar estatísticas associadas a um conjunto de dados. |
ISO/IEC 23092-4 MPEG-G Part 4
[editar | editar código-fonte]A ISO/IEC 23092-4[9] especifica um software de referência para representação de informações genômicas, denominado modelo genômico (GM). Ele consiste em dois componentes: o software codificador de referência e o software decodificador de referência. Embora o software decodificador de referência seja fornecido para avaliar a conformidade com os requisitos da ISO/IEC 23092-1,[4] ISO/IEC 23092-2[5] e ISO/IEC 23092-6,[7] o software codificador de referência serve como um guia para a implementação dos padrões acima mencionados. O software codificador de referência chamado Genie[3] é um software de código aberto desenvolvido por um grupo de indivíduos de várias universidades e empresas ao redor do mundo. Ele apresenta os seguintes componentes:
Parte | Número | Componente | Descrição |
---|---|---|---|
Part 1[4] | ISO/IEC 23092-1 | Encapsulamento | |
Indexação | |||
Part 2[5] | ISO/IEC 23092-2 | Classificação | |
Motor de referência | |||
Quantização do valor da qualidade | |||
Geração de subsequência de descritor | |||
Transformações | |||
Codificação de entropia | |||
Part 6 | ISO/IEC 23092-6 | (A ser determinado) |
ISO/IEC 23092-5 MPEG-G Part 5
[editar | editar código-fonte]A ISO/IEC 23092-5 especifica a conformidade da codificação de informações genômicas. A Parte 5 fornece um meio de testar e validar a implementação correta da tecnologia MPEG-G em diferentes dispositivos e aplicativos para garantir a interoperabilidade entre todos os sistemas. Ele especifica um procedimento normativo para avaliar a conformidade com o padrão em um conjunto exaustivo de dados compactados.
Tipo MIME e extensões de nome de arquivo
[editar | editar código-fonte]Nenhum tipo MIME (tipo de mídia IANA baseado em RFC 6838) definido atualmente para arquivo MPEG-G.
Nenhuma extensão de arquivo convencional é definida.
Ver também
[editar | editar código-fonte]Referências
- ↑ Alberti, Claudio; Paridaens, Tom; Voges, Jan; Naro, Daniel; Ahmad, Junaid; Ravasi, Massimo; Renzi, Daniele; Zoia, Giorgio; Ribeca, Paolo (Outubro de 2018). «An introduction to MPEG-G, the new ISO standard for genomic information representation». bioRxiv: 426353. doi:10.1101/426353. Consultado em 14 de novembro de 2024
- ↑ Hernaez, Mikel; Pavlichin, Dmitri; Weissman, Tsachy; Ochoa, Idoia (20 de julho de 2019). «Genomic Data Compression». Annual Review of Biomedical Data Science. 2 (1): 19–37. ISSN 2574-3414. doi:10.1146/annurev-biodatasci-072018-021229. Consultado em 14 de novembro de 2024
- ↑ a b «Genie, Open Source MPEG-G Codec». GitHub. 22 de junho de 2021
- ↑ a b c d e f g «ISO/IEC 23092-1 Transport and Storage of Genomic Information»
- ↑ a b c d «ISO/IEC 23092-2 Coding of Genomic Information»
- ↑ a b c d «ISO/IEC 23092-3 Metadata and APIs»
- ↑ a b c «ISO/IEC 23092-6 Coding of Genomic Annotations»
- ↑ Brian Bliss; Joshua Allen; Saurabh Baheti; Matthew Bockol; Jaime Delgado; Jan Fostier; Josep Gelpi; Steven Hart; Mikel Hernaez; Matthew Hudson; Michael Kalmbach; Eric Klee; Liudmila Mainzer; Fabian Müntefering; Daniel Naro; Idoia Ochoa; Joern Ostermann; Tom Paridaens; Christian Ross; Jan Voges; Eric Wieben; Mingyu Yang; Tsachy Weissman; Mathieu Wiepert (Novembro de 2019). Genie: an MPEG-G conformant software to compress genomic data (PDF). sc19.supercomputing.org. doi:10.1101/426353
- ↑ a b «ISO/IEC 23092-4 Reference Software»
- ↑ «ISO/IEC 23092-5 Conformance»