Saltar para o conteúdo

MPEG-G

Origem: Wikipédia, a enciclopédia livre.

MPEG-G (ISO / IEC 23092) é um padrão ISO/IEC projetado para representação de informações genômicas pela colaboração do ISO/IEC JTC 1/SC 29 /WG 9 (MPEG) e do ISO TC 276 "Biotechnology" Work Group 5. O objetivo do padrão é fornecer soluções interoperáveis para armazenamento, acesso e proteção de dados em diferentes implementações possíveis para informações de dados geradas por máquinas de sequenciamento de alto rendimento e seu processamento e análise subsequentes.[1][2] O padrão é composto de diferentes partes, cada uma abordando um aspecto específico, como compressão, associação de metadados, Application Programming Interfaces (APIs) e um software de referência para decodificação de dados. Juntamente com o software decodificador de referência, implementações comerciais e de código aberto[3] começaram a estar disponíveis em 2019, cobrindo progressivamente mais partes publicadas do padrão.

O advento das tecnologias de High-throughput methods (HTS) revolucionou o campo da biologia quantitativa. A disponibilidade de grandes coleções de informações genômicas agora faz parte da prática cotidiana e se tornou a base de diversas disciplinas, desde a pesquisa biológica até a medicina personalizada na clínica. Atualmente, as informações genômicas são trocadas principalmente por meio de uma variedade de formatos de dados, como FASTA / FASTQ para leituras de sequenciamento não alinhadas e SAM / BAM / CRAM para leituras alinhadas. O padrão ISO/IEC 23092 (MPEG-G) visa fornecer um formato unificado para a representação e compactação eficientes de dados tão diversos, tanto para armazenamento de arquivos quanto para transporte de dados. Para isso, o padrão é dividido em várias partes.

Estrutura padrão

[editar | editar código-fonte]

O padrão MPEG-G utiliza tecnologia e arquiteturas de representação de dados previamente validadas no campo da mídia digital. Eles permitem compactar e transportar dados de sequenciamento do genoma mesmo em cenários complexos, por exemplo, quando é necessário acesso a grandes quantidades de dados possivelmente distribuídos ou quando parte dos dados precisa ser criptografada por motivos de privacidade. Conceitualmente, tais requisitos levam à definição de uma série de mecanismos mutuamente inter-relacionados, que são resumidos na lista a seguir:

  • Formato e compressão de dados[4]
  • Transmissão de dados[4]
  • Concatenação de arquivo compactado[4]
  • Atualização incremental de dados de sequenciamento e metadados[4]
  • Acesso seletivo a dados compactados, por exemplo, consultas rápidas por intervalo genômico[5]
  • Associação de metadados[6]
  • Aplicação das regras de privacidade[6]
  • Criptografia seletiva de dados e metadados[6]
  • Anotação e ligação de segmentos genômicos.[7]

Por sua vez, alguns desses tópicos foram reunidos para tornar o padrão mais fácil de entender e implementar. Como resultado, a norma ISO/IEC 23092 é fisicamente estruturada como uma série de documentos separados, da seguinte forma:

MPEG-G Parts
Parte Número Primeira data de lançamento público (primeira edição) Última data de lançamento público (edição) Última alteração Título Descrição
Part 1 ISO/IEC 23092-1 2019 2019 Transporte e armazenamento de informações genômicas Especificação do formato de arquivo, streaming e indexação[4]
Part 2 ISO/IEC 23092-2 2019 2019 Codificação de Informação Genômica Compressão de dados de sequenciamento do genoma não mapeados (brutos) e alinhados[5]
Part 3 ISO/IEC 23092-3 2020 2020 Metadados e Application Programming Interfaces (APIs) Especificação de interfaces padrão, sintaxe para metadados e descrição de mecanismos de proteção de conteúdo[6]
Part 4 ISO/IEC 23092-4 (2020) Software de referência Ele descreve a implementação de código aberto de um decodificador normativo e codificador informativo. Ele também fornece fluxos de bits compactados que podem ser usados ​​para fins de referência. Observe que existem outras implementações de código aberto desenvolvidas por grupos independentes[8][9]
Part 5 ISO/IEC 23092-5 (2020) Teste de conformidade Ele detalha o procedimento de teste e os fluxos de bits de referência compactados associados a serem usados ​​quando se deseja avaliar a conformidade de uma implementação de decodificador com o padrão MPEG-G[10]
Part 6 ISO/IEC 23092-6 (2021) Codificação de anotações genômicas Representação compactada de anotações genômicas — ou seja, uma série de tipos de dados heterogêneos associados a intervalos do genoma de referência aos quais os dados de sequenciamento foram alinhados.[7]

ISO/IEC 23092-1 MPEG-G Part 1

[editar | editar código-fonte]

A ISO/IEC 23092-1 especifica como os dados genômicos são organizados dentro de estruturas MPEG-G para transporte (ou seja, streaming) e armazenamento. Os formatos de registro genômico, registro de referência, arquivo MPEG-G e fluxo de transporte são definidos nesta parte. Ele apresenta o Access Unit como o contêiner dos dados genômicos compactados e fornece um processo de conversão de referência entre diferentes formatos.

ISO/IEC 23092-2 MPEG-G Part 2

[editar | editar código-fonte]

A ISO/IEC 23092-2 especifica a sintaxe e os métodos para compressão sem perdas MPEG-G de dados de sequenciamento e compressão com perdas de pontuações de qualidade associadas. O MPEG-G, como é típico dos padrões MPEG, especifica apenas o processo de decodificação, enquanto o processo de codificação é deixado aberto a inovações algorítmicas e específicas de implementação. Todos os decodificadores compatíveis com MPEG-G produzem saídas idênticas dos fluxos de bits multiplexados incluídos nos arquivos MPEG-G e dos fluxos de dados em cenários de streaming.

Os dados de entrada do codificador são registros genômicos ou metadados, com dados de referência opcionais, enquanto sua saída é um arquivo MPEG-G ou fluxos de transporte.

ISO/IEC 23092-3 MPEG-G Part 3

[editar | editar código-fonte]

A ISO/IEC 23092-3 especifica um formato de metadados e fornece APIs de representação de dados genômicos para dar suporte à interoperabilidade entre ferramentas e sistemas existentes. A Parte 3 especifica como um fluxo de bits compatível com MPEG-G pode ser integrado com metadados, bem como mecanismos para implementar controle de acesso, verificação de integridade, autenticação e mecanismos de autorização. Esta parte também contém uma seção informativa dedicada ao mapeamento entre estruturas de dados SAM e MPEG-G, incluindo compatibilidade com versões anteriores do conteúdo SAM existente. Ele define:

Grupos de funções de API
Grupo de funções Breve Descrição
Informação Genômica Funções usadas para consultar a estrutura e recuperar as informações genômicas codificadas em um fluxo de bits compatível com a série ISO/IEC 23092.
Metadados Funções usadas para consultar a estrutura e recuperar os metadados associados aos dados genômicos codificados.
Proteção Funções usadas para recuperar os metadados de proteção associados aos dados genômicos codificados.
Referência Funções usadas para recuperar a referência associada a um conjunto de dados.
Estatísticas Funções usadas para recuperar estatísticas associadas a um conjunto de dados.

ISO/IEC 23092-4 MPEG-G Part 4

[editar | editar código-fonte]

A ISO/IEC 23092-4[9] especifica um software de referência para representação de informações genômicas, denominado modelo genômico (GM). Ele consiste em dois componentes: o software codificador de referência e o software decodificador de referência. Embora o software decodificador de referência seja fornecido para avaliar a conformidade com os requisitos da ISO/IEC 23092-1,[4] ISO/IEC 23092-2[5] e ISO/IEC 23092-6,[7] o software codificador de referência serve como um guia para a implementação dos padrões acima mencionados. O software codificador de referência chamado Genie[3] é um software de código aberto desenvolvido por um grupo de indivíduos de várias universidades e empresas ao redor do mundo. Ele apresenta os seguintes componentes:

Componentes de software de referência
Parte Número Componente Descrição
Part 1[4] ISO/IEC 23092-1 Encapsulamento
Indexação
Part 2[5] ISO/IEC 23092-2 Classificação
Motor de referência
Quantização do valor da qualidade
Geração de subsequência de descritor
Transformações
Codificação de entropia
Part 6 ISO/IEC 23092-6 (A ser determinado)

ISO/IEC 23092-5 MPEG-G Part 5

[editar | editar código-fonte]

A ISO/IEC 23092-5 especifica a conformidade da codificação de informações genômicas. A Parte 5 fornece um meio de testar e validar a implementação correta da tecnologia MPEG-G em diferentes dispositivos e aplicativos para garantir a interoperabilidade entre todos os sistemas. Ele especifica um procedimento normativo para avaliar a conformidade com o padrão em um conjunto exaustivo de dados compactados.

Tipo MIME e extensões de nome de arquivo

[editar | editar código-fonte]

Nenhum tipo MIME (tipo de mídia IANA baseado em RFC 6838) definido atualmente para arquivo MPEG-G.

Nenhuma extensão de arquivo convencional é definida.

Referências

  1. Alberti, Claudio; Paridaens, Tom; Voges, Jan; Naro, Daniel; Ahmad, Junaid; Ravasi, Massimo; Renzi, Daniele; Zoia, Giorgio; Ribeca, Paolo (Outubro de 2018). «An introduction to MPEG-G, the new ISO standard for genomic information representation». bioRxiv: 426353. doi:10.1101/426353. Consultado em 14 de novembro de 2024 
  2. Hernaez, Mikel; Pavlichin, Dmitri; Weissman, Tsachy; Ochoa, Idoia (20 de julho de 2019). «Genomic Data Compression». Annual Review of Biomedical Data Science. 2 (1): 19–37. ISSN 2574-3414. doi:10.1146/annurev-biodatasci-072018-021229Acessível livremente. Consultado em 14 de novembro de 2024 
  3. a b «Genie, Open Source MPEG-G Codec». GitHub. 22 de junho de 2021 
  4. a b c d e f g «ISO/IEC 23092-1 Transport and Storage of Genomic Information» 
  5. a b c d «ISO/IEC 23092-2 Coding of Genomic Information» 
  6. a b c d «ISO/IEC 23092-3 Metadata and APIs» 
  7. a b c «ISO/IEC 23092-6 Coding of Genomic Annotations» 
  8. Brian Bliss; Joshua Allen; Saurabh Baheti; Matthew Bockol; Jaime Delgado; Jan Fostier; Josep Gelpi; Steven Hart; Mikel Hernaez; Matthew Hudson; Michael Kalmbach; Eric Klee; Liudmila Mainzer; Fabian Müntefering; Daniel Naro; Idoia Ochoa; Joern Ostermann; Tom Paridaens; Christian Ross; Jan Voges; Eric Wieben; Mingyu Yang; Tsachy Weissman; Mathieu Wiepert (Novembro de 2019). Genie: an MPEG-G conformant software to compress genomic data (PDF). sc19.supercomputing.org. doi:10.1101/426353 
  9. a b «ISO/IEC 23092-4 Reference Software» 
  10. «ISO/IEC 23092-5 Conformance» 

Ligações externas

[editar | editar código-fonte]