Logo do repositório
 
A carregar...
Miniatura
Publicação

Implementation of a data analysis pipeline for the genetic characterization of non-seasonal influenza A WGS samples in the context of laboratory surveillance of viral outbreaks

Utilize este identificador para referenciar este registo.
Nome:Descrição:Tamanho:Formato: 
TM_Joao_Pereira.pdf1.04 MBAdobe PDF Ver/Abrir

Resumo(s)

Background: Influenza A viruses (IAV) are rapidly evolving pathogens with high zoonotic and pandemic potential. Their segmented genome allows antigenic drift and reassortment, key drivers of adaptation and cross-species transmission. The ongoing H5Nx panzootic underscores the need for timely genomic surveillance to detect adaptive mutations, reassortments, and antiviral resistance. Existing frameworks such as the INSaFLU-TELEVIR platform, work well for seasonal strains but face challenges with non-seasonal IAV due to reference selection, representation bias, and database redundancies. Objectives: This project aimed to develop an automated pipeline for the genetic characterization of non-seasonal IAV whole-genome sequencing (WGS) samples. Goals were: (1) accurate identification of genomic segments, subtypes/genotypes, host origins and closely-related reference sequences per segment; (2) characterization of mutations of biological relevance, including host adaptation and antiviral resistance; (3) integration of results into user-friendly and machine-readable outputs. Methods: The pipeline, named AFluID (Automatic Influenza Identification pipeline), was implemented in Python and combined clustering (cd-hit), similarity search (BLAST), clade assignment (Nextclade), and mutation screening (FluMut). It was validated on curated datasets from NCBI, GISAID, EQA panels, and Portuguese outbreak samples resulting from an INSA-INIAV-IP cooperation. Results: AFluID rapidly identified IAV segments and subtypes across datasets, while its multi-feature design further streamlined the identification of closely-related references (and detection of reassortment events), along with clade classification, host/geographic inference, and identification of mutations potentially linked to adaptation, virulence, and resistance. Proof-of-concept analysis of outbreak samples confirmed applicability in real surveillance scenarios. Conclusions: AFluID addresses major limitations of current pipelines by offering an automated, scalable, and reproducible framework tailored for non-seasonal IAV. Although reassortment detection requires further refinement, the pipeline strengthens laboratory surveillance capacity and represents a step toward integration with global frameworks such as INSaFLU.
A gripe causada pelo vírus Influenza A (IAV) constitui uma ameaça persistente e multifacetada à saúde pública mundial, consequência direta da sua notável capacidade de evolução genética e adaptação a diferentes hospedeiros. O genoma segmentado destes vírus, composto por oito segmentos de RNA de sentido negativo, possibilita dois mecanismos complementares de variabilidade: a deriva antigénica, resultante da acumulação progressiva de mutações pontuais, e a recombinação de segmentos entre estirpes co-infetantes, responsável pelo surgimento súbito de variantes com perfis antigénicos e biológicos profundamente distintos. Estes processos são centrais para a dinâmica evolutiva do IAV e explicam a sua capacidade de escapar à imunidade pré-existente, adaptando-se rapidamente a novos hospedeiros e ecossistemas. Consequentemente, o vírus mantém-se uma das principais ameaças zoonóticas globais, sendo capaz de originar pandemias devastadoras quando determinadas combinações genéticas aumentam a transmissibilidade entre mamíferos. O atual panzootismo de estirpes H5Nx, com impacto documentado em aves selvagens, aves domésticas, suínos e várias espécies de mamíferos, incluindo casos esporádicos em humanos (Peacock et al. [2024], Alvarez et al. [2025]), demonstra a urgência de uma vigilância genómica reforçada, abrangente e adaptável a um cenário de diversidade viral sem precedentes. Embora plataformas consolidadas como o INSaFLU-TELEVIR (Borges et al. [2018], Santos et al. [2024]) tenham revolucionado a vigilância genómica de vírus respiratórios, introduzindo sistemas reprodutíveis e padronizados, persistem desafios quando aplicadas à análise de IAV não sazonais. Estes desafios derivam essencialmente de três fatores: a dependência de referências adequadas, a subrepresentação de genótipos aviários nas bases de dados públicas e a redundância massiva de sequências altamente semelhantes, que compromete simultaneamente a eficiência computacional e a precisão da classificação. O impacto cumulativo destas limitações manifesta-se na dificuldade em caracterizar de forma rápida e rigorosa amostras emergentes e em incorporar novas estirpes nos fluxos de vigilância laboratorial. A Organização Mundial de Saúde (2023) e o ECDC/EFSA (2025) têm salientado a importância de plataformas integradas e interoperáveis que minimizem redundâncias, melhorem a curadoria de metadados e permitam a deteção precoce de combinações genéticas potencialmente críticas para a saúde pública. Neste contexto, o presente trabalho teve como objetivo o desenvolvimento do AFluID (Automatic Influenza Identification pipeline), um sistema automatizado e modular concebido para a caracterização genética de amostras de IAV obtidas por sequenciação de genoma completo (Whole Genome Sequencing - WGS). O AFluID foi projetado de modo a integrar num único fluxo reprodutível as principais etapas analíticas da vigilância genómica: identificação e validação de segmentos, tipificação genética, análise filogenética e epidemiológica, pesquisa de referências mais próximas e deteção de mutações de relevância biológica. A filosofia de desenvolvimento assentou na flexibilidade, escalabilidade e transparência metodológica, garantindo compatibilidade com os fluxos laboratoriais já existentes. Os objetivos específicos incluíram: (1) identificar automaticamente segmentos genómicos, subtipos/genótipos e potenciais origens do hospedeiro em sequências de consenso ou contigs; (2) caracterizar mutações com relevância biológica e epidemiológica, incluindo marcadores de adaptação ao hospedeiro, virulência e resistência antiviral; e (3) integrar os resultados em relatórios legíveis por humanos e em formatos tabulares legíveis por máquina, assegurando interoperabilidade entre plataformas laboratoriais e repositórios internacionais.

Descrição

Dissertação de Mestrado em Bioinformática e Biologia Computacional, apresentada à Faculdade de Ciências, Universidade de Lisboa, 2025. http://hdl.handle.net/10400.5/117079

Palavras-chave

Influenza A Virus Genomic Surveillance Sequence Classification Mutation Analysis AFluID Infecções Respiratórias Influenza A Vigilância Genómica Classificação de Sequências Análise de Mutações

Contexto Educativo

Citação

Projetos de investigação

Unidades organizacionais

Fascículo