Antunes, MaríliaPenque, DeborahSilva, Carolina2026-01-232026-01-232025-07-232024http://hdl.handle.net/10400.18/10758Dissertação de mestrado em Bioestatística, apresentada à Faculdade de Ciências, Universidade de Lisboa, 2025. http://hdl.handle.net/10400.5/116491The work presented in this thesis was performed at the National Institute of Health Dr. Ricardo Jorge (Lisbon, Portugal) between September 2023 and January 2025, under the supervision of Professor Marília Antunes and Doctor Deborah Penque.Red blood cells (RBCs) are emerging as important modulators of the immune system. Despite evidence that alterations in RBC functionality are associated with disease severity in COVID-19 patients, there is no information regarding the impact of RBC activity on the immune response to COVID-19 vaccination. This work aims to establish an adequate methodology for the statistical analysis of longitudinal RBC metabolomics data collected during COVID-19 vaccination (n=22, 5 time points) to identify metabolites with significant changes throughout the immunization process. For the pre-treatment of the metabolomics data set, different pre-treatment methodologies comprised of imputation and normalization steps were compared to investigate which algorithm and application order was more adequate. Testing of these methods showed that normalization followed by kNN imputation using cosine distance was highlighted as the best-performing pre-treatment strategy. Following its application, generalized estimating equations (GEEs) created from the normalized data led to the identification of 30 metabolites with significant changes in concentration between different time points of COVID-19 vaccination. Significant RBC metabolites were linked to major metabolic pathways in the cells, such as the metabolism of amino acids and purines, and the transport of small molecules through the cellular membrane. Some of these metabolites were discovered to have relevant functions in the development of an effective immune response against infections, like COVID-19. The connections between these metabolites and the defense mechanisms commonly used by cells to fight viral infections offer a strong clue for the immune functions that those metabolites may have in the human body, suggesting that the RBC metabolism could play a significant part in the generation of an immune response to COVID-19 vaccination. Further work is in progress to integrate and correlate proteomic data retrieved from the same longitudinal experiment for a comprehensive depiction of the RBC function in the COVID-19 vaccine-induced immunization process.Os glóbulos vermelhos (também conhecidos como eritrócitos ou hemácias) são um tipo de células muito abundante no corpo humano cuja principal função é o fornecimento de oxigénio aos tecidos através do fluxo sanguíneo que percorre o sistema circulatório. Nos últimos anos, tem crescido o interesse por parte da comunidade científica pelo papel que os glóbulos vermelhos exercem no sistema imunológico, mediante o qual se ligam e eliminam citocinas e ácidos nucleicos a fim de modular a resposta imune. Curiosamente, tem vindo a descobrir-se que certas condições patológicas podem provocar mudanças no proteoma e metaboloma das hemácias e, consequentemente, no seu papel imunológico. Nesses estudos, os investigadores demonstraram que determinadas doenças (como a diabetes, o cancro e os distúrbios neurodegenerativos) afetam os aspetos morfofuncionais dos glóbulos vermelhos, por vezes alterando o seu metabolismo normal. Essas mudanças na funcionalidade das hemácias, por sua vez, podem ajudar a fornecer informações importantes sobre a gravidade e a progressão das doenças que as causaram. Em casos graves de COVID-19, especificamente, foi verificado que as alterações hematológicas induzidas pela infeção do vírus SARS-CoV-2 aumentavam com a progressão da gravidade da doença, sugerindo que estas modificações nos glóbulos vermelhos poderiam ser uma das causas da condição denominada por COVID longo. Neste contexto, os estudos longitudinais de proteómica e metabolómica oferecem uma boa oportunidade para estudar a evolução do proteoma e metaboloma das células em resposta a estímulos internos ou externos. Graças aos avanços nas tecnologias ómicas de perfil longitudinal, a crescente disponibilidade de dados multivariados no âmbito da pesquisa biomédica tem exigido o desenvolvimento de métodos estatísticos apropriados que consigam descrever e modelar as relações complexas que existem entre as variáveis em estudo. Contudo, existem ainda vários problemas com a maioria dos métodos estatísticos usados atualmente para analisar dados ómicos com medições repetidas, como por exemplo a sua propensão a sobreajustes, o facto de não considerarem o desenho experimental na sua totalidade, não darem uso a todas as informações multivariadas intrínsecas aos dados, ou serem incapazes de estabelecer múltiplas associações entre conjuntos de dados ómicos distintos. Enquanto estratégia primária de mitigação da COVID-19, a vacinação continua a ser a forma mais eficaz de proteção e prevenção contra esta doença. Por esse motivo, investigadores em todo o mundo têm-se esforçado para entender os processos moleculares subjacentes a este processo de vacinação que influenciam a resposta imunológica. Embora a proteómica e a metabolómica sejam frequentemente usadas para fornecer uma compreensão mais profunda das diversas funções celulares do sistema imune, esses dados são escassos no contexto da vacinação contra a COVID-19. Ainda assim, estudos recentes de metabolómica mostraram que a vacinação com mRNA contra a COVID-19 é responsável por induzir alterações metabólicas no plasma sanguíneo, sendo observados perfis metabólicos distintos em relação ao nível de resposta imune, o que permite destacar o papel de certos metabolitos como marcadores preditivos de resposta à vacinação. Apesar dessas descobertas, não há presentemente informações sobre o impacto da atividade das hemácias na resposta imune à vacinação contra a COVID-19. Portanto, utilizando uma base de dados do metaboloma das hemácias obtido a partir de amostras de sangue coletadas durante a vacinação contra a COVID-19, este trabalho teve como objetivo o estabelecimento de uma metodologia adequada para a análise estatística desses dados metabolómicos longitudinais (n=22, 5 observações), levando em consideração o desenho experimental, a fim de identificar os metabolitos cuja concentração nas hemácias sofreu mudanças significativas ao longo do processo de imunização. Além disso, foi também investigada a existência de associações biológicas e/ou estatísticas entre esses metabolitos, bem como o seu comportamento ao longo do tempo em resposta à vacinação contra COVID-19. Tendo em conta o grande número de zeros presentes no conjunto de dados obtido da espetrometria de massa, os quais tanto poderiam representar metabolitos ausentes das amostras como abundâncias inferiores ao limite de deteção do espetrofotómetro, foi decidido que uma etapa de imputação seria necessária para fazer o pré-tratamento dos dados. Adicionalmente, foi desenvolvido um método de normalização para redimensionar os dados de cada indivíduo i e metabolito j através da expressão (𝑋𝑖𝑗 − 𝑏𝑎𝑠𝑒𝑙𝑖𝑛𝑒𝑖𝑗)⁄(𝑚𝑎𝑥𝑖𝑗 − 𝑚𝑖𝑛𝑖𝑗), transformando-os em variações de concentração relativas à referência base da abundância natural dos metabolitos nos glóbulos vermelhos. De forma a investigar qual seria o algoritmo de imputação mais adequado aos dados ómicos deste trabalho, dois dos métodos mais comummente usados em metabolómica foram comparados, sendo estes o kNN (k-nearest neighbors) e o QRILC (quantile regression imputation of left-censored data). No caso do algoritmo kNN, foram testadas duas medidas de distância diferentes, a distancia de cosseno e a distância de Mahalanobis, ambas escolhidas pela sua invariância à escala dos dados. Ainda mais, foi também avaliada a ordem pela qual as etapas de imputação e normalização eram realizadas. O desempenho dos vários procedimentos de imputação e normalização foi aferido mediante a seleção aleatória de cinco pacientes e dez metabolitos para cada observação registada, e subsequente substituição desses valores de concentração por N/A. Após a aplicação dos diferentes métodos de pré-tratamento, cada conjunto de dados imputados e normalizados foi guardado para posterior análise. Este procedimento foi realizado 1000 vezes para garantir a sua reprodutibilidade. Por último, os valores obtidos em cada metodologia foram comparados com os dados originais normalizados (sem imputação) usando quatro medidas de erro, e o método com melhor desempenho foi empregado.engCOVID-19 VaccinationImmune ResponseLongitudinal DataMetabolomic AnalysisRed Blood CellsVacinação COVID-19Resposta ImuneDados LongitudinaisAnálise MetabolómicaGlóbulos VermelhosGenómica Funcional e EstruturalStatistical analysis of longitudinal RBC omics datamaster thesis204121795