Repository logo
 
Loading...
Thumbnail Image
Publication

Prediction of Genes Associated With Autism Spectrum Disorder Using Sequence and Graph Embedding Methods

Use this identifier to reference this record.
Name:Description:Size:Format: 
Dissertacao_JoaoInacio.pdf15.53 MBAdobe PDF Download

Abstract(s)

Neurodevelopmental disorders impose a significant social and economic burden on individuals with these conditions and their families. Given that all neurodevelopmental disorders have a genetic component, identifying the risk genes for these disorders enhances our understanding of their etiology and can aid in the development of future screening methods and targeted therapies. Autism Spectrum Disorder (ASD) is a prototypical complex neurodevelopmental disorder characterized by high heritability and a heterogeneous genetic architecture and phenotypic presentation. This thesis presents a Machine Learning (ML) approach that improves upon state-of-the-art methods for ASD risk gene prediction, this thesis presents a Machine Learning (ML) approach capable of improving state-of-the-art methods for ASD risk gene prediction. To achieve this goal, a novel approach is created using publicly available ASD-associated genes and graph and sequence gene embeddings with supervised ML classifiers. Using a 5-fold nested stratified cross-validation, the pipeline achieved an AUC of 0.90, F1 of 0.82, and MCC of 0.77. Additionally, the top decile of the ranked list of predicted risk genes generated by the model was significantly enriched for ASD phenotypes but not other brain-specific disorders. The proposed pipeline improved state-of-the-art approaches in predicting genes targeted by LOF mutations in the MSSNG and SCC studies. A functional network characterization of the top decile identified four distinct communities significantly enriched for biological pathways associated with ASD. Of the 50 top predicted genes by the pipeline, 37 were already present in ASD risk gene databases, while 13 were not yet linked to ASD. The 13 genes were significantly enriched in the cerebral cortex, and the telencephalon cell migration processes critical for brain development and linked to neurodevelopmental disorders. This thesis provides an accurate comparison of embedding methods for risk gene discovery and improves existing ASD risk gene predictions, taking a step closer to a better understanding of this complex genetic disorder.
As perturbações do neurodesenvolvimento colocam um fardo social e económico significativo nos indi víduos afetados tal como nas suas famílias. Embora se tenham registado avanços significativos nas tec nologias de sequenciação de genes, ainda não foram descobertos todos os aspetos da arquitetura genética destas perturbações. Tendo em conta que perturbações do neurodesenvolvimento apresentam uma com ponente genética, é de elevada importância identificar os genes de risco responsáveis. Determinar os genes de risco não só aprofunda o nosso conhecimento sobre a etiologia de cada perturbação, como tam bém contribui para o desenvolvimento de métodos de rastreio e terapias direcionadas. A Perturbação do Espectro do Autismo (PEA) é uma perturbação do neurodesenvolvimento complexa, altamente hered itária e heterogénea. Esta heterogeneidade cria desafios significativos na identificação de todos os genes de risco associados ao PEA. Métodos convencionais para identificar genes de risco do PEA, como o Transmission and De Novo Association (TADA), dependem de dados clínicos de pacientes com PEA, como os obtidos por Whole Exome Sequencing (WES). Embora eficazes, estes estudos são dispendiosos e os dados gerados são restritos devido às leis de proteção de dados, o que limita a partilha de dados e impossibilita a reprodução dos estudos. Dada a complexidade da PEA e as limitações dos métodos mais convencionais para a descoberta de genes de risco, esta tese adota uma abordagem de aprendizagem automática (AA). O principal objetivo desta tese é melhorar os métodos state-of-the-art para a previsão de genes de risco do PEA. Para alcançar este objetivo, é criada uma abordagem que utiliza genes associados ao PEA disponíveis em bases de dados públicas com embeddings de genes, utilizando classificadores de aprendizagem automática supervisionada. Num problema de aprendizagem automática supervisionada é necessário definir um conjunto de dados de treino positivos e negativos. Neste caso os dados positivos vão ser genes que foram previamente associados com PEA e os dados negativos vão ser genes o mais distantes possível dos genes positivos. Os genes positivos usados nesta tese foram os genes da Simons Foundation Autism Research Initiative (SFARI) gene dataset. Esta base de dados é constituída por um conjunto de genes com evidencia bibliográfica de associação com PEA. Cada gene presente nesta base de dados é classificado de um a três. Os genes que têm a categoria um são os genes para qual existe uma maior evidencia biliografica da associação com PEA. Os de categoria três por sua vez são os que demostram ter menor evidencia. Seguindo a metodologia de abordagens state-of-the-art, nesta tese, os genes negativos usados foram os do artigo de Krishnan et al. de 2016. De modo a conferir que os genes negativos eram relevantes, foi realizada uma verificação utilizando os códigos de ICD10 com uma base de dados proteína-doença. Devido a novos estudos funcionais alguns dos genes negativos do artigo de 2016 estavam agora associados a genes do neurodesenvolvimento e como o objetivo dos genes nega tivos é ser o mais distante possível de genes do PEA esses genes foram removidos. Um dos maiores desafios nesta tese foi em encontrar a melhor maneira de representar genes numa forma compatível com os modelos de AA. Foram utilizadas duas abordagens, grafos e sequencias para criar as representações, ou embeddings. Para a abordagem de grafos foi utilizada a base de dados de interação proteína-proteína STRING, onde cada nó desse grafo corresponde a uma proteína. Foi criado para cada gene Embed dings utilizando os transcritos canónicos e diversos modelos de embeddings. Os transcritos canónicos são os transcritos que são considerados os principais de um gene por serem os mais expressos, serem os mais conservados, melhor caracterizados e por codificarem para a proteína funcional principal. No caso das representações de sequências, tal como as representações de grafos utilizei as sequencias de DNA e de aminoácidos de transcritos canónicos. Os embeddings de sequências de DNA foram gerados com o modelo BERT, DNABERT-2, e os embeddings de sequências de aminoácidos foram criados uti lizando o modelo de aprendizagem profunda PortT5. Para fazer a previsão binária se um gene é ou não um gene de risco da PEA, nesta tese utilizei no total 6 modelos de AA de diferentes tipos. Os modelos utilizados foram modelos lineares como regressão logística, Support Vector Machines (SVM), mode los baseados em vizinhança como K-Nearest Neighbors (KNN), e modelos de ensemble como Random Forest, LightGBM e XGBoost. De modo a garantir previsões mais precisas dos modelos de AA testei diferentes permutações dos datasets de treino. Por exemplo, em vez de utilizar o dataset completo da SFARI como os genes positivos, utilizei apenas os genes da categoria um, os genes das categorias um e dois, entre outras combinações. A ideia é encontrar o melhor equilíbrio entre um dataset com genes mais específicos e um dataset não enviesado. Como o dataset de treino era limitado, nesta tese utilizei uma validação nested stratified cross fold. Métodos de oversampling por vezes são utilizados quando o dataset está enviesado, com mais elementos de uma categoria que a outra, contudo como neste caso como cada gene é altamente específico utilizar métodos de oversampling pode introduzir viés, que põe em causa a relevância das previsões do modelo. Deste modo, utilizar uma validação nested stratified cross fold não só possibilita o uso da totalidade dos dados para treinar e validar como assegura que o mesmo rácio de dados positivos e negativos são utilizados. Os resultados gerados pela pipeline bioinformática proposta demonstram a eficacidade e capacidade de esta pipeline em classificar com sucesso os genes de risco do PEA. Ao utilizar uma validação nested stratified cross fold foi possível de obter um AUC de 0,90, F1 de 0,82 e MCC de 0,77. O modelo que demostrou os melhores resultados foi a regressão logís tica com os embeddings de grafos Deepwalk CBOW. Usando esta combinação de modelo e embedding, a pipeline foi aplicada a todos os genes humanos disponíveis, gerando uma lista com cerca de 18000 genes. Cada gene tinha uma percentagem associada que representava a confiança do modelo em classificar o gene como de risco para PEA. Esta lista de genes foi ordenada pela percentagem de confiança, do maior para o menor valor, e posteriormente dividida em decis. O primeiro decil da lista ordenada de genes de risco previstos pelo modelo demostrou estar significativamente enriquecido para fenótipos de PEA mas não para outros Transtornos específicos do cérebro, deste modo demostrando a precisão da previsão. A pipeline proposta melhorou as abordagens state-of-the-art na previsão de genes associados a mutações de perda de função (LOF) presentes nos estudos MSSNG e SCC. Ao fazer uma caracterização funcional VI de rede do primeiro decil foi possível identificar quatro comunidades distintas que demostraram estar significativamente enriquecidas para o desenvolvimento do sistema nervoso, organização e remodelação da cromatina, transdução de sinal intercelular e modificação de proteínas, processos diretamente ligados ao PEA. A identificação de comunidades foi feita utilizando o algoritmo de Leiden. Dos 50 genes de topo do primeiro decil da lista gerada pela pipeline, 37 genes já tinham sido previamente associados ao PEA, enquanto 13 genes ainda não tinham sido associados no momento de escrita desta tese. Ao fazer análise de enriquecimento funcional, treze dos genes demostraram estar significativamente enriquecidos para processos de migração no córtex cerebral e no telencéfalo, críticos no desenvolvimento cerebral e ligados a distúrbios do neurodesenvolvimento. Em conclusão, esta tese fornece uma comparação de métodos de embeddings para a previsão de genes de risco e melhora as abordagens existentes de previsão de genes de risco do PEA usando métodos de AA, contribuindo para uma melhor compreensão desta complexa perturbação.

Description

Dissertação de mestrado em Bioinformática e Biologia Computacional, apresentada à Faculdade de Ciências da Universidade de Lisboa, 2025
Orientadora Astrid Vicente (Departamento de Promoção da Saúde e Prevenção de Doenças Não Transmissíveis, INSA)

Keywords

Autism Spectrum Disorder Machine Learning Graphs Transformers Embeddings Perturbação do Espectro do Autismo Aprendizagem Automática Grafos Perturbações do Desenvolvimento Infantil e Saúde Mental

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License

Without CC licence