Moura Vicente, AstridMoreira Couto, Francisco JoséAsif, Muhammad2019-02-152021-10-022018-10http://hdl.handle.net/10400.18/5828Tese de Doutoramento em Biologia (Especialidade de Biologia de Sistemas) apresentada à Faculdade de Ciências da Universidade de Lisboa, 2018.Submetida a 6 de junho de 2018 defendida e aprovada com Distinção em 2 deoutubro de 2018.Trabalho de investigação realizado no Departamento de Promoção da Saúde e Prevenção de Doenças Não Transmissíveis do Instituto Nacional de Saúde Doutor Ricardo Jorge, IP - Grupo de Neurogenética e Saúde Mental (26 abril 2014 a 6 junho 2018)Autism Spectrum Disorder (ASD) is characterized by highly heterogeneous clinical phenotypes and complex genetic architecture, rendering ASD difficult to diagnose particularly in very young children. While many genetic factors are implicated in ASD, the architecture of genotype/phenotype correlations is still very unclear. This work aimed at delineating ASD etiology by analyzing patient’s genetic and clinical data, and functional annotation data using integrative systems biology approaches. Specifically, the objectives of this thesis were to identify ASD underlying biological mechanisms, disrupted by rare variants in patients, and then to find their associations with the ASD phenotype, as defined by analysis of patient’s clinical outcomes. The significance of the parental phenotype for ASD etiology models was also studied in this work. In the second chapter, to correctly infer biological meaning from a large number of putative disease-causing genetic variants, a systematic functional annotation pipeline, called Functional annotation of Variants (FunVar) was proposed. The developed pipeline was applied to Copy Number Variants (CNVs) from ASD patients. Results showed that rare CNVs spanning brain genes disrupted a wide range of biological processes (N = 98), including nervous system development and protein polyubiquitination. To minimize the misinterpretation of results, 33 highly similar biological process terms were grouped. For this purpose, a semantic similarity measure was employed to assess functional similarity between terms. Most of the identified biological processes dysregulated by rare CNVs disrupting brain genes had previously been implicated in ASD, thus indicating the usefulness of the FunVar pipeline in interpreting the biological role of genetic variants in disease development. To predict the clinical outcome from biological processes defined by rare CNVs in ASD subjects, a novel machine learning-based integrative systems biology approach was developed. Agglomerative Hierarchical Clustering was used to identify ASD phenotypic subgroups from the clinical reports of a large population sample of ASD patients. Analysis of multidimensional clinical data identified two distinct phenotypic clusters that differed in overall adaptive behaviour profiles, verbal status, severity and cognitive abilities, defining a milder and a more severe phenotype. Functional enrichment analysis of rare CNVs targeting brain genes in the same patients, using the FunVar pipeline, identified 15 statistically significant biological processes, generally consistent with reported literature for ASD. Random Forest feature importance analysis showed that all these biological processes contributed positively to the classification of ASD phenotype, as defined by the identified clusters. The top two biological processes (regulation of cellular component organization and cell projection organization), which contributed most in discriminating milder and severe ASD phenotype, were previously implicated in ASD. To predict phenotypic subgroups of patients from biological processes disrupted by rare CNVs in brain genes, a Naive Bayes machine learning classifier was trained and tested on the clustered patient and disrupted biological processes datasets. For a subset of individuals that had higher Gene Ontology (GO) term information content, the Naive Bayes classifier was able to make predictions of the severe clinical outcome from biological processes defined by genetic alterations, with a good precision but low sensitivity. This study showed that genotype-phenotype correlations can be established in ASD and ASD phenotype predictions can be made from biological processes putatively disrupted by brain-gene CNVs. However, improved GO annotations and larger datasets will be needed for generalized predictions that can be translated into the clinics. In chapter 4, to predict novel disease genes a supervised machine learning based approach was developed. The proposed approach first computes GO-based functional similarities among genes, using semantic similarity measures, for any given disease-associated and non-associated genes. Multiple machine learning classifiers can be built on calculated gene’s functional similarities to find hidden associations between disease and non-disease causing genes. The traced hidden associations are then used to predict new disease genes. The developed approach was implemented on known ASD genes, obtain SFARI ASD genes database to predict new ASD genes. Machine learning classifiers trained and tested on calculated ASD gene’s functional similarities outperformed the existing state-of-the-art method. Classifier built on functional similarities of high confidence ASD and non-ASD genes showed an improved performance (over the reported classifier). Moreover, we provided an easy to use workflow of the methodology that was made available to the research community to efficiently identify new disease genes. Finally, in chapter 5, to elucidate the significance of the parental Broad Autism Phenotype (BAP) for ASD etiology models, parental phenotypic profiles, assessed using Social Responsiveness Scale (SRS) and Broad Autism Phenotype Questionnaire (BAPQ), and CNVs inheritance information from ASD children, were investigated. Analysis showed that parents of ASD children from this dataset present BAP traits at lower rates than previously reported, and that mothers and fathers have distinct profiles. There was no correlation between SRS scores from ASD children and their parents. Spousal pairs were weakly correlated on SRS scores, indicating the phenomenon of assortative mating. Lastly, no evidence was found for the transmission of parental BAP traits to their children through CNVs disrupting putative ASD genes. However, putative ASD genes in databases are mainly evidenced by studies focusing on rare variants, including CNVs, which have lower heritability rates. As common variants account for largest proportion of ASD liability, future studies are needed to assess their role in the transmission of the parental BAP. This work developed integrative systems medicine methods to improve the identification of biological processes from genetic variants in a genetically complex, clinically heterogeneous disorder, based on machine learning and semantic similarity analysis. Overall, findings applying these methods indicate that complex genotype-phenotype correlations can be established in ASD. Furthermore, clinical subgroups, defined by clustering patients based on multidimensional clinical profiles can be predicted from the biological characterization of genetic variants. The correct identification of disrupted biological processes, associated with phenotypically distinct subgroups of patients, will be important for early detection and prognosis, which have implications for early intervention and for the discovery of potential therapeutic targets for ASD.A perturbação do espectro de autismo (PEA) é um distúrbio do neurodesenvolvimento, caracterizado por dificuldades muito específicas da comunicação e da interação social, associadas a dificuldades em aceitar alterações de rotinas e à exibição de comportamentos estereotipados e restritos. O conceito de autismo foi descrito pela primeira vez em 1943 por Leo Kanner, e desde então, o diagnóstico sofreu várias revisões, e na última, publicada no manual DSM-5 em 2013, a PEA tornou-se mais inclusiva, classificando os indivíduos segundo o grau de severidade dos sintomas. A manifestação da PEA têm inicio entre o primeiro e segundo ano de vida da criança, e prolonga-se por toda a vida, evoluindo com a idade. Os adultos com PEA de alto funcionamento tendem a ficar mais estáveis com a idade, mas os de baixo funcionamento continuam a demonstrar o fenótipo autista e a ser muito dependentes. Apesar da multiplicidade de estudos existentes e das evidências de que esta perturbação apresenta uma causa biológica, ainda não é claro qual a etiologia que desencadeia um quadro clínico de autismo. No entanto, parece ser consensual que esta perturbação tem uma origem multifatorial, devendo ser considerados fatores genéticos, epigenéticos e ambientais. O fenótipo clínico de PEA é altamente heterogéneo e tem por base uma arquitetura genética bastante complexa, o que dificulta o seu diagnóstico, particularmente em crianças muito pequenas. Já são conhecidos alguns dos fatores genéticos que contribuem para PEA, no entanto a arquitetura da correlação genótipo/fenótipo não está ainda estabelecida. Este estudo teve como objetivo principal investigar a etiologia da PEA através da análise de dados genéticos e clínicos de indivíduos com esta perturbação, utilizando ferramentas da Biologia de Sistemas para integrar estes dados com informação recolhida a partir de anotações resultantes de estudos funcionais. Os objetivos específicos desta tese são identificar os mecanismos biológicos subjacentes à PEA que podem estar a ser alterados por variantes genéticas raras (com frequência ≤1% na população em geral) em indivíduos com esta perturbação. Pretende-se ainda encontrar associações destas variantes com o fenótipo clínico. Pretendeu-se ainda com este trabalho estudar a contribuição do fenótipo parental para a etiologia da PEA. No segundo capítulo, foi aplicado um método de anotação funcional sistemática designado Funtional annotation of Variants (FunVar) com o intuito de extrair um significado biológico apropriado da análise de um elevado número de variantes genéticas patogénicas. Esta metodologia foi aplicada a Copy Number Variants (CNVs) recolhidos em indivíduos com PEA. Os resultados desta análise mostraram que os CNVs raros que contém genes expressos no cérebro desregulam diversos processos biológicos (N = 98), incluindo processos que envolvem o desenvolvimento do sistema nervoso e a poli-ubiquitinação de proteínas. Com o intuito de minimizar a incorreta interpretação dos dados, agrupámos 33 termos referentes a processos biológicos altamente similares. Para este propósito, foi utilizada uma medida de similaridade semântica que analisa a similaridade funcional entre termos. A maioria dos processos biológicos identificados como estando desregulados em indivíduos com PEA pela presença de CNVs raros, que englobam genes expressos no cérebro, foram já identificados como estando associados à perturbação. Este resultado indica que a ferramenta desenvolvida neste trabalho (FunVar) é uma metodologia útil e essencial para a interpretação do significado biológico do impacto das variantes no desenvolvimento da PEA. Com o intuito de prever o impacto da disrupção do processo biológico no qual determinado CNV está envolvido, desenvolvemos um novo método integrativo de machine learning com base em Biologia de Sistemas. Foi utilizado um método de Agglomerative Hierarchical Clustering para identificar grupos fenotípicos dentro duma amostra bastante grande de indivíduos com PEA, para os quais obtivemos relatórios clínicos. A análise multidimensional da informação clinica identificou dois grupos fenotípicos distintos com diferente grau de severidade. Estes dois grupos diferem, essencialmente, no comportamento adaptativo, no estatuto verbal, e na severidade do défice cognitivo. A análise de enriquecimento funcional aos CNVs raros que contêm genes expressos no cérebro, utilizando o FunVar, identificou 15 processos biológicos estatisticamente significativos que foram, na sua maioria, já reportados como estando implicados na PEA. A análise de Random Forest feature importance indicou que todos estes processos biológicos contribuem para a classificação do fenótipo associado PEA em dois grupos distintos, tal como indicado pelas análises já referidas. Os dois processos biológicos mais importantes que identificámos foram a ‘regulation of cellular component organization’ e ‘cell projection organization’, termos definidos de acordo com a base de dados GO (Gene Ontology) terms. As análises indicam que estes dois processos são os que mais contribuem para discriminar entre os dois fenótipos. Aplicámos ainda um método de machine learning Naive Bayes, que foi treinado e testado utilizando os dois grupos de indivíduos e os processos biológicos identificados. Para um subgrupo de indivíduos para os quais tínhamos um maior número de dados relativos aos termos GO (Gene Ontology), o método Naive Bayes efectuou as previsões para o fenótipo mais severo com uma boa precisão, contudo, com um desempenho inferior em termos de sensibilidade. Este trabalho mostra que a correlação entre o genótipo e o fenótipo pode ser estabelecida para a PEA. Indica também que as previsões do fenótipo podem ser efetuadas a partir da identificação dos processos biológicos putativamente disrompidos por CNVs que afetam os genes expressos no cérebro. Contudo, é necessária a disponibilização de dados resultantes de estudos com um maior número de indivíduos afetados, bem como, uma melhoria das anotações da base de dados GO (Gene Ontology) terms, para que no futuro, as previsões fenotípicas possam ser aplicadas a qualquer indivíduo com PEA. No capítulo 4, foi desenvolvida uma abordagem de aprendizagem automática supervisionada para prever novos genes relacionados com a doença. A abordagem proposta primeiro calcula a similaridade funcional entre genes usando o GO através de medidas de semelhança semântica, para cada gene que esteja associado à doença, e para os não associados. Vários classificadores de aprendizagem automática podem ser construídos com as similaridades funcionais calculadas dos genes, para encontrar associações escondidas entre doenças que causam e que não causam a doença. A abordagem desenvolvida foi implementada em genes de PEA conhecidos, obtendo a base de dados SFARI de genes de PEA para prever novos genes relacionados com PEA. Classificadores de aprendizagem automática treinados e testados nas similaridades funcionais calculadas em genes de PEA superaram o método estado-da-arte actual. O classificador construído com similaridades funcionais entre genes de PEA com alta confiança e genes não relacionados com PEA demonstrou uma melhoria na performance (comparando com o classificador reportado). Além disso, criamos um fluxo de trabalho fácil de usar, relativo à metodologia apresentada, que foi disponibilizado para a comunidade científica, de forma a facilitar a identificação de novos genes relacionados com a doença. Finalmente, no capítulo 5, de forma a elucidar o significado do Questionário do Fenótipo Alargado de Autismo (BAP) parental para modelos etiológicos de PEA, foram investigados os perfis dos fenótipos parentais, avaliados usando a Escala de reciprocidade social (SRS) e o questionário de Fenótipo alargado de Autismo (BAPQ). Esta análise demonstrou que os pais de crianças com PEA deste conjunto de dados tinham características de BAP com um grau inferior ao previamente reportado, e que as mães e pais têm perfis distintos. Não foi encontrada correlação entre valores de SRS de crianças com PEA e os seus pais. Os casais de pais tinham valores de SRS fracamente correlacionados, sendo isto evidencia de acasalamento seletivo. Por fim, não foi encontrada evidência de transmissão de características de BAP parentais para filhos através de CNVs perturbadoras de genes de PEA putativos. No entanto, genes de PEA putativos existentes em bases de dados são confirmados por estudos focados em variantes raras, incluindo CNVs, as quais têm taxas de herdabilidade baixas. Devido a as variantes comuns serem responsáveis por uma grande proporção da causa de PEA, estudos adicionais são necessários para avaliar o papel destas na transmissão parental de BAP. Este trabalho desenvolveu métodos de medicina de sistemas integrativa para melhorar a identificação de processos biológicos a partir de variantes genéticas, numa doença geneticamente complexa e clinicamente heterogênea, baseados em aprendizagem automática e análise de semelhança semântica. No geral, as descobertas obtidas com estes métodos indicam que correlações complexas entre fenótipo e genótipo podem ser estabelecidas para PEA. Além disso, subgrupos clínicos, definidos agrupando pacientes através de perfis clínicos multidimensionais, podem ser previstos com a caracterização biológica das variantes genéticas. A identificação correta dos processos biológicos perturbados, associados a subgrupos de pacientes com fenótipos distintos, será importante para a deteção e prognóstico antecipados, tendo implicações para a intervenção antecipada e para a descoberta de potenciais alvos terapêuticos para PEA.engAutism Spectrum Disorder (ASD)Systems MedicineGenotype/phenotype AssociationsMachine LearningPerturbações do Desenvolvimento Infantil e Saúde MentalAutismoPerturbação do Espectro do Autismo (PEA)Medicina de SistemasAssociação de Genótipo/fenótipoAlgoritmo de Aprendizagem AutomáticaA systems medicine approach to study Autism Spectrum Disorder based on genomic and clinical datadoctoral thesis101509790