| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 2.02 MB | Adobe PDF |
Advisor(s)
Abstract(s)
Introduction: Familial Hypercholesterolemia (FH) is an inherited disorder of lipid metabolism, characterized by increased low density lipoprotein cholesterol (LDLc) levels. The resulting severe dyslipidemia leads to the early development of atherosclerosis, representing a major risk factor for cardiovascular disease (CVD). The early diagnosis of FH is associated with a significant reduction in CVD risk, supporting the introduction of precocious and more aggressive therapeutic measures. There are different clinical criteria available for the diagnosis of FH, although only genetic testing can confirm the diagnostic. Simon Broome (SB) criteria for FH diagnosis are among the most frequently used in clinical setting, and are based on family history, presence of physical signs, and LDLc and total cholesterol (TC) levels. When compared to genetic diagnosis results however, SB criteria present a high false positive rate, which constitutes a heavy burden in terms of healthcare costs, and limits the access to the genetic study of a larger universe of potential FH cases. Aim: The main purpose of this work was to develop alternative classification methods for FH diagnosis, based on different biochemical indicators, with improved ability to screen for FH cases in comparison to SB criteria. Two different models were developed for this purpose: a logistic regression (LR), and a decision tree (DT) model. Methods: Serum concentrations of TC, LDLc, high density lipoprotein cholesterol (HDLc), triglycerides (TG), apolipoproteins AI (apoAI) and B (apoB), and lipoprotein(a) (Lp(a)) were determined, and genetic diagnosis was performed, in a sample of 252 participants in the Portuguese FH Study, at pediatric age (2-17 years). All patients met the clinical criteria for dyslipidemia, and were not under hypolipidemic medication during the evaluation period. LR and DT models were fitted to sample data. For the LR model, two different cutoff points were defined, through receiver operating characteristics (ROC) curve analysis, following Yoden index and minimum p-value (min p) methods. The DT was built based on entropy reduction, or information gain measures. A modified version of the DT method was implemented, consisting in the sequential exclusion of predictor variables as they are introduced in the model. This allows producing a classification rule that uses single cutpoints for biomarkers, simplifying its interpretation. Different operating characteristics (OC) were estimated for all models: accuracy (Acc), sensitivity (Se), specificity (Spe), positive predictive value (PPV ) and negative predictive value (NPV ). These OC were calculated by generating a confusion matrix, considering molecular study results as the true state of the disease. The best performing LR and DT models were compared with SB biochemical criteria for FH diagnosis, through bootstrap resampling techniques. Median and mean values of the OC for 200 bootstrap samples were used for predictive performance comparison. Results: The logit function for the LR final model was expressed as g(π) = -7:083 + 0:086 X LDLc -0:041 X TG - 0:037X apoAI. The best performing DT model included the variables LDLc, TG, apoAI, apoB and HDLc, by descending order of importance. Between the different classification methods, Acc, Spe and PPV were higher in the DT model, followed by the LR model with the cut point value (c) defined by the min p method (c = 0:35). The lower values in these OC are found for SB criteria (p < 0:01). Higher Se and NPV on the other hand, are achieved by SB criteria, and the LR model with the cutpoint value calculated by Youden index (c = 0:17). However, the LR model using this cutpoint achieves significantly higher Acc, Spe and NPV than SB criteria (p < 0:01). Conclusions: Both LR and DT models seem to be a valid alternative to traditional clinical criteria for FH diagnosis. It seems possible to adjust the cutoff value in the LR model for similar Se levels as the ones observed in SB criteria, with significantly less false positive retention. To be validated by additional data, this would undoubtedly indicate this method as preferable between the two, and can have a very important impact in terms of cost-effectiveness. By avoiding the repetition of predictor variables, and providing single cutoff values for each biomarker, the modified DT model assumes a structure that typically resembles medical criteria, and can therefore be easily used in clinical practice. It seems that, in spite using different methodological approaches, both LR and DT models are able to divide the sample according to the most relevant biochemical characteristics for FH diagnosis. According to both classification methods, presence of FH is directly related to LDLc levels, and inversely related to TG and ApoAI concentrations, by this order of importance. The preferred classification model, as well as model specifications, may vary as a function of the OC that are considered more important, and context in which it is applied.
Introdução: A Hipercolesterolemia Familiar (FH) é uma doença genética do metabolismo lipídico, caracterizada por níveis elevados de colesterol proveniente das lipoproteínas de baixa densidade (LDLc). A severa dislipidemia resultante leva ao desenvolvimento precoce de aterosclerose, representando um grande factor de risco de doença cardiovascular (CVD). O diagnóstico antecipado da FH encontra-se associado com uma redução significativa do risco de CVD, fundamentando a introdução de medidas terapêuticas mais precoces e agressivas. Existem diferentes critérios clínicos disponíveis para o diagnóstico da FH, sendo que apenas através de teste genético se pode confirmar o mesmo. Os critérios de Simon Broome (SB) para o diagnóstico da FH são dos mais frequentemente utilizados em contexto clínico, e são baseados na história familiar, presença de sinais físicos, e concentração plasmática de LDLc e colesterol total (TC). Quando comparados com os resultados do diagnóstico genético contudo, os critérios de SB apresentam uma elevada taxa de falsos positivos, o que constitui um pesado fardo em termos de despesas de saúde, e limita o acesso ao estudo molecular por parte de um maior universo de potenciais casos de FH. Objectivos: O objectivo principal do presente estudo foi desenvolver métodos de classificação alternativos para o diagnóstico da FH, a partir de diferentes indicadores bioquímicos, que pudessem demonstrar melhor capacidade para rastrear esta patologia comparativamente aos critérios de SB. Dois modelos distintos foram desenvolvidos para este propósito: um modelo de regressão logística (LR) e um modelo em árvore de decisão (DT). Métodos: Concentrações séricas de TC, LDLc, colesterol associado às lipoproteínas de alta densidade (HDLc), triglicerídeos (TG), apolipoproteinas AI (apoAI) e B (apoB), e lipoproteína(a) (Lp(a)) foram determinadas, e o diagnóstico molecular foi efectuado, numa amostra de 252 participantes no estudo Português de FH, em idade pediátrica (2-17 anos). Todos os participantes possuíam os critérios clínicos de dislipidemia, e não se encontravam sob medicação hipolipidémica durante o período de avaliação. Os modelos de LR e DT foram ajustados aos dados da amostra. Para o modelo de LR, dois valores de corte distintos foram definidos, através de análise de curvas ROC (receiver operating characteristics), de acordo com os métodos do índice de Youden e mínimo valor-p (min p). A construção da DT foi baseada em medidas de redução da entropia, ou ganho de informação. Uma versão modificada da DT foi implementada, na qual se procedeu à exclusão sequencial de variáveis á medida que eram incluídas no modelo. Este processo permite produzir uma regra de classificação que utiliza valores de corte únicos para cada biomarcador, simplificando a sua interpretação. Diferentes características operacionais (OC) foram estimadas para todos os modelos: acurácia (Acc), sensibilidade (Se), especificidade (Spe), valor preditivo positivo (PPV) e valor preditivo negativo (NPV). Estas OC foram calculadas através de uma matriz de confusão, considerando os resultados do teste molecular como o verdadeiro estado da doença. O modelo de LR e a DT com melhor desempenho foram comparados com os critérios bioquímicos de SB, através de técnicas de bootstrap resampling. Os valores da média e da mediana para as OC de 200 amostras bootstrap foram utilizados para comparação da performance preditiva dos modelos. Resultados: A função logit para o modelo de LR final foi expressa como g(π) = -7:083 +0:086 X LDLc - 0:041 X TG - 0:037 X apoAI. O modelo DT com melhor desempenho incluiu as variáveis LDLc, TG, apoAI, apoB e HDLc, por ordem descendente de importância. Entre os diferentes métodos de classificação, os valores de Acc, Spe e PPV foram mais elevados para o modelo DT, seguido do modelo LR com valor de corte (c) definido pelo método min p (c = 0:35). Os valores mais reduzidos para estas OC são encontrados com os critérios de SB (p < 0:01). Valores mais elevados de Se e NPV por outro lado, são alcançados pelos critérios de SB, e pelo modelo de LR com o valor de corte calculado através do índice de Youden (c = 0:17). O modelo de LR utilizando este ponto de corte revela contudo valores significativamente mais elevados de Acc, Spe e NPV (p < 0:01) em relação aos critérios de SB. Conclusões: Tanto o modelo de LR como DT parecem ser alternativas válidas aos tradicionais critérios clínicos para diagnóstico da FH. Parece ser possível ajustar o valor de corte do modelo de LR para obter níveis de Se similares aos observados para os critérios de SB, com uma retenção de casos falsos positivos significativamente menor. A validação destes resultados por dados adicionais, indicaria indubitavelmente este método como preferível entre os dois, e poderá ter um impacto muito significativo em termos de relação custo-efectividade. Ao evitar a repetição de variáveis predictoras, e providenciar valores de corte únicos para cada biomarcador, o modelo DT modificado assume uma estrutura que se assemelha aos critérios médicos clássicos, e pode portanto ser facilmente utilizado na prática clínica. Parece que, apesar de serem baseados em metodologias distintas, tanto o modelo de LR como a DT são capazes de dividir a amostra de acordo com os indicadores bioquímicos mais relevantes para o diagnóstico da FH. De acordo com ambos os métodos de classificação, a presença de FH encontra-se directamente relacionada com os níveis de LDLc, e inversamente relacionada com as concentrações de TG e apoAI, por esta ordem de importância. O modelo de classificação preferido, assim como as especificações do mesmo, podem variar em função das OC que são consideradas mais importantes, e do contexto em que este é aplicado.
Introdução: A Hipercolesterolemia Familiar (FH) é uma doença genética do metabolismo lipídico, caracterizada por níveis elevados de colesterol proveniente das lipoproteínas de baixa densidade (LDLc). A severa dislipidemia resultante leva ao desenvolvimento precoce de aterosclerose, representando um grande factor de risco de doença cardiovascular (CVD). O diagnóstico antecipado da FH encontra-se associado com uma redução significativa do risco de CVD, fundamentando a introdução de medidas terapêuticas mais precoces e agressivas. Existem diferentes critérios clínicos disponíveis para o diagnóstico da FH, sendo que apenas através de teste genético se pode confirmar o mesmo. Os critérios de Simon Broome (SB) para o diagnóstico da FH são dos mais frequentemente utilizados em contexto clínico, e são baseados na história familiar, presença de sinais físicos, e concentração plasmática de LDLc e colesterol total (TC). Quando comparados com os resultados do diagnóstico genético contudo, os critérios de SB apresentam uma elevada taxa de falsos positivos, o que constitui um pesado fardo em termos de despesas de saúde, e limita o acesso ao estudo molecular por parte de um maior universo de potenciais casos de FH. Objectivos: O objectivo principal do presente estudo foi desenvolver métodos de classificação alternativos para o diagnóstico da FH, a partir de diferentes indicadores bioquímicos, que pudessem demonstrar melhor capacidade para rastrear esta patologia comparativamente aos critérios de SB. Dois modelos distintos foram desenvolvidos para este propósito: um modelo de regressão logística (LR) e um modelo em árvore de decisão (DT). Métodos: Concentrações séricas de TC, LDLc, colesterol associado às lipoproteínas de alta densidade (HDLc), triglicerídeos (TG), apolipoproteinas AI (apoAI) e B (apoB), e lipoproteína(a) (Lp(a)) foram determinadas, e o diagnóstico molecular foi efectuado, numa amostra de 252 participantes no estudo Português de FH, em idade pediátrica (2-17 anos). Todos os participantes possuíam os critérios clínicos de dislipidemia, e não se encontravam sob medicação hipolipidémica durante o período de avaliação. Os modelos de LR e DT foram ajustados aos dados da amostra. Para o modelo de LR, dois valores de corte distintos foram definidos, através de análise de curvas ROC (receiver operating characteristics), de acordo com os métodos do índice de Youden e mínimo valor-p (min p). A construção da DT foi baseada em medidas de redução da entropia, ou ganho de informação. Uma versão modificada da DT foi implementada, na qual se procedeu à exclusão sequencial de variáveis á medida que eram incluídas no modelo. Este processo permite produzir uma regra de classificação que utiliza valores de corte únicos para cada biomarcador, simplificando a sua interpretação. Diferentes características operacionais (OC) foram estimadas para todos os modelos: acurácia (Acc), sensibilidade (Se), especificidade (Spe), valor preditivo positivo (PPV) e valor preditivo negativo (NPV). Estas OC foram calculadas através de uma matriz de confusão, considerando os resultados do teste molecular como o verdadeiro estado da doença. O modelo de LR e a DT com melhor desempenho foram comparados com os critérios bioquímicos de SB, através de técnicas de bootstrap resampling. Os valores da média e da mediana para as OC de 200 amostras bootstrap foram utilizados para comparação da performance preditiva dos modelos. Resultados: A função logit para o modelo de LR final foi expressa como g(π) = -7:083 +0:086 X LDLc - 0:041 X TG - 0:037 X apoAI. O modelo DT com melhor desempenho incluiu as variáveis LDLc, TG, apoAI, apoB e HDLc, por ordem descendente de importância. Entre os diferentes métodos de classificação, os valores de Acc, Spe e PPV foram mais elevados para o modelo DT, seguido do modelo LR com valor de corte (c) definido pelo método min p (c = 0:35). Os valores mais reduzidos para estas OC são encontrados com os critérios de SB (p < 0:01). Valores mais elevados de Se e NPV por outro lado, são alcançados pelos critérios de SB, e pelo modelo de LR com o valor de corte calculado através do índice de Youden (c = 0:17). O modelo de LR utilizando este ponto de corte revela contudo valores significativamente mais elevados de Acc, Spe e NPV (p < 0:01) em relação aos critérios de SB. Conclusões: Tanto o modelo de LR como DT parecem ser alternativas válidas aos tradicionais critérios clínicos para diagnóstico da FH. Parece ser possível ajustar o valor de corte do modelo de LR para obter níveis de Se similares aos observados para os critérios de SB, com uma retenção de casos falsos positivos significativamente menor. A validação destes resultados por dados adicionais, indicaria indubitavelmente este método como preferível entre os dois, e poderá ter um impacto muito significativo em termos de relação custo-efectividade. Ao evitar a repetição de variáveis predictoras, e providenciar valores de corte únicos para cada biomarcador, o modelo DT modificado assume uma estrutura que se assemelha aos critérios médicos clássicos, e pode portanto ser facilmente utilizado na prática clínica. Parece que, apesar de serem baseados em metodologias distintas, tanto o modelo de LR como a DT são capazes de dividir a amostra de acordo com os indicadores bioquímicos mais relevantes para o diagnóstico da FH. De acordo com ambos os métodos de classificação, a presença de FH encontra-se directamente relacionada com os níveis de LDLc, e inversamente relacionada com as concentrações de TG e apoAI, por esta ordem de importância. O modelo de classificação preferido, assim como as especificações do mesmo, podem variar em função das OC que são consideradas mais importantes, e do contexto em que este é aplicado.
Description
Dissertação de mestrado em Bioestatística, apresentado à Faculdade de Ciências da Universidade de Lisboa, 2019.
Defendida e aprovada a 14 de Novembro de 2019.
Trabalho de investigação realizado no Departamento de Promoção da Saúde e Prevenção de Doenças Não Transmissíveis do Instituto Nacional de Saúde Doutor Ricardo Jorge, Grupo de Investigação Cardiovascular (Setembro 2017 – Setembro 2019).
Orientadora: Professora Doutora Marília Antunes (Faculdade de Ciências da Universidade de Lisboa - Departamento de Estatística e Investigação Operacional); Co-orientadora: Professora Doutora Mafalda Bourbon (Departamento de Promoção da Saúde e Prevenção de Doenças Não Transmissíveis do Instituto Nacional de Saúde Doutor Ricardo Jorge).
Defendida e aprovada a 14 de Novembro de 2019.
Trabalho de investigação realizado no Departamento de Promoção da Saúde e Prevenção de Doenças Não Transmissíveis do Instituto Nacional de Saúde Doutor Ricardo Jorge, Grupo de Investigação Cardiovascular (Setembro 2017 – Setembro 2019).
Orientadora: Professora Doutora Marília Antunes (Faculdade de Ciências da Universidade de Lisboa - Departamento de Estatística e Investigação Operacional); Co-orientadora: Professora Doutora Mafalda Bourbon (Departamento de Promoção da Saúde e Prevenção de Doenças Não Transmissíveis do Instituto Nacional de Saúde Doutor Ricardo Jorge).
Keywords
Familial Hypercholesterolemia Logistic Regression Decision Tree Simon Broome Criteria Bootstrap Resampling Doenças Cardio e Cérebro-vasculares Hipercolesterolemia Familiar
