Métodos integrativos para análise de big data com
Métodos integrativos para análise de big data com
Métodos integrativos para análise de big data com precisão
medicin e
Vladimir Gligorij evi c´ , No él Malod-Dognin e Nata sˇ a Pr zˇ ulj
Departamento de Computação, Imperial College London, London, UK
Fornecemos uma visão geral dos desenvolvimentos recentes em análises de big data no contexto de precisão
medicina e informática em saúde. Com o avanço nas tecnologias de captura molecular e
dados médicos, entramos na área de “Big Data” em biologia e medicina. Esses dados oferecem muitos
oportunidades para o avanço da medicina de precisão. Descrevemos os principais desafios da medicina de precisão
e apresentar avanços recentes em métodos baseados em integração de dados para descobrir informações personalizadas
mação de big data produzida por vários estudos ômicos. Nós pesquisamos métodos integrativos recentes
para subtipagem de doenças, descoberta de biomarcadores e reaproveitamento de drogas, e liste as ferramentas que são
disponível para cientistas de domínio. Dada a natureza cada vez maior desses Big Data, destacamos
os principais problemas que os métodos de integração de big data enfrentarão.
Recebidos: Octo ber 8, 2015
Revisado: 16 de novembro de 2015
Aceito: 09 de dezembro de 2015
Palavras-chave :
Big data / Bioinformática / Métodos de integração / Medicina personalizada
1
Introduc ção
ser interpretado diretamente por médicos devido ao seu
grandes tamanhos e complexidades.
Medicina de precisão , também conhecida como personalizada, preditiva,
medicina preventiva e participativa (P4) [1], é uma emergência
abordagem para individualizar a prática da medicina [2].
Estratégias de prevenção e tratamento que levam em consideração
a variabilidade individual não é nova; por exemplo, tipagem sanguínea
tem sido usado para orientar a transfusão de sangue por mais de um século
tury, com um total de 35 grupos de sangue humano sendo reconhecidos
pela International Society of Blood Transfusion [3]. Sim-
do mesmo modo, sexo, raça, tempo de isquemia, citomegalovírus e
serotipos são levados em consideração para reduzir o risco de rejeição
transplantes de órgãos [4-7]. O desafio de aplicar o
conceito de medicina de precisão para conjuntos de dados ômicos e clínicos de
recursos do paciente que se tornaram disponíveis e que não podem
Big data é um termo amplo para conjuntos de dados tão grandes ou complexos
que os métodos tradicionais de processamento de dados são inadequados. Isto é
frequentemente caracterizado por três Vs [8]: volume, que se refere ao
grande tamanho dos dados; velocidade, que se refere à alta velocidade
em que os dados são gerados; e variedade, que se refere ao
heterogeneidade dos dados provenientes de diferentes fontes. Tudo
essas características se aplicam a produtos biológicos e
conjuntos de dados médicos. Desde o início do Genoma Humano
Projeto [9], novos desenvolvimentos tecnológicos levaram à era de
ciências ômicas. Usando uma nova tecnologia de captura de alto rendimento
tecnologias, agora somos capazes de acessar o DNA de um indivíduo
(dados genéticos), o RNA transcrito ao longo do tempo (expressão
e dados de coexpressão), proteínas (perfis de proteínas e pro-
dados de interação de teína), metabolismo (perfis metabólicos) e
epigenoma (dados de metilação do DNA), entre outros tipos de dados
[
10]. O ambiente também é colocado na contagem de ácidos graxos (por exemplo, nutrição
Correspondênc e : Dr. Nata é um Pr z ulj, Departamento de Computação,
Imperial College London, London SW7 2AZ, Reino Unido
E-mail : natasha@imperial.ac.uk
e ambiente bacteriano por n utriômica e metagenômica,
respectivamente) [11, 12], e também histopatológico e médico
dados de imagem agora estão sujeitos a captura de alto rendimento
e métodos de análise [13-16].
Portanto, estamos enfrentando uma lacuna crescente entre nossos
capacidade de gerar grandes dados biomédicos e nossa capacidade de analisar
lise e interprete-os [17]. Neste contexto, não é surpreendente
Abreviaturas: EHR , registros eletrônicos de saúde; GNMT F , Graph-
tri-fatorização de matrizes não negativas regularizadas; JIVE , junta
e variação individual explicada; KB , baseado em kernel; lncRNA ,
RNA não codificador longo; MCM C , cadeia de Markov Monte Carlo;
MSCM F , fatoração de matriz colaborativa de múltiplas semelhanças;
NB , baseado em rede; NBS , estratificação NB; NGS , próxima geração
sequenciador ; PREDI CT , PREdicting Drug IndiCaTions; SNF , similar-
fusão de rede de ity; SVM , suporte a máquinas de vetores; TDA , topolog-
método de análise de dados físicos
∗
Ambos os autores contribuíram igualmente.
Color Online : Consulte o artigo online para ver as Figs. 1-3 em cores.
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
7
42
V. Gligorijevi c´ et al.
Proteomi cs 2016 , 16 , 741-758
que big data e medicina de precisão são investigados em conjunto.
baixos para reduzir o custo de desenvolvimento de farmacoterapias
em comparação com o disco de novo medicamento overy and development [26].
Com a disponibilidade de vários dados ômicos, computacionais
as previsões de novos candidatos a medicamentos para reaproveitamento não
cessou o desenvolvimento de muitos novos métodos para dados
integração (consulte a Seção 3.2).
negócio ) tinha como alvo a medicina personalizada por meio do GenI-
Programa SIS (Sistema de Informação Genômica para Integrado
Ciência) para melhorar os cuidados de saúde para veteranos. Em 2012, os EUA
National Institutes of Health (NIH) lançou o “Big Data
ao Conhecimento ”, para colher a riqueza de informações
contido no Big Data biomédico [18]. Finalmente, Presidente
com um objetivo ambicioso de conduzir a medicina de precisão por
incorporando muitos tipos diferentes de dados, de genomas
aos microbiomas, com os dados do paciente coletados pelo sistema de saúde
profissionais de saúde e os próprios pacientes.
Dentre muitos desafios na medicina de precisão, aqui nós
focar em quatro problemas relacionados: subtipagem do paciente, biomarcador
descoberta, reaproveitamento de medicamentos e tratamento personalizado pré-
dicção. Nós fornecemos uma revisão de métodos capazes de integração
análises de vários tipos de dados para lidar com esses problemas.
O reaproveitamento de medicamentos não se trata apenas de identificar novos alvos
para drogas conhecidas; avaliações pré-clínicas também incluem
ing regimes terapêuticos (ou seja, dose e frequência) e segurança
do tratamento (ou seja, efeitos colaterais). Reunindo paciente
subtipagem e previsão precisa do tratamento terapêutico
resultados é a chave para obter tratamentos personalizados.
Por exemplo, a American Society of Clinical Oncology es-
estima que testar pacientes com câncer de cólon para mutações em
O gene K-RAS economizaria US $ 604 milhões em custos com medicamentos anualmente;
uma vez que os pacientes com essas mutações não respondem bem a
Inibidores de EGF, é preferível evitar dar-lhes
Neste artigo, damos uma visão geral dos métodos disponíveis
para analisar dados biomédicos grandes e diversos, apresente
conceitos de integração e classificação de dados, e elaborar
sobre os sucessos e limitações das abordagens de Big-Data em
medicina de precisão.
1
.1 Subtipagem e descoberta de biomarcador
Também conhecido como estratificação do paciente, a subtipagem é a tarefa de
identificar subpopulações de pacientes que podem ser usados para
orientar procedimentos de tratamento de um determinado pertencimento individual
para a subpopulação e para prever os resultados. Subtipagem
identi fi es endoty pes , que se referem aos subtipos nos quais os pacientes
estão relacionados por semelhanças em seus mecanismos de doença subjacentes
anismos (ou seja, para explicar os mecanismos de doenças) [19], e
veroty pes , que se referem a verdadeiras populações de pacientes semelhantes
para fins de tratamento (ou seja, para prever terapias para curar o
pacientes) [20]. No entanto, o que exatamente constitui endótipos
e verótipos, bem como como eles devem ser descobertos, re-
rede aberta. Apesar de várias definições, a subtipagem permanece
uma tarefa de classificação e uma área ativa e crescente de ma-
pesquisa de aprendizagem da China (ML) (ver Seção 3.1). Doenças como
como câncer, autismo, doenças autoimunes, doenças cardiovasculares
atenua, e Parkinson foram estudados através das lentes
de subtipagem [21-23].
2
Big data
2
.1 Avalanche de dados ômicos
Com os avanços recentes na tecnologia de captura de dados biomédicos
tecnologias, ciências ômicas produzem quantidades cada vez maiores de
dados biomédicos. Apresentamos brevemente os principais dados omics disponíveis
tipos, que são ilustrados na Fig. 1.
2
.1.1 Genômica e exômica
Genômica é uma parte da genética que se concentra em capturar todo
genomas. Historicamente, o Projeto Genoma Humano exigia
De acordo com a FDA, um biomarcador é qualquer diagnóstico mensurável
indicador nóstico que é usado para avaliar o risco ou a presença de
uma doença [24]. A descoberta de biomarcadores visa encontrar recursos
que são característicos de determinadas subpopulações de pacientes
12 anos e US $ 3 bilhões para capturar o primeiro genoma humano,
com um lançamento final em 2003 relatando cerca de 20.500 genes [9].
O primeiro sequenciador comercial de última geração (NGS), o
Roche GS-FLX 454 (lançado em 2004), permitiu capturar o
segundo genoma humano em 2 meses [27]. Em comparação, um
NGS moderno, como o Illumin, um HiSeq X é capaz de
duzindo até 16 genomas humanos em dados por execução de 3 dias.
Observe que apenas 1–2% dos códigos de material genético humano para
genes, em regiões de DNA chamadas exons. Exomics, que foca
nessas regiões menores, leva a uma pesquisa mais rápida e barata
quencing [28,29]. Recentemente, a capacidade de realizar sequenciamento
de células individuais forneceu novos insights sobre bi
ologia e doenças [30, 31]. Heterogeneidade na sequência de DNA
de uma célula para outra revelou o conceito de mo-
saici sm , ou seja, a presença de duas ou mais populações de células
(
por exemplo, mutações genéticas específicas em tecidos tumorais, miR- específico
NAs, metabólitos, etc.). O objetivo é que um indivíduo seja apenas
testado para biomarcadores para decidir se ela / ele pertence ou não
a um subtipo específico de paciente. Biomarcadores são considerados essenciais
para melhorar os cuidados de saúde e reduzir os custos médicos [25].
1
.2 Reaproveitamento de medicamentos e tratamento personalizado
O reaproveitamento de drogas refere-se à identificação e eliminação
desenvolvimento de novos usos para os existentes ou abandonados
farmacoterapias. Tirando proveito de drogas já conhecidas al-
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
Proteomi cs 2016 , 16 , 741-758
743
Figura 1. Illustrat iões de vários ómicas dados
tipos .
com diferentes genótipos em um indivíduo [32]. Câncer em par-
particular foi estudado através da lente da variação genômica
para encontrar mutações de driver.
ing, o
ࣈ
25.000 genes humanos levam a
ࣈ
100.000 transcrições; com mais de 300 tipos diferentes de modo pós-tradução
cações, o número de proteínas resultantes é estimado em
maior do que 1 800 000 [43]. Captura de alto rendimento de pro-
sequências de teína é feito através de experimentos MS [44]. Interações
entre proteínas, ou entre proteínas e outras moléculas,
são capturados com técnicas de alto rendimento , como levedura
dois híbridos [45] e capturados por afinidade acoplados com MS [46].
Interactomes e interações proteína-proteína em particular,
foram usados com sucesso para identificar evolutivamente conservados
caminhos, complexos e ortólogos funcionais [47-49].
2
.1.2 Epigenômica
Epigenômica é o estudo do conjunto completo de epigenética
modi fi cações do material genético de uma célula. Estes reversíveis
modi fi cações no DNA ou histonas afetam a expressão gênica e
assim, desempenham um papel importante na regulação gênica. Alto rendimento
métodos, como ChipSeq e sequenciamento Bisul fit, permitem
detecção de modi fi cações epigenéticas, como DNA metila-
ção, modificação de histona e estrutura da cromatina [33, 34].
Os achados da epigenômica são específicos do tipo de célula e epigenética.
a programação tem um papel claro no câncer [35,36].
2
.1.5 Metabolômica, glicômica e fl uxômica
Um metabólito é qualquer substância produzida ou consumida durante
metabolismo (todos os processos químicos em uma célula). Metabolômica
estuda todos os processos químicos envolvendo metabólitos [50].
Perfis metabólicos são medidos com MS e magia nuclear
espectrometria de ressonância nética. Glycomics é o ramo da
metabolômica que estuda glicoes, os conjuntos de todos os açúcares
livres ou em moléculas mais complexas, como glicoproteínas - em
células. A glicosilação é a mais intensa e complexa pós-
a modificação translacional de proteínas e glicanos são conhecidos
estar envolvido no crescimento e desenvolvimento celular [51], no
sistema imunológico [52], na comunicação célula a célula [53], em
câncer e doenças microbianas [54, 55]. Fluxomics refere - se a
uma gama de métodos em biologia experimental e computacional
ogy que tenta identificar, ou predizer as taxas de metabolismo
reações em sistemas biológicos [56].
2.1.3 Transcriptômica
Ao contrário da sequência de DNA, que é relativamente estática [37],
O RNA reflete o estado dinâmico de uma célula. Objetivos da transcriptômica
na medição da quantidade de material genético transcrito ao longo
Tempo. Inclui RNAs codificantes e não codificantes, cujo
funções às vezes são desconhecidas [38]. Genes coexpressos
(ou seja, com padrões de expressão semelhantes ao longo do tempo) foram
mostrado ser provavelmente regulado por meio dos mesmos mecanismos [39]
e padrões de expressão diferencial são usados para identificar dis-
genes regulados no câncer [40], prever possíveis alvos de drogas
[41] e desfechos de câncer [42].
2.1.4 Proteômica e interactômica
2.1.6 Fenômica e exposômica
Enquanto a transcriptômica considera todos os RNAs transcritos, pro
a teômica concentra-se nas proteínas produzidas, afinal pós-trans-
modificações de sequência lacional (por exemplo, fosforilação, gli-
colisação e lipidação). O proteoma humano é vários
ordem de magnitude maior que o genoma humano; Porque
de promotores alternativos, splicing alternativo e edição de mRNA
Fenômica é uma área da biologia que mede fenômenos -
traços físicos e bioquímicos dos organismos - conforme eles mudam
em resposta à mutação genética e influências ambientais
cias. Estudos de associação de todo o genoma são comumente usados
para detectar associações entre poli-nucleotídeo único
morfismos e doenças comuns, como doenças cardíacas,
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
7
44
V. Gligorijevi c´ et al.
Proteomi cs 2016 , 16 , 741-758
diabetes, doenças autoimunes e distúrbios psiquiátricos
57]. A exposição abrange todo o ambiente humano (ou seja,
entre a soma dos comprimentos de leitura curtos e do alvo
comprimento da sequência genômica. Esta proporção é chamada de profundidade de
o sequenciamento e é expresso em termos de X (por exemplo, 2X
sequenciamento significa que, em média, cada nucleotídeo é coberto
por duas leituras curtas). Enquanto o sequenciamento atual usa
ࣈ
30X, a estudo recente argumenta que genomas de alta qualidade podem exigir
ࣈ
126X (referido como sequenciamento profundo) [61]. Além disso, para o mesmo indivíduo, um número crescente
várias amostras são capturadas; os dados podem ser coletados em diferentes
tecidos ent, usando genômica de célula única [62], ou em diferentes
outras condições (por exemplo, antes e depois do tratamento). finalmente, o
o intervalo de tempo das amostras disponíveis está aumentando. Por exemplo,
a expressão do gene pode ser medida ao longo do tempo para avaliar o
efeito das drogas. Desenvolvimentos recentes de cap não intrusiva
técnicas de controle (por exemplo, sequenciamento de exoma fetal de material
sangue final [63] e ressonância magnética, capturando
ingconnectome.org / project /) permitirá a coleta de informações
durante toda a vida de um indivíduo, o que pavimenta
o caminho para a medicina personalizada do útero ao túmulo.
[
exposições não genéticas) desde a concepção. Inclui,
entre outros, a exposição a moléculas tóxicas , drogas e radi
ação. A exposição se beneficia do rastreamento contínuo que é
agora disponível para a maioria das principais métricas fisiológicas (sangue
pressão, ritmo cardíaco, ondas cerebrais, etc.) e ambiente
índices mentais, como poluição do ar, contagem de pólen e radiação.
Até mesmo imagens médicas, que tradicionalmente eram feitas manualmente
vestigada, é agora um assunto de captura de alto rendimento
[
14, 15]. Por exemplo, radiomics (o alto rendimento cap-
pesquisa e análise de imagens de rádio médica) recentemente levaram a
conectômica, que captura e analisa a conectividade do cérebro
mapas de utilidade.
2
.1.7 Metagenômica
A metagenômica visa capturar microbiomas humanos, usu-
aliado por meio do sequenciamento do rRNA 16S. Nossa fl ora bacteriana tem
demonstrou desempenhar um papel importante em vários problemas médicos
dições [12]; por exemplo, a flor bacteriana do intestino
é conhecido por modular os efeitos dos medicamentos envolvidos no câncer
tratamentos [58]. No entanto, levando em consideração a microbiota é
desafiador, pois o microbioma humano consiste em cerca de 100 tril-
células microbianas de leão, que é cerca de dez vezes o número de
células humanas [59].
2
.2.2 Aumento da heterogeneidade dos dados capturados
O número de diferentes entidades biológicas (por exemplo, genes,
RNAs, proteínas, metabólitos, drogas, doenças, etc.) para os quais
os dados podem ser coletados está aumentando. A variedade de disponibilidade
dados disponíveis são ilustrados na Tabela 1, que apresenta alguns dos
os bancos de dados biomédicos de larga escala bem estabelecidos. o
os dados coletados são tão grandes que mesmo os dados básicos gerenciam
mento está se tornando um desafio. Saúde nos EUA já era
2
.2 Os dados biomédicos ficam mais complexos
A complexidade dos dados biomédicos cresce em duas direções:
em termos de número de amostras e em termos de hetero
genei ty.
18
armazenar 150 exabytes (10 bytes) de dados em 2011 e é
24
Espera-se que Yottabyte alça de dados (10 Bytes) no
conjuntos de dados são altamente heterogêneos; dados do mesmo tipo
pode ser capturado com diferentes tecnologias com
cobertura, polarização e robustez de ruído (por exemplo, as diferentes tecnologias
tecnologias para capturar as interações proteína-proteína [64]), e
o mesmo se aplica a todos os tipos de dados. Além disso, o grande número
ber de fontes de dados apresenta problemas de coleta de dados provenientes de
a falta de formato padrão nos repositórios de dados (os chamados
problema de extração de dados em Big Data [65]).
2
.2.1 O número crescente de amostras
Como as tecnologias de captura estão se tornando mais rápidas e baratas,
o número de indivíduos para os quais os dados estão disponíveis é
aumentando rapidamente. Por exemplo, o número de disponíveis
genomas / exomas humanos aumentaram quase exponencialmente
durante a última década: o primeiro exoma humano foi lançado
em 2003 [9], enquanto em 2012, 1092 genomas humanos estavam disponíveis
capaz [60]. Hoje em dia, o exome Agregação Consor tium
broadinstitut e.org). O governo do Reino Unido anunciou recentemente
3
Técnicas de ML
Conforme descrito na seção anterior, Big Data são de grande
escala, diversidade e complexidade e, como tal, exigem esforço
algoritmos eficientes para extrair conhecimento oculto neles.
Técnicas computacionais que são usadas para analisar Big Data
são baseados em estatísticas, ML ou baseados em rede (NB)
métodos [104]. Esses métodos já demonstraram
grande potencial para preencher a lacuna entre a produção e
interpretação de big data em medicina de precisão , mas há
ainda há muito espaço para suas melhorias.
para se tornar o número 1 do mundo em testes de DNA) e a precisão
iniciativa da medicina nos Estados Unidos planeja mapear 1
milhões de genomas humanos. Observe que este número crescente
de amostras de genoma também terá o preço de aumentar
variações em termos de qualidade do genoma. NGSs produzem curtas
lê que precisa ser montado em genomas. A qualidade
do genoma montado depende altamente da proporção
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
Proteomi cs 2016 , 16 , 741-758
745
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
7
46
V. Gligorijevi c´ et al.
Proteomi cs 2016 , 16 , 741-758
Figura 2. Uma ilustração esquemática de
as duas principais técnicas de aprendizagem em
ML — supervisionado (painel esquerdo) e não
aprendizagem supervisionada (painel direito). Deixado dentro
aprendizagem supervisionada, um conjunto de dados de treinamento
consiste em amostras com classe conhecida
rótulos, por exemplo, casos e controles. Uma modelo
é aprendido maximizando a diferença
relação entre casos e controles e
então um rótulo para uma nova amostra é de-
encerrado. Certo: na aprendizagem não supervisionada-
ing, todas as amostras são não rotuladas. Uma modelo
agrupa amostras em grupos diferentes
com base em sua semelhança.
Os métodos de ML entraram em foco na análise de Big Data devido a
tipo de dados, mas em várias perspectivas (por exemplo, experi-
estudos mentais) é integrado, e heterogen EOU , onde mul-
vários tipos de dados em diferentes formatos são integrados. O lat-
ter é computacionalmente mais desafiador , porque requer
uma estrutura que pode lidar com dados heterogêneos sem
transformando-o e perdendo qualquer informação através do trans-
formação. A maioria das estruturas existentes não consegue lidar
com este problema e eles exigem uma etapa de pré-processamento antes de
integração, onde eles transformam os dados em um único representante
sentação. Na Seção 3.2, discutimos esse problema com mais detalhes
e identificar métodos capazes de resolver este problema.
Pesquisamos métodos integrativos recentes para subtipo de doença
, descoberta de biomarcador e reaproveitamento de drogas, e fornecer
uma lista resumida de ferramentas computacionais que podem ser usadas por
cientistas de domínio para análise de dados B ig (ver Tabela 2 para o
lista de métodos). Os métodos apresentados são escolhidos com base
nos seguintes critérios: (i) o método é integrativo (ou seja,
considera mais de um tipo de dados) e é aplicado em biomed
Big Data ical; (ii) o método é predominantemente baseado em ML
técnicas, embora também consideremos alguns métodos NB;
e (iii) o método foi usado para abordar um dos quatro
diferentes desafios da medicina de precisão (consulte a Seção 1).
sua capacidade de destaque para coletivamente meu (integrar) larg e-
escala, diversos e heterogêneos tipos de dados biomédicos, um
principal desafio em medicina de precisão e medicina
formatics [105]. Assim, nesta seção, nos concentramos principalmente em
Métodos de ML para integração de dados, mas também mencionamos alguns
métodos estatísticos e NB recentes para integração de dados.
Os métodos de ML podem ser divididos nas seguintes classes (ver
Fig. 2 para uma ilustração):
Métodos supervisionados , como classificação e regressão,
tome como entrada amostras de dados de treinamento com rótulos conhecidos. UMA
modelo é aprendido por meio de um processo de treinamento que maximiza
a precisão de seu desempenho no conjunto de dados de treinamento. o
modelo é então usado para mapear novas amostras de dados existentes
rótulos de impressão. Por exemplo, um dado de entrada pode incluir pacientes
classi fi cados como casos e controles. Um modelo é aprendido a maxi-
mize a diferença entre casos e controles e então será
aplicado na classificação de novos pacientes. Alguns dos amplamente
técnicas supervisionadas usadas incluem Máquinas de Vetor de Suporte
(
SVMs) [106], (baseadas em kernel KB) métodos [107], e Logis tic
regressão [108].
Métodos não supervisionados , como clustering e dimension-
redução de identidade, tomar como entrada um conjunto de dados não rotulado. Um modelo é
aprendido ao revelar padrões ocultos nos dados e organizações
nizing os dados em subconjuntos significativos. Esses métodos são
frequentemente usado em subtipagem molecular de pacientes com câncer, ou em
descoberta de padrões em dados de expressão gênica. Alguns dos
métodos não supervisionados amplamente utilizados na medicina de precisão
incluem clustering hierárquico [109], K-means [109], e seus
generalizações incluindo métodos de fatoração de matriz [110].
Métodos semissupervisionados tomam como entrada uma mistura de
e amostras não rotuladas. Um modelo é aprendido para explicar o
estrutura nos dados, bem como para fazer novas previsões de
amostras não rotuladas. Por exemplo, ao prever um novo medicamento
associações de doenças, métodos semi-supervisionados aprendem conhecidos
associações droga-doença de amostras rotuladas (ou seja,
conhecimento), para prever novas associações entre drogas e doenças. este
estratégia é particularmente adequada para integração de dados, como pode
incorporar vários tipos de dados como conhecimento prévio. Um dos
mais amplamente utilizado, esse método é a matriz regularizada por rede
fatoração [111].
3.1 Métodos computacionais para subtipagem de doenças
e descoberta de biomarcador
A subtipagem da doença (ou estratificação da doença) é uma tarefa de
agrupar pacientes em subgrupos com base em genômica, trans-
dados scriptômicos, epigenômicos e clínicos. O objetivo principal de
subtipagem é alcançar prognósticos mais precisos de indivíduos
resultados esperados de uals que podem ser usados para melhorar o tratamento
decisões mentais. Tratamentos de muitas doenças têm beneficiado
de subtipagem, incluindo Parkinson, cardiovascular, au-
doenças imunológicas e câncer [112].
O câncer é uma das doenças mais estudadas por subtipagem.
É uma doença em que as aberrações do genoma são acumuladas.
e, eventualmente, levando à desregulação do sistema celular
sistema. Anciões histologicamente semelhantes são compostos de muitos
subtipos moleculares com comportamento clínico significativamente diferente
iores e complexidade molecular no genômico, epigenômico,
níveis transcriptômicos e proteômicos. Muitos subtipos têm
foram identificados utilizando técnicas para integração de dados
Com base no tipo de dados que eles integram, a integração
métodos podem ser divididos em Homogen EOU , onde o mesmo
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
Proteomi cs 2016 , 16 , 741-758
747
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
7
48
V. Gligorijevi c´ et al.
Proteomi cs 2016 , 16 , 741-758
para vários tipos de câncer, incluindo cólon e retal [113],
mama [114] e câncer de ovário [115].
UMA
B
Métodos de ML de cluster não supervisionados, como hierárquico
agrupamento [116], K-médias [117], agrupamento de consenso [118],
e fatoração de matriz não negativa [119] têm sido principalmente
aplicado aos dados de expressão gênica, comparando a expressão
níveis de genes de doenças em diferentes amostras para identificar
subgrupos significativos. O mais recente desses métodos
propor a divisão dos pacientes em subtipos clinicamente relevantes por
comparar genes diferencialmente expressos (com base em genes normais
e amostras de tecido canceroso) [116]. Com base no conjunto selecionado
de genes expressos diferencialmente, eles calculam a distância
entre pacientes e realizar agrupamento hierárquico [109].
Usando dados de expressão de mRNA de câncer de mama e de pulmão pa-
pacientes, eles identificaram quatro câncer de mama e cinco de pulmão
subtipos com taxas de sobrevivência significativamente diferentes. Além disso,
em vez de identificar mutações de driver individuais, eles identificam
modificar módulos de mutação de driver para cada subtipo individual.
Ou seja, usando o PPI (interação proteína-proteína) net-
trabalho e mapeando os 15 principais mutantes
genes de cada subtipo identificado na rede, eles procuram
para um subne twork perfeitamente conectado cobrindo esses genes.
As sub-redes identificadas são postuladas como módulos de driver
que podem servir como novos alvos para o reaproveitamento de drogas conhecidas
e suas combinações [116]. Muitos outros estudos também
focada no desenvolvimento de métodos para identificar redes aberrantes
módulos de trabalho e caminhos, utilizando redes moleculares
e outros dados ômicos. Por exemplo, Alcaraz et al. [120] de
KeyPathwayMiner veloped, um método para extração de aber-
módulos de rede rant da rede PPI por meio da integração de genes
dados de expressão e metilação do DNA. Os autores demonstram
demonstraram o desempenho do KeyPathwayMiner no câncer
pacientes com câncer colorretal do atlas do genoma (TCGA). O método
usa técnicas heurísticas baseadas na otimização de colônias de formigas
para extrair sub-redes conectadas ao máximo com um certo
número de genes diferencialmente expressos em todos os pacientes. o
sub-redes resultantes mostraram-se enriquecidas em genes
com sinalização hiperativa no câncer colorretal que pode ser inter
considerados como potenciais alvos terapêuticos. Da mesma forma, Vaske et al.
Figura 3. Ilustração dos métodos baseados em MF. (A) Fatoração de matriz
ção de múltiplas matrizes de dados, X i , representando diferentes dados
tipos (por exemplo, expressão de mRNA, metilação de DNA, número de cópias
variação, etc.) sobre o mesmo número de amostras p . O matri-
ces são decompostos em um espaço de recurso comum, representado
pela matriz Z , que também é uma matriz de indicadores de cluster; é usado
para atribuir p amostras em k clusters. Matrizes W i chamados coef-
matrizes fi cientes são especí fi cas para cada conjunto de dados i . (B) Tri-fatoração
dos dados matr ix R que representa as relações entre dois conjuntos de dados
de tamanhos n 1 e n 2 (por exemplo, interacções fármaco-alvo) em três baixa
matrizes dimensionais. Matrizes G 1 e G 2 são indicadores de cluster
matrizes para o primeiro e segundo conjuntos de dados, respectivamente; matriz
L 1 ( L 2 ) é usado para assigni ng n 1 ( n 2 ) de dados de pontos de k 1 ( k 2 ) cluster de s.
Matri x S é o baixo-dimensional representa ção de R .
realizar clustering, integração de dados, seleção de recursos
ção e redução da dimensão de vários tipos de dados. Usa
uma abordagem de fatoração de matriz probabilística para
decompor matrizes de dados, representando dados diferentes
tipos (por exemplo, metilação do DNA, variações do número de cópias do DNA,
dados de expressão de mRNA) sobre o mesmo número de amostras
(pacientes), em um espaço de característica comum representado por dois
matrizes de baixa dimensão (Fig. 3A ). Especificamente, eles se decompõem
representam as matrizes de dados, fatorando simultaneamente cada
matriz de dados em um produto de duas matrizes de baixa dimensão.
A dimensionalidade das matrizes de baixa dimensão representa
envia o número de subtipos de câncer e é um pré-definido
parâmetro. A primeira matriz, também chamada de matriz de coeficiente , é
específico para cada tipo de dados, enquanto a segunda matriz, também chamada
a matriz de indicadores de cluster , é compartilhada entre a decomposição
ção. A segunda matriz captura as dependências entre os
tipos de dados, e com base em suas entradas, é usado para um único,
atribuição integrada de amostras de tumor a grupos (subtipos).
Os autores aplicaram iCluster na variação do número de cópias de DNA
e dados de expressão gênica para estratificar câncer de mama e de pulmão
pacientes. Após obter a representação probabilística de
a matriz de indicador de cluster de baixa dimensão, eles atribuem tu-
mais amostras para diferentes subgrupos. Em ambos os seios e
exemplos de dados de câncer de pulmão, eles identificam novos subgrupos com
resultados clínicos estatisticamente diferentes como resultado da combinação
informações de ambos os tipos de dados [124].
[
121] desenvolveu o PARADIGM, um método para inferir pacientes
vias moleculares alteradas especí fi cas. Os métodos também permitem
para a identificação de vias alteradas comuns entre diferentes
pacientes e, assim, fornecer a subtipagem do paciente. Os autores
PARADIGM aplicado na expressão do gene TCGA e DNA
copiar dados de variações de número de glioblastoma multiforme pa-
tients; com base nas perturbações significativas da via, o
autores dividem o paciente em quatro subgrupos diferentes com
resultado de sobrevivência significativamente diferente.
No entanto, a maioria dos métodos recentes usa um aplicativo integrativo
abordagens para combinar vários tipos de dados moleculares, como
como alteração do número de cópias de DNA, metilação de DNA, mRNA
e expressão de proteína e dados de interação molecular, ac-
contando para diferentes níveis de variações entre os afetados
indivíduos e, assim, fornecer subtipos mais precisos
[122, 123]. Por exemplo, Shen et al. [124] desenvolveu iClus-
ter, uma estrutura de aprendizagem não supervisionada que pode simultaneamente
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
Proteomi cs 2016 , 16 , 741-758
749
iCluster é uma ferramenta amplamente utilizada e tem sido aplicada para
subtipagem de vários tipos de câncer. Por exemplo, Curtis et al. [125],
aplicou-o a pacientes com câncer de mama de METABRIC (Molec-
ular Taxonomy of Breast Cancer International Consortium)
coorte e identificou dez subgrupos com diferenças signi fi cativas
resultados ent. Além disso, eles relataram correlação significativa
entre variações do genoma e dados de expressão gênica e
com base nisso, eles descobriram novos genes putativos para mama
câncer [125]. iCluster também foi aplicado em TCGA glioblas-
toma multiforme (o mais comum e mais agressivo
tumor cerebral maligno) conjunto de dados por agrupamento simultâneo
de variação do número de cópias de DNA, metilação e gene ex-
dados de pressão [126]. Os autores revelam três tumores distintos
subtipos de glioblastoma multiforme, em oposição aos quatro
subtipos distintos relatados por estudos anteriores que usaram apenas
dados de expressão gênica [22]. Isso demonstra o poder de
análise integrativa sobre análises de tipos de dados únicos em char-
caracterizando, classificando e prevendo os resultados clínicos de
Pacientes com câncer.
dados, pois permite maior flexibilidade na decomposição de
tipos de dados tinct. Além disso, os autores relataram um melhor desempenho
mance de seu modelo em comparação com o iCluster, porque ao contrário
iCluster, que obriga todas as amostras de tumor a serem incluídas em
o procedimento de agrupamento, o modelo proposto pode seletivamente
escolher entre mais e menos amostras correlacionadas entre os dados
tipos ao executar a atribuição de cluster. Os autores
demonstraram seu método na expressão do gene TCGA, cópia
variação numérica e dados de metilação de câncer de ovário pa-
tientes, especialmente para descobrir os principais genes condutores no ovário
câncer [129]. Da mesma forma, Lock et al. [130] introduziu JIVE (Joint
e Variação Individual Explicada), um método que, em vez
de ter as mesmas matrizes de coeficientes para dados compartilhados e
componentes específicos propuseram um modelo com diferentes coeficientes
matrizes cientes correspondentes a j oint e dados-específicos.
componentes que capturam variações articulares de baixa dimensão em
tipos de dados, bem como variações específicas para cada tipo de dados.
Com esta extensão, o JIVE realizou uma melhor caracterização
ção de subtipos de tumor, bem como uma melhor compreensão de
as interações biológicas entre diferentes tipos de dados [130].
Para superar as desvantagens de escalabilidade do grupo de ML anterior
métodos de medição que operam com o gene x de alta dimensão
matrizes de pacientes, Wang et al. [131] propôs um método NB
que integra dados representados por matrizes de paciente x paciente.
Este método, denominado Similarity Network Fusion (SNF), com
bines expressão de mRNA, metilação de DNA e microRNA
dados de expressão para o mesmo conjunto de pacientes com câncer. Primeiro, para
cada tipo de dados, ele constrói uma rede ponderada de pacientes,
com os nós sendo pacientes e as ligações ponderadas sendo semelhantes
entre pacientes. As semelhanças são calculadas com base
em seus perfis genéticos para um tipo específico de dados. Em segundo lugar, não
maliza os pesos de cada rede, levando em consideração o
redes de todos os tipos de dados. Finalmente , ele funde todas as redes
em uma única rede, realizando uma difusão de informações
dentro de cada rede e em diferentes redes. Depois de
a convergência do processo de difusão, os autores usam um
método de agrupamento espectral [132] na rede fundida final
para agrupar pacientes em grupos. Ao contrário dos métodos anteriores,
SNF é mais escalável. Ou seja, em vez de processar grandes
matrizes de escala construídas sobre um grande número de genes, SNF
método funde matrizes muito menores que representam redes
construída sobre os pacientes (ou seja, amostras), o que torna a
vergência mais rápida. SNF é mostrado para ser robusto ao ruído e quando
aplicado em cinco tipos diferentes de câncer do banco de dados TCGA,
demonstrou ser eficaz na previsão da sobrevivência do paciente
resultados [131].
O primeiro método que lida com a detecção de contradições
sinais em diferentes tipos de dados é proposto por Yuan et al.
[
127]. Eles propõem um método de fusão de dados específico do paciente
com base na abordagem não paramétrica Bayesiana para integrar o gene
expressão e dados de variação do número de cópias da próstata e
pacientes com câncer de mama [127]. Uma abordagem bayesiana é uma estatística
abordagem de ML cal, que cria um modelo de dados por meio da construção
dependências condicionais entre variáveis de dados representadas
por probabilidades condicionais. Um dos métodos amplamente utilizados
para aprender probabilidades condicionais é a cadeia de Markov Monte
Técnica de Carlo (MCMC) [128]. Ao contrário de outros métodos, este
método detecta com sucesso sinais contraditórios entre
diferentes tipos de dados decorrentes de diferentes medições er-
rors. Especificamente, uma variável latente é atribuída a cada paciente;
mede se os dados do paciente são concordantes ou não
(
ou seja, de acordo) em diferentes tipos de dados. Esta abordagem
permite que informações de dados contraditórias sejam suprimidas
na atribuição de agrupamento de pacientes. A maior desvantagem
desta abordagem é que ela não se ajusta bem com o número
de tipos de dados e, portanto, os autores restringem sua análise
apenas em dois tipos de dados. Ou seja, a etapa MCMC é computacional
nacionalmente o mais intensivo e requer cerca de 48 horas para
uma única cadeia MCMC para ser concluída. Apesar desta desvantagem,
os autores relatam um novo subtipo de pacientes com câncer de próstata
com resultados de sobrevivência extremamente pobres [127].
Para levar ainda mais em consideração a inconsistência de dados entre os dados
tipos, o iCluster foi posteriormente generalizado por Ray et al. [129]
introduzindo o modelo de fator de junção Bayesiana construído sobre iClus-
estrutura ter. Ou seja, em vez de ter um único cluster
matriz de indicador comum para todos os tipos de dados, eles ainda de-
componha-o em componentes de matriz compartilhados e de dados específicos.
Especificamente, a matriz do indicador de cluster é representada como um
soma de dados específicos do tipo e características comuns de baixa dimensão
matrizes de estrutura. O comum e específico de baixa dimensão
matrizes são aprendidas conjuntamente por meio de decomposição simultânea
de todas as matrizes de dados. Esta generalização mostrou ser par-
particularmente útil para análise conjunta de genômica multiplataforma
A maioria dos estudos é baseada na análise de expressão de mRNA
Sion dados de sequenciamento de RNA e microarrays, e DNA
dados de alteração de número de cópia. Por causa do barulho desses
dados, os estudos de estratificação do paciente para tipos de câncer, muitas vezes
não produzem subgrupos de pacientes que concordam bem com qualquer
dados clínicos ou de sobrevivência [113]. Para superar essas deficiências
ings, Hofree et al. [133] recentemente propôs o uso de somático
dados de mutação como uma nova fonte de informação para pacientes com câncer
estratificação de tientes. No entanto, somático altamente heterogêneo
perfis de mutação entre diferentes pacientes fazem o uso
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
7
50
V. Gligorijevi c´ et al.
Proteomi cs 2016 , 16 , 741-758
de mutações somáticas para estratificação do paciente em subtipos
muito mais difícil [115, 133, 134]. Ou seja, dois clinicamente idênticos
os tumores raramente têm um grande conjunto de genes mutantes comuns.
Além disso, muito poucos genes são frequentemente mutados em tu-
mor amostras. No entanto, apesar dessa diversidade genética entre
amostras de tumor, as vias perturbadas são frequentemente semelhantes
abordagem de redução, usamos GNMTF para realizar o seguinte
três tarefas: (i) usamos a matriz do indicador do agrupamento de pacientes para
estratificar pacientes com câncer de ovário em diferentes subgrupos com
resultados clínicos diferentes; (ii) usamos o grupo de genes indi-
matriz cator para descobrir módulos de genes enriquecidos em motor mu-
e postular novos genes como impulsionadores do progresso do tumor
sessão; e (iii) usamos a propriedade de conclusão da matriz do
matriz droga-alvo para prever novas interações droga-alvo
e descobrir novos candidatos a drogas que podem ser reaproveitados para
tratar pacientes com câncer de ovário.
[134]. Portanto, Hofree et al. [133] propôs abordar este
problema integrando mutações somáticas com
redes que contêm caminhos. Seu método, chamado NB
Strati fi cation (NBS), é baseado em rede regularizada não-
fatoração de matriz negativa [135]. Ou seja, eles fatoram
matriz binária gene-paciente, codificando mu somático de pacientes
per fi s de localização, em um produto de duas dimensões, não
matrizes negativas; o segundo do qual sendo o cluster indi-
matriz de cator. A restrição de não negatividade fornece uma
interpretação da atribuição de agrupamento de amostras de tumor.
Eles ainda incorporam redes moleculares no cluster
procedimento de manipulação, restringindo a construção do cluster
matriz indicadora para respeitar a conectividade da rede local.
Esta abordagem semi-supervisionada usa redes moleculares como
conhecimento prévio sobre clusters, garantindo que os pacientes
são agrupados não apenas com base na semelhança de suas somáticas
perfis de mutação, mas também na proximidade de seus mu-
genes identificados na rede molecular. Usando o consenso
método de agrupamento [118] aplicado no indicador de agrupamento final
matriz, os autores estratificam os pacientes em diferentes subgrupos.
O método foi aplicado em câncer de ovário, útero e pulmão
pacientes do banco de dados TCGA, e produziu subtipos de câncer
com diferentes resultados clínicos, resposta a terapias e
histologias de tumor.
Métodos baseados em MF são promissores para a mineração de heterogêneos
novos conjuntos de dados. Esses métodos têm o potencial de incorporar
porate qualquer número e tipo de dados heterogêneos e para
realizar análises abrangentes. Recentemente, demos um passo
em direção a este objetivo e estendeu o método NBS para incorporar
taxa de dados de drogas na estrutura [136]. Ao contrário do anterior,
nosso método é mais abrangente porque pode simultaneamente
realizar três tarefas: subtipagem do paciente com câncer, medicamento
reaproveitamento e descoberta de biomarcador (gene driver identi-
fi cação). Usamos Matriz não negativa regularizada com gráfico
Tri-Factorization (GNMTF) [111] (ver Fig. 3B para uma ilustração
tratamento) abordagem para integrar perfis de mutação somática de
pacientes com câncer de ovário, redes moleculares, drogas-alvo
e dados de similaridade química de drogas. Nós simulamos-
nitidamente tri-fatorizar o gene do paciente e a matriz alvo da droga por
compartilhar fatores comuns de matriz de baixa dimensão representam
matrizes de indicadores de cluster. Calculamos três diferentes
Matrizes de indicadores de cluster usadas para atribuição de cluster
de genes, pacientes e drogas, respectivamente. O computa-
ção da matriz indicadora de agrupamento de genes é restringida por
conectividade de rede molecular integrada, enquanto o
cálculo da matriz do indicador do cluster de drogas é con
tensas por semelhanças químicas de drogas. A rede integrada
trabalho é composto por três redes moleculares diferentes,
nomeadamente PPI, redes de interação genética e metabólica.
Dado que GNMTF é tanto um coclustering quanto dimensionalidade-
3
.1.1 Desafios e questões abertas
A identificação de subtipos de doenças demonstrou ser ambos
dados e métodos dependentes. Além disso, não há consenso
na literatura sobre o número de subtipos de um determinado
tipo de câncer. Dependendo dos métodos e tipos de dados que eles
uso, diferentes estudos relatam diferentes números de subtipos
de um tipo específico de câncer (por exemplo, câncer de mama). Além disso, insuperável
métodos visados requerem que o número de subtipos seja predeterminado
minado. Determinar o número de subtipos não é uma tarefa direta
tarefa avançada e diferentes abordagens podem ser usadas para descobrir
o número correto de clusters nos dados. Por exemplo, iClus-
ter usa uma técnica de validação cruzada [124], enquanto NBS determina
extrai o número de subtipos com base na estabilidade do
agrupamento de consenso [133]. Além disso, há uma urgência
necessidade de um conjunto de dados de referência que deve ser usado em estudos futuros
s para avaliação sistemática e comparações de métodos.
Além disso, muitos dos métodos integrativos mencionados acima
ods para subtipagem são incapazes de considerar simultaneamente
diferentes tipos de dados. Por exemplo, o método SNF só pode
integrar tipos de dados fornecidos por variáveis contínuas (por exemplo, mRNA
níveis de expressão), pois podem ser facilmente usados para construção
de redes de semelhança. No entanto, SNF não pode incorporar
perfis de mutação matemática, uma vez que não pode construir uma semelhança
rede de mutação somática altamente heterogênea pro-
arquivos. Ou seja, devido à pequena sobreposição entre mu- somáticos
per fi s de aplicação em diferentes pacientes , é difícil de definir
uma medida de semelhança adequada entre os pacientes. Abordagens
como NBS e GNMTF são mais convenientes para integração
ção de perfis de mutação somática. Muito poucos estudos integram
dados de mutação somática com mRNA e dados de metilação,
devido à dificuldade em integrar binário com contínuo
tipos de dados [137].
Uma normalização adequada de diferentes tipos de dados é outra
problema nas análises integrativas de dados. Se não for devidamente contabilizado
pois geralmente resulta em casos em que o maior conjunto de dados vence.
Ao contrário do iCluster, o JIVE leva em consideração os dados adequadamente
problema de normalização [130].
3.2 Métodos computacionais para reaproveitamento de drogas
e tratamentos personalizados
Vários métodos computacionais para reaproveitamento de drogas têm
foram propostas e podem ser classificadas em diferentes
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
Proteomi cs 2016 , 16 , 741-758
751
critério. Por exemplo, do ponto de vista dos dados, Dudley et al.
por Wang et al. [139], que desenvolveu um PreDR (Predict Drug
Reaproveitamento) método em que matrizes de kernel centradas em drogas
representam: (i) semelhanças químicas de drogas obtidas no Pub-
Banco de dados Chem; (ii) similaridades de sequência alvo (proteína) re-
obtido de KEGG BRITE e DrugBank; e (iii) lado da droga
efeito similaridades para o banco de dados SIDER. O centrado na doença
matriz do kernel representa semelhanças de doenças medidas por
sua semelhança semântica de fenótipos de doenças recuperados de
Banco de dados OMIM. Os autores treinaram o classificador SVM em
a matriz combinada do kernel e a precisão relatada em identi-
encontrar novas interações entre drogas e doenças.
[148] sugerido classi fi cação em droga-ba sed e doença-b ased
métodos. O primeiro grupo de métodos usa alguma noção de
similaridade entre as drogas (por exemplo, similaridade química [149], simi-
laridade entre as expressões gênicas induzidas por ações de drogas [74],
ou similaridade de efeito colateral de drogas [150]) para agrupar drogas e inferir
um novo candidato a medicamento para reaproveitar do grupo que
pode realizar a mesma ação que outras drogas do grupo.
O segundo grupo de métodos usa semelhanças entre dis-
atenuações (por exemplo, semelhança de fenótipo [151], ou semelhança entre
sintomas de doença [152]) para agrupar doenças e inferir um
novo medicamento para reaproveitamento expandindo associações conhecidas
entre a droga e alguns membros do grupo para o
resto do grupo. Outras abordagens usar baseado em alvo Simila ri-
laços [153], ou seja, similaridade de sequência de proteína [154], ou estrutura 3D
similaridade estrutural [155], para inferir novos fármacos. Por outro lado,
todos os três métodos podem ser classificados como similaridade-ba sed AP-
proach es [153]. Eles costumam usar aprendizado de máquina ou NB
métodos no processo de inferência de drogas. Outro computacional
incluem abordagens de acoplamento molecular simulação approa Ches
que lidam com a previsão de um local de armazenamento de uma droga dentro
estrutura da proteína 3D [156]. No entanto , as maiores limitações
desses métodos é a falta de conhecimento de estruturas 3D
para muitos alvos de proteína e extensos custos computacionais
para testar uma única interação droga-alvo.
Uma revisão completa de aplicativos baseados em similaridade e de docking molecular
abordagens para análises de tipo de dados único está além do escopo de
este artigo e referimos o leitor a artigos de revisão recentes por
Li et al. [157] e Ding et al. [153 ]. Aqui, nos concentramos na integração
métodos ativos capazes de integrar várias semelhanças de
diferentes tipos de dados contendo informações complementares,
como dados farmacológicos, químicos, genéticos e clínicos.
Ou seja, devido à heterogeneidade e complexidade de muitos dis-
facilidades caracterizadas com diferentes subtipos, as drogas não são
sempre igualmente e fi ciente no tratamento da mesma doença.
Assim, o objetivo geral da medicina de precisão é tomar
levar em consideração a diversidade molecular entre os indivíduos quando
diagnosticar pacientes e prescrever medicamentos específicos para cada
indivíduo [158]. Com a iniciativa de Big-Data (consulte a Seção 2),
abordagens computacionais integrativas começaram a atrair
mais atenção devido à sua capacidade de atingir esse objetivo.
Zheng et al. [140] desenvolveu uma estrutura integrativa
chamado Multiple Similarities Collaborative Matrix Factoriza-
(MSCMF) para previsão de alvos de drogas. Leva como um
colocar uma matriz representando as interações alvo-droga, também
como múltiplas matrizes que representam diferentes tipos de simi-
laridades entre drogas e alvos construídos a partir de vários
bancos de dados. MSCMF projeta drogas e alvos em um comum
espaço de recurso de baixa dimensão, fatorando o alvo da droga
matriz em um produto de duas matrizes de baixa dimensão rep-
ressentimento de drogas e vetores de recursos de baixa dimensão,
respectivamente. O cálculo de matrizes de baixa dimensão
de drogas e alvos é feito de uma maneira semissupervisionada
restringindo seus valores para serem consistentes com drogas-drogas
e matrizes de similaridade alvo-alvo, respectivamente. Nomeadamente,
a semelhança entre duas drogas é aproximada pela
produto interno de seus vetores de recursos correspondentes. O mesmo
é aplicado em vetores de recursos alvo. Os autores matemat-
formularam icamente a condição de fatoração e as restrições
dentro da mesma função objetivo, que eles minimizam por
aplicando o algoritmo Alternating Least Squares [159]. Depois de
convergência, eles reconstruíram a matriz de droga-alvo a partir de
as matrizes de baixa dimensão obtidas (ou seja, da matriz comp
pletion) e extraiu novas entradas não observadas anteriormente
representando interações medicamentosas-alvo previstas. MSCMF é
demonstrou ter um desempenho melhor do que o estado-da-arte anterior
métodos para predição de alvos de drogas. Além disso, a grande vantagem
tage de MSCMF sobre os métodos anteriores é o fato de que ele
pode integrar semelhanças de múltiplas fontes de dados sobre o
mesmo conjunto de drogas ou alvos e estimar sua influência sobre
a qualidade da previsão do alvo da droga.
Por exemplo, Napolitano et al. [138] usou um método KB [106]
para integrar similaridade química de drogas, rede PPI e drogas
dados de expressão gênica induzida após o tratamento de um paciente. Cada
dados são representados por uma matriz de kernel em um centro de drogas
espaço de recursos. Particularmente, as três matrizes do kernel representam
reenviar semelhanças entre drogas com base em: (i) substâncias químicas de drogas
estruturas do DrugBank; (ii) proximidade de seus alvos em
a rede PPI; e (iii) correlações entre os perfis genéticos
sob a influência da droga recuperada do banco de dados CMap.
Depois de combinar essas matrizes de kernel em um único kernel
matriz, os autores aplicaram um SVM, um método de ML supervisionado
para classificação. Eles treinaram o SVM no medicamento existente
classificação alcançando 78% de precisão de classificação e
eles usaram as drogas classificadas erroneamente com maior pontuação como novas latas
didatos para reaproveitamento [138]. Uma abordagem semelhante foi usada
Semelhante a MSCMF, Zhang et al. [141] proposto
reposicionamento de droga-doença, um semi-supervisionado, matriz tri-
estrutura baseada em fatoração para novas associações de drogas e doenças
previsão de ciação. Leva como entrada uma conhecida droga-doença como-
associações, bem como múltiplas drogas e múltiplas doenças
redes de similaridade e gera novas associações de drogas e doenças
ações. Em particular, ele constrói três similaridades de drogas ma-
trices com base em suas estruturas químicas, efeitos colaterais e
proteínas alvo e três matrizes de similaridade de doenças com base em
seus fenótipos, Ontologia de Doenças e genes de doenças. o
associações previstas são validadas em bancos de dados de ensaios clínicos.
Ao contrário do MSCMF, o reposicionamento de drogas para doenças fatoriza
associações de doenças em um produto de três dimensões
matrizes, onde a primeira e a última matrizes podem ser inter-
pretendida como matrizes de atribuição de agrupamento de drogas e doenças,
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
7
52
V. Gligorijevi c´ et al.
Proteomi cs 2016 , 16 , 741-758
respectivamente. Essas matrizes podem ser usadas para identificar sub-
grupos de drogas e doenças altamente correlacionadas, proporcionando assim
informações adicionais sobre o propósito de drogas , identificando
um grupo de candidatos a drogas semelhantes que podem ser usados na clínica
ensaio s.
cers. Especificamente, eles usaram respostas transcendentais para com-
libras e genes alvo de miRNA expressos diferencialmente em 23
diferentes cânceres humanos. Para cada miRNA, eles particionaram
seus genes alvo em módulos GO, e para cada módulo GO
ule avaliaram a associação entre suas diferenças
genes alvo expressos e a resposta transcricional para
o composto usando o teste de Kolmogorov-Smirnov. Se estes
associações são confirmadas para um número significativo de GO
módulos de um miRNA particular, então os autores hipotetizam
dimensionou um link entre o miRNA e a droga correspondente
composto. Eles analisaram a rede SMirN e separadamente
miRNAs agrupados e compostos em módulos, com base em
que eles inferem novos alvos de miRNA potenciais, bem como
novos compostos de drogas que podem ser usados no reaproveitamento de drogas
para terapia do câncer. Chen [167] desenvolveu um novo modelo de Hy-
Distribuição perGeométrica para Associações de Doença de cRNA ln
inferência. O modelo integra as conhecidas doenças de miRNA
ciações e interações lncRNA-miRNA e sem um ouro
conjunto de dados padrão, infere uma rede de associações de doenças lncRNA
com AUC de 0,76 na validação cruzada leave-one-out.
Com base nas 19 principais associações previstas, eles relataram
novos lncRNAs envolvidos no câncer de mama, pulmão e colorretal
que podem ser usados como novos biomarcadores para o diagnóstico destes
cânceres. Um método integrativo mais sofisticado, baseado em
fatoração de matriz não negativa, foi recentemente proposta por
Biswas et al. [147]. Eles fatoram a associação lncRNA-doença
matriz em um produto de dois não negativos, de baixa dimensão
matrizes especí fi cas para lncRNAs e doenças, respectivamente. o
não-negatividade das matrizes de baixa dimensão obtidas al-
baixo para facilitar a extração de lncRNA e subgrupos de doenças em
os dados. Eles também podem ser interpretados como atribuição de cluster
matrizes para lncRNAs e doenças, respectivamente. O fator-
ização da matriz de associação lncRNA-doença foi feita
de forma semi-supervisionada, ao restringir a construção de
as matrizes de baixa dimensão com dados adicionais, incluindo
gene codificador e dados de íons de expressão de lncRNA , bem como lncRNA-
rede de associação de genes codificadores. Os autores identificaram sete
eral lncRNA biologicamente relevante e grupos de doenças. Sediada
nas pontuações de associação no lncRNA de baixa dimensão
matriz, eles classificaram lncRNAs que causam doenças para cada partícula
doença ular. Eles identificaram um grupo proeminente de lncRNAs
associados a doenças cardíacas, bem como um grupo de lncRNAs
fortemente associado a distúrbios neurológicos que podem ser
usados em testes experimentais futuros como biomarcadores destes
disorde rs.
Gottlieb et al. [142] desenvolveu um método supervisionado, denominado
PREDICT (PREDICANDO INDICAÇÕES DE MEDICAMENTOS). Primeiro, ele calcula
Medidas de similaridade droga-droga e doença-doença de cinco
e seis fontes de dados de drogas e doenças diferentes, respectivamente.
Em segundo lugar, com base nessas semelhanças, ele constrói uma visão geral
similaridade para cada par droga-doença. Finalmente, com base no
similaridade droga-doença, ele treina uma classe de regressão logística
sobre a classificação correta de associações conhecidas de drogas e doenças.
Os autores demonstraram uma grande precisão do PREDICT em
identificar novas indicações de drogas com área sob o
Curva ROC [160] de 0,92. Além disso, eles propõem PREDICT
como uma estrutura geral que pode ser usada no futuro pessoal
tratamento medicamentoso otimizado, incorporando dados de expressão gênica
de pacientes com doenças na estrutura.
Todos os métodos anteriores usam supervisionado ou semi-
estratégia prevista na previsão do alvo da droga ou doença-droga
associações e, portanto, eles exigem um padrão ouro (ou seja, um conjunto
de associações conhecidas) para treinar seus modelos. Por muitos espe-
doenças ci fi ciais, esse conjunto de dados é desconhecido, ou incompleto, que
torna o uso dos métodos mais difícil. Superar
isto, Huang et al. [143] propôs um completamente sem supervisão
método integrativo que pode inferir associações drogas-doença
sem quaisquer associações anteriores. Eles usaram rede acoplada
propagação [161] em similaridade química droga-droga , doença-
similaridade do fenótipo da doença e coexpressão gene-gene
redes homogêneas de similaridade, conectadas por gene-droga
e redes heterogêneas de doenças genéticas. Eles aplicaram seus
método sobre dados de pacientes com câncer colorretal e de próstata.
Eles identificaram drogas de maior pontuação previstas para serem usadas em
tratamento desses grupos de pacientes . Outro não supervisionado,
Método NB para integração de rede heterogênea e drogas
o reaproveitamento foi introduzido por Daminelli et al. [144]. Eles
previu novas associações de drogas-alvo, completando
bi-cliques completos na rede integrada de drogas-alvo-doença
trabalhos. Eles demonstram o poder de seu método prevendo
ing novos medicamentos para doenças cardiovasculares e parasitárias, como
bem como prevendo novas drogas para quinases relacionadas ao câncer.
Para outros métodos de NB para reaproveitamento de drogas, recomendamos um leitor
a um artigo de revisão recente de Wu et al. [162].
RNAs não codificantes, em particular microRNAs (ou miRNAs)
e longos RNAs não codificantes (lncRNAs), começaram recentemente
atraindo a atenção devido ao seu envolvimento em várias doenças
atenua, incluindo câncer e doenças autoimunes [163] e
assim, foram propostos como biomarcadores potenciais [146, 164]
e alvos de drogas [165, 166]. Devido a grandes coleções de tran-
dados descritivos e de medicamentos disponíveis, novos dados computacionais
métodos para a identificação de miRNAs como potenciais drogas alvo
get foi proposto recentemente. Por exemplo, Jiang et al.
3.2.1 Desafios e questões abertas
Muitos dos métodos apresentados nesta seção requerem dif-
diferentes tipos de dados a serem representados no espaço de recursos comuns.
Por exemplo, métodos KB (por exemplo, P reDR) requerem as matrizes
de todos os tipos de dados a serem construídos sobre o mesmo conjunto de
laços (por exemplo, drogas ou doenças). Isso geralmente requer transformação
dados que podem levar à perda de informações. No outro
Por outro lado, métodos baseados em MF (por exemplo, MSCMF) podem lidar com estes
[
145] propôs uma estrutura para construção de uma rede,
SMirN, de interações entre pequenas moléculas de drogas (com
libras) e miRNAs usando dados de diferentes humanos podem
ꢀ C
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
www.proteomics-journal.c om
Proteomi cs 2016 , 16 , 741-758
753
dados heterogêneos sem qualquer transformação de dados e
assim, sem qualquer informação baixa. Além disso, muitos métodos re-
deve escolher uma medida de similaridade apropriada para integrar
vários tipos de dados. Isso nem sempre é uma tarefa simples
e diferentes medidas podem resultar em diferentes conclusões finais
sessões. Semelhante aos métodos descritos na Seção 3.1, o
métodos para previsão de alvos de drogas (e doenças por drogas) e
reaproveitamento de drogas carecem de um corpus de dados de referência para
comparando seus desempenhos.
métodos baseados são promissores para mineração heterogênea
conjuntos de dados. Embora GNMTF seja uma integração de dados versátil
framework [136], sua complexidade computacional aumenta com
o número de tipos de dados a serem integrados. Assim, integrando
um grande número de tipos de dados heterogêneos dentro do MF-
framework baseado necessita de uma nova melhoria algorítmica
mentos. Extrair as informações complementares veiculadas
em dados de diferentes formatos e tipos é outro desafio
que é parcialmente abordado pelo método integrativo apresentado
ods. Por exemplo, os dados proteômicos mostraram ser um
bom complemento para outros dados ômicos. Ou seja, muitos estudos
confirmaram que proteínas com interações físicas em
uma rede PPI são mais propensos a ter coexpressão correlacionada
per fi s de seus gêneros correspondentes [172]. Pelo contrário,
interacções proteína físicas são menos propensos a coincidir a ge-
interações néticas de seus genes correspondentes [173]. Portanto,
integração de rede de interação genética com rede PPI e
outras redes moleculares mostraram ser benéficas em
muitos problemas biológicos [133,136,174].
4
Desafios e perspectivas
Conforme apresentado na Seção 2, os dados biomédicos estão cada vez mais
tornando-se disponível e lidando com seus "três V" componentes
nents irão impor muitos desafios e questões abertas. Para
exemplo, ao abordar o volume de Big Data (ou seja, alta dimensão
regionalidade), muitas técnicas de redução de dimensionalidade têm
foi elaborado, revisto nas Seções 3.1 e 3.2. Contudo,
eles são todos computacionalmente intensivos em conjuntos de dados de grande escala
e desenvolver técnicas que sejam eficientes e precisas em
revelar subestruturas ocultas neles ainda é uma questão em aberto -
ção. Uma das soluções possíveis para resolver esta questão
podem ser métodos de análise de dados topológicos (TDAs) [168,
Além disso, muitos tipos de dados, incluindo exposômicos e
dados metagenômicos ainda precisam ser analisados e sua integração
com outros dados será um foco de estudos futuros. Para
exemplo, muitos dos dados de saúde de um indivíduo, como demonstração
dados gráficos, histórico médico pessoal e familiar, vacinação
registros, exames laboratoriais e resultados de imagem são sistematizados
sendo coletados e armazenados em registros eletrônicos de saúde
169]. TDAs usam conceitos matemáticos desenvolvidos em álgebra
topologia. TDAs analisam Big Data, convertendo-os em
representações geométricas de baixa dimensão a partir das quais eles
extraia formas (padrões) e obtenha insights sobre elas. Estes
métodos têm se mostrado mais eficientes em encontrar
subestruturas em conjuntos de dados de grande escala do que métodos padrão,
como agrupamento ou métodos de análise de componente principal.
Além disso, eles conseguem encontrar estruturas ocultas no
dados que os métodos padrão não conseguiram descobrir [169].
Lidar com a velocidade do Big Data (ou seja, lidar com seu crescimento
ao longo do tempo) é particularmente desafiador e mal abordado
na literatura sobre medicina de precisão. Um dos possiveis
as direções futuras para abordar este desafio é o utiliza-
ção dos chamados "algoritmos a qualquer momento" [170] que podem aprender
de dados de streaming (por exemplo, classe Bayesiana dependente do tempo
fi ers) [171] e que ainda retornam um resultado valioso se seu exe-
A intervenção é interrompida a qualquer momento. Além disso, no futuro, nós
terá acesso a cada vez mais dados de séries temporais. No
momento, tais séries temporais são pré-processadas para encontrar
padrões, por exemplo, séries temporais de dados de expressão são usados
para encontrar genes com expressão correlacionada com o tempo (coexpressão
rede), ou usado para estudar o efeito de drogas em um curto espaço de tempo
escalas por análise de expressão diferencial. Com o aumento
número crescente de recursos medidos e o tempo crescente
abrangência das medições, um desafio chave será encontrar
um modelo de integração de dados que explorará diretamente as séries temporais
medições para as quais o tempo se estende e as frequências de
as medidas variam muito.
(
EHR). Os dados EHR estão cada vez mais disponíveis para aca-
fins de pesquisa demica e apresentam numerosos
desafios putacionais que devem ser enfrentados. Dois principais
desafios computacionais incluem o desenvolvimento de algoritmos para:
(
i) fenotipagem individual (ou seja, anotando registros de pacientes com
doenças) [175] e (ii) integração de dados EHR com
dados ômicos para melhor compreensão dos mecanismos da doença
e tratamentos [176]. Os maiores obstáculos do primeiro desafio
Vingança é intromissão e incompletude dos dados EHR que
devem ser devidamente tidos em consideração. Por outro lado,
os maiores obstáculos do segundo desafio são heterogêneos
e diferentes tipos de formato de EHR e dados genômicos.
Alguns passos para enfrentar esses desafios foram
feito [175, 176], mas desenvolvendo métodos que podem superar
esses obstáculos ainda estão por vir.
Finalmente, enquanto nos concentramos nos quatro desafios da precisão
medicina, integração de big data também abre novas oportunidades
em bioinformática e em outras ciências de dados. Por exemplo,
pode ser usado para reprocessar dados brutos de uma forma mais coerente, ou
com novas questões de pesquisa em mente [177].
Este trabalho foi apoiado pelo Conselho Europeu de Pesquisa
(
ERC) Iniciando Pesquisador Independente Grant 278212, o Na-
descoberta habilitada para a tecnologia da Fundação Científica Internacional (NSF) e
Inovação (CDI) OIA-1028394, o projeto ARRS J1-5454, e
o Projeto do Ministério da Educação e Ciência III44006 da Sérvia.
A variedade do Big Data (ou seja, heterogeneidade) foi ad-
vestido por muitos métodos, conforme apresentado na Seção 3.2. MF-
Os autores declararam não haver conflito de interesses.