Métodos integrativos para análise de big data com
Métodos integrativos para análise de big data com

Métodos integrativos para análise de big data com precisão  
medicin e  
Vladimir Gligorij evi c´ , No él Malod-Dognin e Nata sˇ a Pr zˇ ulj          
Departamento de Computação,  Imperial College London, London,  UK  
Fornecemos uma visão geral dos desenvolvimentos recentes em análises de big data no contexto de precisão  
medicina e informática em saúde. Com o avanço nas tecnologias de captura molecular e  
dados médicos, entramos na área de “Big Data” em biologia e medicina. Esses dados oferecem muitos  
oportunidades para o avanço da medicina de precisão. Descrevemos os principais desafios da medicina de precisão  
e apresentar avanços recentes em métodos baseados em integração de dados para descobrir informações personalizadas  
mação de big data produzida por vários estudos ômicos. Nós pesquisamos métodos integrativos recentes  
para subtipagem de doenças, descoberta de biomarcadores e reaproveitamento de drogas, e liste as ferramentas que  são  
disponível para cientistas de domínio. Dada a natureza cada vez maior desses Big Data, destacamos  
os principais problemas que os métodos de integração de big data enfrentarão.  
Recebidos: Octo ber  8,  2015  
Revisado: 16 de novembro de 2015  
Aceito:  09 de dezembro de  2015  
Palavras-chave :  
Big data / Bioinformática  / Métodos de integração /  Medicina   personalizada
1
Introduc ção  
ser interpretado diretamente por médicos devido ao seu  
grandes tamanhos e complexidades.  
Medicina de precisão , também conhecida como personalizada, preditiva,  
medicina preventiva e participativa (P4) [1], é uma emergência  
abordagem para individualizar a prática da medicina [2].  
Estratégias de prevenção e tratamento que levam em consideração  
a variabilidade individual não é nova; por exemplo, tipagem sanguínea  
tem sido usado para orientar a transfusão de sangue por mais de um século  
tury, com um total de 35 grupos de sangue humano sendo reconhecidos  
pela International Society of Blood Transfusion [3]. Sim-  
do mesmo modo, sexo, raça, tempo de isquemia, citomegalovírus e  
serotipos são levados em consideração para reduzir o risco de rejeição  
transplantes de órgãos [4-7]. O desafio de aplicar o  
conceito de medicina de precisão para conjuntos de dados ômicos e clínicos de  
recursos do paciente que se tornaram disponíveis e que não podem  
Big data é um termo amplo para conjuntos de dados tão grandes ou complexos  
que os métodos tradicionais de processamento de dados são inadequados. Isto é  
frequentemente caracterizado por três Vs [8]: volume, que se refere ao  
grande tamanho dos dados; velocidade, que se refere à alta velocidade  
em que os dados são gerados; e variedade, que se refere ao  
heterogeneidade dos dados provenientes de diferentes fontes. Tudo  
essas características se aplicam a produtos biológicos e  
conjuntos de dados médicos. Desde o início do Genoma Humano  
Projeto [9], novos desenvolvimentos tecnológicos levaram à era de  
ciências ômicas. Usando uma nova tecnologia de captura de alto rendimento  
tecnologias, agora somos capazes de acessar o DNA de um indivíduo  
(dados genéticos), o RNA transcrito ao longo do tempo (expressão  
e dados de coexpressão), proteínas (perfis de proteínas e pro-  
dados de interação de teína), metabolismo (perfis metabólicos) e  
epigenoma (dados de metilação do DNA), entre outros tipos de dados  
[
10]. O ambiente também é colocado na contagem de ácidos graxos (por exemplo, nutrição  
Correspondênc e : Dr. Nata é um Pr ulj, Departamento de Computação,      
Imperial College London,  London SW7 2AZ,  Reino Unido  
E-mail : natasha@imperial.ac.uk  
e ambiente bacteriano por n utriômica e metagenômica,  
respectivamente) [11, 12],  e também histopatológico e  médico  
dados de imagem agora estão sujeitos a captura de alto rendimento  
e métodos de análise [13-16].  
Portanto, estamos enfrentando uma lacuna crescente entre nossos  
capacidade de gerar grandes dados biomédicos e nossa capacidade de analisar  
lise e interprete-os [17]. Neste contexto, não é surpreendente  
Abreviaturas:  EHR ,  registros eletrônicos de saúde; GNMT F ,  Graph-   
tri-fatorização de matrizes não negativas regularizadas; JIVE , junta  
e variação individual explicada; KB , baseado em kernel; lncRNA ,  
RNA não codificador longo; MCM C , cadeia de Markov Monte Carlo;  
MSCM F , fatoração de matriz colaborativa de múltiplas semelhanças;  
NB , baseado em rede; NBS , estratificação NB; NGS , próxima geração  
sequenciador PREDI CT , PREdicting Drug IndiCaTions; SNF  similar-    
fusão de rede de ity; SVM , suporte a máquinas de vetores; TDA , topolog-  
método de análise de dados físicos  
Ambos os autores contribuíram igualmente.  
Color Online : Consulte o artigo online para ver as Figs. 1-3 em cores.  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
7
42  
V. Gligorijevi c´ et al.    
Proteomi cs 2016 , 16  741-758    
que big data e medicina de precisão são investigados em conjunto.  
baixos para reduzir o custo de desenvolvimento de farmacoterapias  
em comparação com o disco de novo medicamento overy and development [26].  
Com a disponibilidade de vários dados ômicos, computacionais  
as previsões de novos candidatos a medicamentos para reaproveitamento não  
cessou o desenvolvimento de muitos novos métodos para dados  
integração (consulte a Seção 3.2).  
negócio ) tinha como alvo a medicina personalizada por meio do GenI-  
Programa SIS (Sistema de Informação Genômica para Integrado  
Ciência) para melhorar os cuidados de saúde para veteranos. Em 2012, os EUA  
National Institutes of Health (NIH) lançou o “Big Data  
ao Conhecimento ”, para colher a riqueza de informações  
contido no Big Data biomédico [18]. Finalmente, Presidente  
com um objetivo ambicioso de conduzir a medicina de precisão por  
incorporando muitos tipos diferentes de dados, de genomas  
aos microbiomas, com os dados do paciente coletados pelo sistema de saúde  
profissionais de saúde e os próprios pacientes.  
Dentre muitos desafios na medicina de precisão, aqui nós  
focar em quatro problemas relacionados: subtipagem do paciente, biomarcador  
descoberta, reaproveitamento de medicamentos e tratamento personalizado pré-  
dicção. Nós fornecemos uma revisão de métodos capazes de integração  
análises de vários tipos de dados para  lidar com esses problemas.  
O reaproveitamento de medicamentos não se trata apenas de identificar novos alvos  
para drogas conhecidas; avaliações pré-clínicas também incluem  
ing regimes terapêuticos (ou seja, dose e frequência) e segurança  
do tratamento (ou seja, efeitos colaterais). Reunindo paciente  
subtipagem e previsão precisa do tratamento terapêutico  
resultados é a chave para obter tratamentos personalizados.  
Por exemplo, a American Society of Clinical Oncology es-  
estima que testar pacientes com câncer de cólon para mutações em  
O gene K-RAS economizaria US $ 604 milhões em custos com medicamentos anualmente;  
uma vez que os pacientes com essas mutações não respondem bem a  
Inibidores de EGF, é preferível evitar dar-lhes  
tratamento eficiente e potencialmente tóxico , que também é muito  
Neste artigo, damos uma visão geral dos métodos disponíveis  
para analisar dados biomédicos grandes e diversos, apresente  
conceitos de integração e classificação de dados, e elaborar  
sobre os sucessos e limitações das abordagens de Big-Data em  
medicina de precisão.  
1
.1 Subtipagem  e  descoberta de   biomarcador
Também conhecido como estratificação do paciente, a subtipagem é a tarefa de  
identificar subpopulações de pacientes que podem ser usados ​​para  
orientar procedimentos de tratamento de um determinado pertencimento individual  
para a subpopulação e para prever os resultados. Subtipagem  
identi fi es endoty pes , que se referem aos subtipos nos quais os pacientes  
estão relacionados por semelhanças em seus mecanismos de doença subjacentes  
anismos (ou seja, para explicar os mecanismos de doenças) [19], e  
veroty pes , que se referem a verdadeiras populações de pacientes semelhantes  
para fins de tratamento (ou seja, para prever terapias para curar o  
pacientes) [20]. No entanto, o que exatamente constitui endótipos  
e verótipos, bem como como eles devem ser descobertos, re-  
rede aberta. Apesar de várias definições, a subtipagem permanece  
uma tarefa de classificação e uma área ativa e crescente de ma-  
pesquisa de aprendizagem da China (ML) (ver Seção 3.1). Doenças como  
como câncer, autismo, doenças autoimunes, doenças cardiovasculares  
atenua, e Parkinson foram estudados através das lentes  
de subtipagem [21-23].  
2
Big data  
2
.1 Avalanche  de  dados   ômicos
Com os avanços recentes na tecnologia de captura de dados biomédicos  
tecnologias, ciências ômicas produzem  quantidades cada vez maiores de  
dados biomédicos. Apresentamos brevemente os principais dados omics disponíveis  
tipos, que são ilustrados na Fig. 1.  
2
.1.1 Genômica  e  exômica  
Genômica é uma parte da genética que se concentra em capturar todo  
genomas. Historicamente, o Projeto Genoma Humano exigia  
De acordo com a FDA, um biomarcador é qualquer diagnóstico mensurável  
indicador nóstico que é usado para avaliar o risco ou a presença de  
uma doença [24]. A descoberta de biomarcadores visa encontrar recursos  
que são característicos de determinadas subpopulações de pacientes  
12 anos e US $ 3 bilhões para capturar o primeiro genoma humano,  
com um lançamento final em 2003 relatando cerca de 20.500 genes [9].  
O primeiro sequenciador comercial de última geração (NGS), o  
Roche GS-FLX 454 (lançado em 2004), permitiu capturar o  
segundo genoma humano em 2 meses [27]. Em comparação, um  
NGS moderno, como o Illumin, um HiSeq X é capaz de  
duzindo até 16 genomas humanos em dados por execução de 3 dias.  
Observe que apenas 1–2% dos códigos de material genético humano para  
genes, em regiões de DNA chamadas exons. Exomics, que foca  
nessas regiões menores, leva a uma pesquisa mais rápida e barata  
quencing [28,29]. Recentemente, a capacidade de realizar sequenciamento  
de células individuais forneceu novos insights sobre bi  
ologia e doenças [30,  31].  Heterogeneidade na  sequência de   DNA
de uma célula para outra revelou o conceito de mo-  
saici sm , ou seja, a presença de duas ou mais populações de células  
(
por exemplo, mutações genéticas específicas em tecidos tumorais,  miR-    específico
NAs, metabólitos, etc.). O objetivo é que um indivíduo seja apenas  
testado para biomarcadores para decidir se ela / ele pertence ou não  
a um subtipo específico de paciente. Biomarcadores são considerados essenciais  
para melhorar os cuidados de saúde e reduzir os custos médicos [25].  
1
.2  Reaproveitamento de medicamentos  tratamento   personalizado
O reaproveitamento de drogas refere-se à identificação e eliminação  
desenvolvimento de novos usos para os existentes ou abandonados  
farmacoterapias. Tirando proveito de drogas já conhecidas al-  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
Proteomi cs 2016 , 16  741-758    
743  
Figura 1. Illustrat iões  de vários ómicas  dados   
tipos .  
com diferentes genótipos em um indivíduo [32]. Câncer em par-  
particular foi estudado através da lente da variação genômica  
para encontrar mutações de driver.  
ing, o 
25.000 genes humanos levam a 
100.000 transcrições;  
com mais de 300 tipos diferentes de modo pós-tradução  
cações, o número de proteínas resultantes é estimado em  
maior do que 1  800  000  [43]. Captura de alto rendimento de  pro-  
sequências de teína é feito através de experimentos MS [44]. Interações  
entre proteínas, ou entre proteínas e outras moléculas,  
são capturados com  técnicas de alto rendimento , como levedura  
dois híbridos [45] e capturados por afinidade acoplados com MS [46].  
Interactomes e interações proteína-proteína em particular,  
foram usados ​​com sucesso para identificar evolutivamente conservados  
caminhos, complexos e ortólogos funcionais [47-49].  
2
.1.2 Epigenômica  
Epigenômica é o estudo do conjunto completo de epigenética  
modi fi cações do material genético de uma célula. Estes reversíveis  
modi fi cações no DNA ou histonas afetam a expressão gênica e  
assim, desempenham um papel importante na regulação gênica. Alto rendimento  
métodos, como ChipSeq e sequenciamento Bisul fit, permitem  
detecção de modi fi cações epigenéticas, como DNA metila-  
ção, modificação de histona e estrutura da cromatina [33,  34].  
Os achados da epigenômica são específicos do tipo de célula e epigenética.  
a programação tem um papel claro no câncer [35,36].  
2
.1.5 Metabolômica,  glicômica e  fl uxômica  
Um metabólito é qualquer substância produzida ou consumida durante  
metabolismo (todos os processos químicos em uma célula). Metabolômica  
estuda todos os processos químicos envolvendo metabólitos [50].  
Perfis metabólicos são medidos com MS e magia nuclear  
espectrometria de ressonância nética. Glycomics é o ramo da  
metabolômica que estuda glicoes, os conjuntos de todos os açúcares  
livres ou em moléculas mais complexas, como glicoproteínas - em  
células. A glicosilação é a mais intensa e complexa pós-  
a modificação translacional de proteínas e glicanos são conhecidos  
estar envolvido no crescimento e desenvolvimento celular [51], no  
sistema imunológico [52], na comunicação célula a célula [53], em  
câncer e doenças microbianas [54,  55].  Fluxomics refere  - se a  
uma gama de métodos em biologia experimental e computacional  
ogy que tenta identificar, ou predizer as taxas de metabolismo  
reações em sistemas biológicos [56].  
2.1.3 Transcriptômica  
Ao contrário da sequência de DNA, que é relativamente estática [37],  
O RNA reflete o estado dinâmico de uma célula. Objetivos da transcriptômica  
na medição da quantidade de material genético transcrito ao longo  
Tempo. Inclui RNAs codificantes e não codificantes, cujo  
funções às vezes são desconhecidas [38]. Genes coexpressos  
(ou seja, com padrões de expressão semelhantes ao longo do tempo) foram  
mostrado ser provavelmente regulado por meio dos mesmos mecanismos [39]  
padrões de expressão diferencial são usados ​​para identificar  dis-  
genes regulados no câncer [40], prever possíveis alvos de drogas  
[41] e desfechos de câncer [42].  
2.1.4 Proteômica  e  interactômica  
2.1.6  Fenômica  e exposômica  
Enquanto a transcriptômica considera todos os RNAs transcritos, pro  
a teômica concentra-se nas proteínas produzidas, afinal pós-trans-  
modificações de sequência lacional (por exemplo, fosforilação, gli-  
colisação e lipidação). O proteoma humano é vários  
ordem de magnitude maior que o genoma humano; Porque  
de promotores alternativos, splicing alternativo e edição de mRNA  
Fenômica é uma área da biologia que mede fenômenos -  
traços físicos e bioquímicos dos organismos - conforme eles mudam  
em resposta à mutação genética e influências ambientais  
cias. Estudos de associação de todo o genoma são comumente usados  
para detectar associações entre poli-nucleotídeo único  
morfismos e doenças comuns, como doenças cardíacas,  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
7
44  
V. Gligorijevi c´ et al.    
Proteomi cs 2016 , 16  741-758    
diabetes, doenças autoimunes e distúrbios psiquiátricos  
57]. A exposição abrange todo  o ambiente humano (ou seja,  
entre a soma dos comprimentos de leitura curtos e do alvo  
comprimento da sequência genômica. Esta proporção é chamada de profundidade de  
o sequenciamento e é expresso em termos de X (por exemplo, 2X  
sequenciamento significa que, em média,  cada nucleotídeo é coberto  
por duas leituras curtas). Enquanto o sequenciamento atual usa
30X,  a  
estudo recente argumenta que genomas de alta qualidade podem exigir  
126X (referido como sequenciamento profundo) [61].  
Além disso, para o mesmo indivíduo, um número crescente  
várias amostras são capturadas; os dados podem ser coletados em diferentes  
tecidos ent, usando genômica de célula única [62], ou em diferentes  
outras condições (por exemplo, antes e depois do tratamento). finalmente, o  
o intervalo de tempo das amostras disponíveis está aumentando. Por exemplo,  
a expressão do gene pode ser medida ao longo do tempo para avaliar o  
efeito das drogas. Desenvolvimentos recentes de cap não intrusiva  
técnicas de controle (por exemplo, sequenciamento de exoma fetal de material  
sangue final [63] e ressonância magnética, capturando  
mapas de conectividade do cérebro de bebês em gestação a adultos; De-  
ingconnectome.org / project /) permitirá a coleta de informações  
durante toda a vida de um indivíduo, o que pavimenta  
o caminho para a medicina personalizada do útero ao túmulo.  
[
exposições não genéticas) desde a concepção. Inclui,  
entre outros, a exposição a  moléculas tóxicas , drogas e radi  
ação. A exposição se beneficia do rastreamento contínuo que é  
agora disponível para a maioria das principais métricas fisiológicas (sangue  
pressão, ritmo cardíaco, ondas cerebrais, etc.) e ambiente  
índices mentais, como poluição do ar, contagem de pólen e radiação.  
Até mesmo imagens médicas, que tradicionalmente eram feitas manualmente  
vestigada, é agora um assunto de captura de alto rendimento  
[
14, 15].  Por exemplo, radiomics (o alto rendimento  cap-  
pesquisa e análise de imagens de rádio médica) recentemente levaram a  
conectômica, que captura e analisa a conectividade do cérebro  
mapas de utilidade.  
2
.1.7 Metagenômica  
A metagenômica visa capturar microbiomas humanos, usu-  
aliado por meio do sequenciamento do rRNA 16S. Nossa fl ora bacteriana tem  
demonstrou desempenhar um papel importante em vários problemas médicos  
dições [12]; por exemplo, a flor bacteriana do intestino  
é conhecido por modular os efeitos dos medicamentos envolvidos no câncer  
tratamentos [58]. No entanto, levando em consideração a microbiota é  
desafiador, pois o microbioma humano consiste em cerca de 100 tril-  
células microbianas de leão, que é cerca de dez vezes o número  de  
células humanas [59].  
2
.2.2 Aumento da  heterogeneidade dos  dados   capturados
O número de diferentes entidades biológicas (por exemplo, genes,  
RNAs, proteínas, metabólitos, drogas, doenças, etc.) para os quais  
os dados podem ser coletados está aumentando. A variedade de disponibilidade  
dados disponíveis são ilustrados na Tabela 1, que apresenta alguns dos  
os bancos de dados biomédicos de larga escala bem estabelecidos. o  
os dados coletados são tão grandes que mesmo os dados básicos gerenciam  
mento está se tornando um desafio. Saúde nos EUA já era  
2
.2 Os  dados biomédicos ficam mais  complexos  
A complexidade dos dados biomédicos cresce em duas direções:  
em termos de número de amostras e em termos de hetero  
genei ty.  
18  
armazenar 150 exabytes (10  bytes)  de dados em 2011 e  é  
24  
Espera-se que Yottabyte alça de dados (10  Bytes)  no  
conjuntos de dados são altamente heterogêneos; dados do mesmo tipo  
pode ser capturado com diferentes tecnologias com  
cobertura, polarização e robustez de ruído (por exemplo, as diferentes tecnologias  
tecnologias para capturar as interações proteína-proteína [64]), e  
o mesmo se aplica a todos os tipos de dados. Além disso, o grande número  
ber de fontes de dados apresenta problemas de coleta de dados provenientes de  
a falta de formato padrão nos repositórios de dados (os chamados  
problema de extração de dados em Big Data [65]).  
2
.2.1 O  número crescente de  amostras  
Como as tecnologias de captura estão se tornando mais rápidas e baratas,  
o número de indivíduos para os quais os dados estão disponíveis é  
aumentando rapidamente. Por exemplo, o número de disponíveis  
genomas / exomas humanos aumentaram quase exponencialmente  
durante a última década: o primeiro exoma humano foi lançado  
em 2003 [9], enquanto em 2012, 1092 genomas humanos estavam disponíveis  
capaz [60]. Hoje em dia, o exome Agregação Consor tium  
broadinstitut e.org). O governo do Reino Unido anunciou recentemente  
3
Técnicas de ML  
Conforme descrito na seção anterior, Big Data são de grande  
escala, diversidade e complexidade e, como tal, exigem esforço  
algoritmos eficientes para extrair conhecimento oculto neles.  
Técnicas computacionais que são usadas para analisar Big Data  
são baseados em estatísticas, ML ou baseados em rede (NB)  
métodos [104]. Esses métodos já demonstraram  
grande potencial para preencher a lacuna entre a produção e  
interpretação de big data em medicina de precisão , mas há  
ainda há muito espaço para suas melhorias.  
iniciativa da medicina nos Estados Unidos planeja mapear 1  
milhões de genomas humanos. Observe que este número crescente  
de amostras de genoma também terá o preço de aumentar  
variações em termos de qualidade do genoma. NGSs produzem curtas  
lê que precisa ser montado em genomas. A qualidade  
do genoma montado depende altamente da proporção  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
Proteomi cs 2016 , 16  741-758    
745  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
7
46  
V. Gligorijevi c´ et al.    
Proteomi cs 2016 , 16  741-758    
Figura 2. Uma  ilustração esquemática  de   
as duas principais técnicas de aprendizagem em  
ML — supervisionado (painel esquerdo) e não  
aprendizagem supervisionada (painel direito). Deixado dentro  
aprendizagem supervisionada, um conjunto de dados de   treinamento
consiste em amostras com classe conhecida  
rótulos, por exemplo, casos e controles. Uma modelo  
é aprendido maximizando a diferença  
relação entre casos e controles e  
então um rótulo para uma nova amostra é de-  
encerrado. Certo: na aprendizagem não supervisionada-  
ing, todas as amostras são não rotuladas. Uma modelo  
agrupa amostras em grupos diferentes  
com base em sua semelhança.  
Os métodos de ML entraram em foco na análise de Big Data devido a  
tipo de dados, mas em várias perspectivas (por exemplo, experi-  
estudos mentais) é integrado, e heterogen EOU , onde mul-  
vários tipos de dados em diferentes formatos são integrados. O lat-  
ter é computacionalmente mais desafiador , porque requer  
uma estrutura que pode lidar com dados heterogêneos sem  
transformando-o e perdendo qualquer informação através do trans-  
formação. A maioria das estruturas existentes não consegue lidar  
com este problema e eles exigem uma etapa de pré-processamento antes de  
integração, onde eles transformam os dados em um único representante  
sentação. Na Seção 3.2, discutimos esse problema com mais detalhes  
e identificar métodos capazes de resolver este problema.  
Pesquisamos métodos integrativos recentes para subtipo de doença  
, descoberta de biomarcador e reaproveitamento de drogas, e fornecer  
uma lista resumida de ferramentas computacionais que podem ser usadas por  
cientistas de domínio para análise de dados B ig (ver Tabela 2 para o  
lista de métodos). Os métodos apresentados são escolhidos com base  
nos seguintes critérios: (i) o método é integrativo (ou seja,  
considera mais de um tipo de dados) e é aplicado em biomed  
Big Data ical; (ii) o método é predominantemente baseado em ML  
técnicas, embora também consideremos alguns métodos NB;  
e (iii) o método foi usado para abordar um dos quatro  
diferentes desafios da medicina de precisão (consulte a Seção 1).  
sua capacidade de destaque para coletivamente meu (integrar) larg e-  
escala, diversos e heterogêneos tipos de dados biomédicos, um  
principal desafio em medicina de precisão e medicina  
formatics [105]. Assim, nesta seção, nos concentramos principalmente em  
Métodos de ML para integração de dados, mas também mencionamos alguns  
métodos estatísticos e NB recentes para integração de dados.  
Os métodos de ML podem ser divididos nas seguintes classes (ver  
Fig. 2 para uma ilustração):  
Métodos supervisionados , como classificação e regressão,  
tome como entrada amostras de dados de treinamento com rótulos conhecidos. UMA  
modelo é aprendido por meio de um processo de treinamento que maximiza  
a precisão de seu desempenho no conjunto de dados de treinamento. o  
modelo é então usado para mapear novas amostras de dados existentes  
rótulos de impressão. Por exemplo, um dado de entrada pode incluir pacientes  
classi fi cados como casos e controles. Um modelo é aprendido a maxi-  
mize a diferença entre casos  e controles e então será  
aplicado na classificação de novos pacientes. Alguns dos amplamente  
técnicas supervisionadas usadas incluem Máquinas de Vetor de Suporte  
(
SVMs) [106], (baseadas em kernel KB) métodos [107], e  Logis tic  
regressão [108].  
 Métodos não supervisionados , como clustering e dimension-  
redução de identidade, tomar como entrada um conjunto de dados não rotulado. Um modelo é  
aprendido ao revelar padrões ocultos nos dados e organizações  
nizing os dados em subconjuntos significativos. Esses métodos são  
frequentemente usado em subtipagem molecular de pacientes com câncer, ou em  
descoberta de padrões em dados de expressão gênica. Alguns dos  
métodos não supervisionados amplamente utilizados na medicina de precisão  
incluem clustering hierárquico [109], K-means [109], e seus  
generalizações incluindo métodos de fatoração de matriz [110].  
Métodos semissupervisionados tomam como entrada uma mistura de  
e amostras não rotuladas. Um modelo é aprendido para explicar o  
estrutura nos dados, bem como para fazer novas previsões de  
amostras não rotuladas. Por exemplo, ao prever um novo medicamento  
associações de doenças, métodos semi-supervisionados aprendem conhecidos  
associações droga-doença de amostras rotuladas (ou seja,  
conhecimento), para prever novas associações entre drogas e doenças. este  
estratégia é particularmente adequada para integração de dados, como pode  
incorporar vários tipos de dados como conhecimento prévio. Um dos  
mais amplamente utilizado, esse método é  a matriz regularizada por rede  
fatoração  [111].  
3.1  Métodos computacionais  para  subtipagem de   doenças
e descoberta de biomarcador  
A subtipagem da doença (ou estratificação da doença) é uma tarefa de  
agrupar pacientes em subgrupos com base em genômica, trans-  
dados scriptômicos, epigenômicos e clínicos. O objetivo principal de  
subtipagem é alcançar prognósticos mais precisos de indivíduos  
resultados esperados de uals que podem ser usados ​​para melhorar o tratamento  
decisões mentais. Tratamentos de muitas doenças têm beneficiado  
de subtipagem, incluindo Parkinson, cardiovascular, au-  
doenças imunológicas e câncer [112].  
O câncer é uma das doenças mais estudadas por subtipagem.  
É uma doença em que as aberrações do genoma são acumuladas.  
e, eventualmente, levando à desregulação do sistema celular  
sistema. Anciões histologicamente semelhantes são compostos de muitos  
subtipos moleculares com comportamento clínico significativamente diferente  
iores e complexidade molecular no genômico, epigenômico,  
níveis transcriptômicos e proteômicos. Muitos subtipos têm  
foram identificados utilizando técnicas para integração de dados  
Com base no tipo de dados que eles integram, a integração  
métodos podem ser divididos em Homogen EOU , onde o mesmo  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
Proteomi cs 2016 , 16  741-758    
747  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
7
48  
V. Gligorijevi c´ et al.    
Proteomi cs 2016 , 16  741-758    
para vários tipos de câncer, incluindo cólon e retal [113],  
mama [114] e câncer de ovário [115].  
UMA
B
Métodos de ML de cluster não supervisionados, como hierárquico  
agrupamento [116], K-médias [117], agrupamento de consenso [118],  
e fatoração de matriz não negativa [119] têm sido principalmente  
aplicado aos dados de expressão gênica, comparando a expressão  
níveis de genes de doenças em diferentes amostras para identificar  
subgrupos significativos. O mais recente desses métodos  
propor a divisão dos pacientes em subtipos clinicamente relevantes por  
comparar genes diferencialmente expressos (com base em genes normais  
e amostras de tecido canceroso) [116]. Com base no conjunto selecionado  
de genes expressos diferencialmente, eles calculam a distância  
entre pacientes e realizar agrupamento hierárquico [109].  
Usando dados de expressão de mRNA de câncer de mama e de pulmão pa-  
pacientes, eles identificaram quatro câncer de mama e cinco de pulmão  
subtipos com taxas de sobrevivência significativamente diferentes. Além disso,  
em vez de identificar mutações de driver individuais, eles identificam  
modificar módulos de mutação de driver para cada subtipo individual.  
Ou seja, usando o PPI (interação proteína-proteína) net-  
trabalho e mapeando os 15 principais mutantes  
genes de cada subtipo identificado na rede, eles procuram  
para um subne twork perfeitamente conectado cobrindo esses genes.  
As sub-redes identificadas são postuladas como módulos de driver  
que podem servir como novos alvos para o reaproveitamento de drogas conhecidas  
e suas combinações [116]. Muitos outros estudos também  
focada no desenvolvimento de métodos para identificar redes aberrantes  
módulos de trabalho e caminhos, utilizando redes moleculares  
e outros dados ômicos. Por exemplo, Alcaraz et al. [120] de  
KeyPathwayMiner veloped, um método para extração de aber-  
módulos de rede rant da rede PPI por meio da integração de genes  
dados de expressão e metilação do DNA. Os autores demonstram  
demonstraram o desempenho do KeyPathwayMiner no câncer  
pacientes com câncer colorretal do atlas do genoma (TCGA). O método  
usa técnicas heurísticas baseadas na otimização de colônias de formigas  
para extrair sub-redes conectadas ao máximo com um certo  
número de genes diferencialmente expressos em todos os pacientes. o  
sub-redes resultantes mostraram-se enriquecidas em genes  
com sinalização hiperativa no câncer colorretal que pode ser inter  
considerados como potenciais alvos terapêuticos. Da mesma forma, Vaske et al.  
Figura 3. Ilustração  dos métodos baseados em MF. (A)  Fatoração de   matriz 
ção de múltiplas matrizes de dados, , representando diferentes dados  
tipos (por exemplo, expressão de mRNA, metilação de DNA, número de cópias  
variação, etc.) sobre o mesmo número de amostras . O matri-  
ces são decompostos em um espaço de recurso comum, representado  
pela matriz , que também é uma matriz de indicadores de cluster; é usado  
para atribuir amostras em clusters. Matrizes chamados  coef-        
matrizes fi cientes são especí fi cas para cada conjunto de dados . (B) Tri-fatoração  
dos dados matr ix R que representa as relações entre dois conjuntos de dados  
de tamanhos (por exemplo,  interacções fármaco-alvo) em três  baixa      
matrizes dimensionais. Matrizes são  indicadores de    cluster    
matrizes para o primeiro e segundo conjuntos de dados, respectivamente; matriz  
 é  usado  para  assigni ng n  de dados de  pontos  de  cluster de s.       
Matri x S é o baixo-dimensional representa ção de R .     
realizar clustering, integração de dados, seleção de recursos  
ção e redução da dimensão de vários tipos de dados. Usa  
uma abordagem de fatoração de matriz probabilística para  
decompor matrizes de dados, representando dados diferentes  
tipos (por exemplo, metilação do DNA, variações do número de cópias do DNA,  
dados de expressão de mRNA) sobre o mesmo número de amostras  
(pacientes), em um espaço de característica comum representado por dois  
matrizes de baixa dimensão (Fig. 3A ). Especificamente, eles se decompõem  
representam as matrizes de dados, fatorando simultaneamente cada  
matriz de dados em um produto de duas matrizes de baixa dimensão.  
A dimensionalidade das matrizes de baixa dimensão representa  
envia o número de subtipos de câncer e é um pré-definido  
parâmetro. A primeira matriz, também chamada de matriz de coeficiente , é  
específico para cada tipo de dados, enquanto a segunda matriz, também chamada  
a matriz de indicadores de cluster , é compartilhada entre a decomposição  
ção. A segunda matriz captura as dependências entre os  
tipos de dados, e com base em suas entradas, é usado para um único,  
atribuição integrada de amostras de tumor a grupos (subtipos).  
Os autores aplicaram iCluster na variação do número de cópias de DNA  
e dados de expressão gênica para estratificar câncer de mama e de pulmão  
pacientes. Após obter a representação probabilística de  
a matriz de indicador de cluster de baixa dimensão, eles atribuem tu-  
mais amostras para diferentes subgrupos. Em ambos os seios e  
exemplos de dados de câncer de pulmão, eles identificam novos subgrupos com  
resultados clínicos estatisticamente diferentes como resultado da combinação  
informações de ambos os tipos de dados [124].  
[
121] desenvolveu o PARADIGM, um método para inferir pacientes  
vias moleculares alteradas especí fi cas. Os métodos também permitem  
para a identificação de vias alteradas comuns entre diferentes  
pacientes e, assim, fornecer a subtipagem do paciente. Os autores  
PARADIGM aplicado na expressão do gene TCGA e DNA  
copiar dados de variações de número de glioblastoma multiforme pa-  
tients; com base nas perturbações significativas da via, o  
autores dividem o paciente em quatro subgrupos diferentes com  
resultado de sobrevivência significativamente diferente.  
No entanto, a maioria dos métodos recentes usa um aplicativo integrativo  
abordagens para combinar vários tipos de dados moleculares, como  
como alteração do número de cópias de DNA, metilação de DNA, mRNA  
e expressão de proteína e dados de interação molecular, ac-  
contando para diferentes níveis de variações entre os afetados  
indivíduos e, assim, fornecer subtipos mais precisos  
[122, 123].  Por exemplo, Shen et al. [124] desenvolveu  iClus-  
ter, uma estrutura de aprendizagem não supervisionada que pode simultaneamente  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
Proteomi cs 2016 , 16  741-758    
749  
iCluster é uma ferramenta amplamente utilizada e tem sido aplicada para  
subtipagem de vários tipos de câncer. Por exemplo, Curtis et al. [125],  
aplicou-o a pacientes com câncer de mama de METABRIC (Molec-  
ular Taxonomy of Breast Cancer International Consortium)  
coorte e identificou dez subgrupos com diferenças signi fi cativas  
resultados ent. Além disso, eles relataram correlação significativa  
entre variações do genoma e dados de expressão gênica e  
com base nisso, eles descobriram novos genes putativos para mama  
câncer [125]. iCluster também foi aplicado em TCGA glioblas-  
toma multiforme (o mais comum e mais agressivo  
tumor cerebral maligno) conjunto de dados por agrupamento simultâneo  
de variação do número de cópias de DNA, metilação e gene ex-  
dados de pressão [126]. Os autores revelam três tumores distintos  
subtipos de glioblastoma multiforme, em oposição aos quatro  
subtipos distintos relatados por estudos anteriores que usaram apenas  
dados de expressão gênica [22]. Isso demonstra o poder de  
análise integrativa sobre análises de tipos de dados únicos em char-  
caracterizando, classificando e prevendo os resultados clínicos de  
Pacientes com câncer.  
dados, pois permite maior flexibilidade na decomposição de  
tipos de dados tinct. Além disso, os autores relataram um melhor desempenho  
mance de seu modelo em comparação com o iCluster, porque ao contrário  
iCluster, que obriga todas as amostras de tumor a serem incluídas em  
o procedimento de agrupamento, o modelo proposto pode seletivamente  
escolher entre mais e menos amostras correlacionadas entre os dados  
tipos ao executar a atribuição de cluster. Os autores  
demonstraram seu método na expressão do gene TCGA, cópia  
variação numérica e  dados de metilação de câncer de ovário pa-  
tientes, especialmente para descobrir os principais genes condutores no ovário  
câncer [129]. Da mesma forma, Lock et al. [130] introduziu JIVE (Joint  
e Variação Individual Explicada), um método que, em vez  
de ter as mesmas matrizes de coeficientes para dados compartilhados e  
componentes específicos propuseram um modelo com diferentes coeficientes  
matrizes cientes correspondentes a j oint e dados-específicos.  
componentes que capturam variações articulares de baixa dimensão em  
tipos de dados, bem como variações específicas para cada tipo de dados.  
Com esta extensão, o JIVE realizou uma melhor caracterização  
ção de subtipos de tumor, bem como uma melhor compreensão de  
as interações biológicas entre diferentes tipos de dados [130].  
Para superar as desvantagens de escalabilidade do grupo de ML anterior  
métodos de medição que operam com o gene x de alta dimensão  
matrizes de pacientes, Wang et al. [131] propôs um método NB  
que integra dados representados por matrizes de paciente x paciente.  
Este método, denominado Similarity Network Fusion (SNF), com  
bines expressão de mRNA, metilação de DNA e microRNA  
dados de expressão para o mesmo conjunto de pacientes com câncer. Primeiro, para  
cada tipo de dados, ele constrói uma rede ponderada de pacientes,  
com os nós sendo pacientes e as ligações ponderadas sendo semelhantes  
entre pacientes. As semelhanças são calculadas com base  
em seus perfis genéticos para um tipo específico de dados. Em segundo lugar, não  
maliza os pesos de cada rede, levando em consideração o  
redes de todos os tipos de dados. Finalmente , ele funde todas as redes  
em uma única rede, realizando uma difusão de informações  
dentro de cada rede e em diferentes redes. Depois de  
a convergência do processo de difusão, os autores usam um  
método de agrupamento espectral [132] na rede fundida final  
para agrupar pacientes em grupos. Ao contrário dos métodos anteriores,  
SNF é mais escalável. Ou seja, em vez de processar grandes  
matrizes de escala construídas sobre um grande número de genes, SNF  
método funde matrizes muito menores que representam redes  
construída sobre os pacientes (ou seja, amostras), o que torna a  
vergência mais rápida. SNF é mostrado para ser robusto ao ruído e quando  
aplicado em cinco tipos diferentes de câncer do banco de dados TCGA,  
demonstrou ser eficaz na previsão da sobrevivência do paciente  
resultados [131].  
O primeiro método que lida com a detecção de contradições  
sinais em diferentes tipos de dados  é proposto por Yuan et al.  
[
127]. Eles propõem um método de fusão de dados específico do paciente  
com base na abordagem não paramétrica Bayesiana para integrar o gene  
expressão e dados de variação do número de cópias da próstata e  
pacientes com câncer de mama [127]. Uma abordagem bayesiana é uma estatística  
abordagem de ML cal, que cria um modelo de dados por meio da construção  
dependências condicionais entre variáveis ​​de dados representadas  
por probabilidades condicionais. Um dos métodos amplamente utilizados  
para aprender probabilidades condicionais é a cadeia de Markov Monte  
Técnica de Carlo (MCMC) [128]. Ao contrário de outros métodos, este  
método detecta com sucesso sinais contraditórios entre  
diferentes tipos de dados decorrentes de diferentes medições er-  
rors. Especificamente, uma variável latente é atribuída a cada paciente;  
mede se os dados do paciente são concordantes ou não  
(
ou seja, de acordo) em diferentes tipos de dados. Esta abordagem  
permite que informações de dados contraditórias sejam suprimidas  
na atribuição de agrupamento de pacientes. A maior desvantagem  
desta abordagem é que ela não se ajusta bem com o número  
de tipos de dados e, portanto, os autores restringem sua análise  
apenas em dois tipos de dados. Ou seja, a etapa MCMC é computacional  
nacionalmente o mais intensivo e requer cerca de 48 horas para  
uma única cadeia MCMC para ser concluída. Apesar desta desvantagem,  
os autores relatam um novo subtipo de pacientes com câncer de próstata  
com resultados de sobrevivência extremamente pobres [127].  
Para levar ainda mais em consideração a  inconsistência de dados entre os dados  
tipos, o iCluster foi posteriormente generalizado por Ray et al. [129]  
introduzindo o modelo de fator de junção Bayesiana construído sobre iClus-  
estrutura ter. Ou seja, em vez de ter um único cluster  
matriz de indicador comum para todos os tipos de dados, eles ainda de-  
componha-o em componentes de matriz compartilhados e de dados específicos.  
Especificamente, a matriz do indicador de cluster é representada como um  
soma de dados específicos do tipo e características comuns de baixa dimensão  
matrizes de estrutura. O comum e específico de baixa dimensão  
matrizes são aprendidas conjuntamente por meio de decomposição simultânea  
de todas as matrizes de dados. Esta generalização mostrou ser par-  
particularmente útil para análise conjunta de genômica multiplataforma  
A maioria dos estudos é baseada na análise de expressão de mRNA  
Sion dados de sequenciamento de RNA e microarrays, e DNA  
dados de alteração de número de cópia. Por causa do barulho desses  
dados, os estudos de estratificação do paciente para tipos de câncer, muitas vezes  
não produzem subgrupos de pacientes que concordam bem com qualquer  
dados clínicos ou de sobrevivência [113]. Para superar essas deficiências  
ings, Hofree et al. [133] recentemente propôs o uso de somático  
dados de mutação como uma nova fonte de  informação para pacientes com câncer  
estratificação de tientes. No entanto, somático altamente heterogêneo  
perfis de mutação entre diferentes pacientes fazem o uso  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
7
50  
V. Gligorijevi c´ et al.    
Proteomi cs 2016 , 16  741-758    
de mutações somáticas para estratificação do paciente em subtipos  
muito mais difícil [115, 133,  134].  Ou seja, dois clinicamente  idênticos  
os tumores raramente têm um grande conjunto de genes mutantes comuns.  
Além disso, muito poucos genes são frequentemente mutados em tu-  
mor amostras. No entanto, apesar dessa diversidade genética entre  
amostras de tumor, as vias perturbadas são frequentemente semelhantes  
abordagem de redução, usamos GNMTF para realizar o seguinte  
três tarefas: (i) usamos a matriz do indicador do agrupamento de pacientes para  
estratificar pacientes com câncer de ovário em diferentes subgrupos com  
resultados clínicos diferentes; (ii) usamos o grupo de genes indi-  
matriz cator para descobrir módulos de genes enriquecidos em motor mu-  
e postular novos genes como impulsionadores do progresso do tumor  
sessão; e (iii) usamos a propriedade de conclusão da matriz do  
matriz droga-alvo para prever novas interações droga-alvo  
e descobrir novos candidatos a drogas que podem ser reaproveitados para  
tratar pacientes com câncer de ovário.  
[134]. Portanto, Hofree et al. [133] propôs abordar este  
problema integrando mutações somáticas com  
redes que contêm caminhos. Seu método, chamado NB  
Strati fi cation (NBS), é baseado em rede regularizada não-  
fatoração de matriz negativa [135]. Ou seja, eles fatoram  
matriz binária gene-paciente, codificando mu somático de pacientes  
per fi s de localização, em um produto de duas dimensões, não  
matrizes negativas; o segundo do qual sendo o cluster indi-  
matriz de cator. A restrição de não negatividade fornece uma  
interpretação da atribuição de agrupamento de amostras de tumor.  
Eles ainda incorporam redes moleculares no cluster  
procedimento de manipulação, restringindo a construção do cluster  
matriz indicadora para respeitar a conectividade da rede local.  
Esta abordagem semi-supervisionada usa redes moleculares como  
conhecimento prévio sobre clusters, garantindo que os pacientes  
são agrupados não apenas com base na semelhança de suas somáticas  
perfis de mutação, mas também na proximidade de seus mu-  
genes identificados na rede molecular. Usando o consenso  
método de agrupamento [118] aplicado no indicador de agrupamento final  
matriz, os autores estratificam os pacientes em diferentes subgrupos.  
O método foi aplicado em câncer de ovário, útero e pulmão  
pacientes do banco de dados TCGA, e produziu subtipos de câncer  
com diferentes resultados clínicos, resposta a terapias e  
histologias de tumor.  
Métodos baseados em MF são promissores para a mineração de heterogêneos  
novos conjuntos de dados. Esses métodos têm o potencial de incorporar  
porate qualquer número e tipo de dados heterogêneos e para  
realizar análises abrangentes. Recentemente, demos um passo  
em direção a este objetivo e estendeu o método NBS para incorporar  
taxa de dados de drogas na estrutura [136]. Ao contrário do anterior,  
nosso método é mais abrangente porque pode simultaneamente  
realizar três tarefas: subtipagem do paciente com câncer, medicamento  
reaproveitamento e descoberta de biomarcador (gene driver identi-  
fi cação). Usamos Matriz não negativa regularizada com gráfico  
Tri-Factorization (GNMTF) [111] (ver Fig. 3B para uma ilustração  
tratamento) abordagem para integrar perfis de mutação somática de  
pacientes com câncer de ovário, redes moleculares, drogas-alvo  
e dados de similaridade química de drogas. Nós simulamos-  
nitidamente tri-fatorizar o gene do paciente e a matriz alvo da droga por  
compartilhar fatores comuns de matriz de baixa dimensão representam  
matrizes de indicadores de cluster. Calculamos três diferentes  
Matrizes de indicadores de cluster usadas para atribuição de cluster  
de genes, pacientes e drogas, respectivamente. O computa-  
ção da matriz indicadora de agrupamento de genes é restringida por  
conectividade de rede molecular integrada, enquanto o  
cálculo da matriz do indicador do cluster de drogas é con  
tensas por semelhanças químicas de drogas. A rede integrada  
trabalho é composto por três redes moleculares diferentes,  
nomeadamente PPI, redes de interação genética e metabólica.  
Dado que GNMTF é tanto um coclustering quanto dimensionalidade-  
3
.1.1 Desafios  e  questões    abertas
A identificação de subtipos de doenças demonstrou ser ambos  
dados e métodos dependentes. Além disso, não há consenso  
na literatura sobre o número de subtipos de um determinado  
tipo de câncer. Dependendo dos métodos e tipos de dados que eles  
uso, diferentes estudos relatam diferentes números de subtipos  
de um tipo específico de câncer (por exemplo, câncer de mama). Além disso, insuperável  
métodos visados ​​requerem que o número de subtipos seja predeterminado  
minado. Determinar o número de subtipos não é uma tarefa direta  
tarefa avançada e diferentes abordagens podem ser usadas para descobrir  
o número correto de clusters nos dados. Por exemplo, iClus-  
ter usa uma  técnica de validação cruzada [124], enquanto NBS  determina  
extrai o número de subtipos com base na estabilidade do  
agrupamento de consenso [133]. Além disso, há uma urgência  
necessidade de um conjunto de dados de referência que deve ser usado em estudos futuros  
s para avaliação sistemática e comparações de métodos.  
Além disso, muitos dos métodos integrativos mencionados acima  
ods para subtipagem são incapazes de considerar simultaneamente  
diferentes tipos de dados. Por exemplo, o método SNF só pode  
integrar tipos de dados fornecidos por variáveis ​​contínuas (por exemplo, mRNA  
níveis de expressão), pois podem ser facilmente usados ​​para construção  
de redes de semelhança. No entanto, SNF não pode incorporar  
perfis de mutação matemática, uma vez que não pode construir uma semelhança  
rede de mutação somática altamente heterogênea pro-  
arquivos. Ou seja, devido à pequena sobreposição entre mu- somáticos  
per fi s de aplicação em diferentes pacientes , é difícil de definir  
uma medida de semelhança adequada entre os pacientes. Abordagens  
como NBS e GNMTF são mais convenientes para integração  
ção de perfis de mutação somática. Muito poucos estudos integram  
dados de mutação somática com mRNA e dados de metilação,  
devido à dificuldade em integrar binário com contínuo  
tipos de dados [137].  
Uma normalização adequada de diferentes tipos de dados é outra  
problema nas análises integrativas de dados. Se não for devidamente contabilizado  
pois geralmente resulta em casos em que o maior conjunto de dados vence.  
Ao contrário do iCluster, o JIVE leva em consideração os dados adequadamente  
problema de normalização [130].  
3.2  Métodos computacionais para  reaproveitamento de   drogas
e tratamentos personalizados  
Vários métodos computacionais para reaproveitamento de drogas têm  
foram propostas e podem ser classificadas em diferentes  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
Proteomi cs 2016 , 16  741-758    
751  
critério. Por exemplo, do ponto de vista dos dados, Dudley et al.  
por Wang et al. [139], que desenvolveu um PreDR (Predict Drug  
Reaproveitamento) método em que matrizes de kernel centradas em drogas  
representam: (i) semelhanças químicas de drogas obtidas no Pub-  
Banco de dados Chem;  (ii)  similaridades de sequência alvo (proteína)  re-  
obtido de KEGG BRITE e DrugBank; e (iii) lado da droga  
efeito similaridades para o banco de dados SIDER. O centrado na doença  
matriz do kernel representa semelhanças de doenças medidas por  
sua semelhança semântica de fenótipos de doenças recuperados de  
Banco de dados OMIM. Os autores treinaram o classificador SVM em  
a matriz combinada do kernel e a precisão relatada em identi-  
encontrar novas interações entre drogas e doenças.  
[148] sugerido classi fi cação em droga-ba sed e doença-b ased  
métodos. O primeiro grupo de métodos usa alguma noção de  
similaridade entre as drogas (por exemplo, similaridade química [149], simi-  
laridade entre as expressões gênicas induzidas por ações de drogas [74],  
ou similaridade de efeito colateral de drogas [150]) para agrupar drogas e inferir  
um novo candidato a medicamento para reaproveitar do grupo que  
pode realizar a mesma ação que outras drogas do grupo.  
O segundo grupo de métodos usa semelhanças entre  dis-  
atenuações (por exemplo, semelhança de fenótipo [151], ou semelhança entre  
sintomas de doença [152]) para agrupar doenças e inferir um  
novo medicamento para reaproveitamento expandindo associações conhecidas  
entre a droga e alguns membros do grupo para o  
resto do grupo. Outras abordagens usar baseado em alvo Simila ri-  
laços [153], ou seja, similaridade de sequência de proteína [154], ou estrutura 3D  
similaridade estrutural [155], para inferir novos fármacos. Por outro lado,  
todos os três métodos podem ser classificados como similaridade-ba sed AP-  
proach es [153]. Eles costumam usar aprendizado de máquina ou NB  
métodos no processo de inferência de drogas. Outro computacional  
incluem abordagens de acoplamento molecular simulação approa Ches  
que lidam com a previsão de um local de armazenamento de uma droga dentro  
estrutura da proteína 3D [156]. No entanto , as maiores limitações  
desses métodos é a falta de conhecimento de estruturas 3D  
para muitos alvos de proteína e extensos custos computacionais  
para testar uma única interação droga-alvo.  
Uma revisão completa de aplicativos baseados em similaridade e de docking molecular  
abordagens para análises de tipo de dados único está além do escopo de  
este artigo e referimos o leitor a artigos de revisão recentes por  
Li et al. [157] e Ding et al. [153 ]. Aqui, nos concentramos na integração  
métodos ativos capazes de integrar várias semelhanças de  
diferentes tipos de dados contendo informações complementares,  
como dados farmacológicos, químicos, genéticos e clínicos.  
Ou seja, devido à heterogeneidade e complexidade de muitos dis-  
facilidades caracterizadas com diferentes subtipos, as drogas não são  
sempre igualmente e fi ciente no tratamento da mesma doença.  
Assim, o objetivo geral da medicina de precisão é tomar  
levar em consideração a diversidade molecular entre os indivíduos quando  
diagnosticar pacientes e prescrever medicamentos específicos para cada  
indivíduo [158]. Com a iniciativa de Big-Data (consulte a Seção 2),  
abordagens computacionais integrativas começaram a atrair  
mais atenção devido à sua capacidade de atingir esse objetivo.  
Zheng et al. [140] desenvolveu uma estrutura integrativa  
chamado Multiple Similarities Collaborative Matrix Factoriza-  
(MSCMF) para previsão de alvos de drogas. Leva como um  
colocar uma matriz representando as interações alvo-droga, também  
como múltiplas matrizes que representam diferentes tipos de simi-  
laridades entre drogas e alvos construídos a partir de vários  
bancos de dados. MSCMF projeta drogas e alvos em um comum  
espaço de recurso de baixa dimensão, fatorando o alvo da droga  
matriz em um produto de duas matrizes de baixa dimensão rep-  
ressentimento de drogas e vetores de recursos de baixa dimensão,  
respectivamente. O cálculo de matrizes de baixa dimensão  
de drogas e alvos é feito de uma maneira semissupervisionada  
restringindo seus valores para serem consistentes com drogas-drogas  
e matrizes de similaridade alvo-alvo, respectivamente. Nomeadamente,  
a semelhança entre duas drogas é aproximada pela  
produto interno de seus vetores de recursos correspondentes. O mesmo  
é aplicado em vetores de recursos alvo. Os autores matemat-  
formularam icamente a condição de fatoração e as restrições  
dentro da mesma função objetivo, que eles minimizam por  
aplicando o algoritmo Alternating Least Squares [159]. Depois de  
convergência, eles reconstruíram a matriz de droga-alvo a partir de  
as matrizes de baixa dimensão obtidas (ou seja, da matriz comp  
pletion) e extraiu novas entradas não observadas anteriormente  
representando interações medicamentosas-alvo previstas. MSCMF é  
demonstrou ter um desempenho melhor do que o estado-da-arte anterior  
métodos para predição de alvos de drogas. Além disso, a grande vantagem  
tage de MSCMF sobre  os métodos anteriores é o fato de que  ele  
pode integrar semelhanças de múltiplas fontes de dados sobre o  
mesmo conjunto de drogas ou alvos e estimar sua influência sobre  
a qualidade da previsão do alvo da droga.  
Por exemplo, Napolitano et al. [138] usou um método KB [106]  
para integrar similaridade química de drogas, rede PPI e drogas  
dados de expressão gênica induzida após o tratamento de um paciente. Cada  
dados são representados por uma matriz de kernel em um centro de drogas  
espaço de recursos. Particularmente, as três matrizes do kernel representam  
reenviar semelhanças entre drogas com base em: (i) substâncias químicas de drogas  
estruturas do DrugBank; (ii) proximidade de seus alvos em  
a rede PPI; e (iii) correlações entre os perfis genéticos  
sob a influência da droga recuperada do banco de dados CMap.  
Depois de combinar essas matrizes de kernel em um único kernel  
matriz, os autores aplicaram um SVM, um método de ML supervisionado  
para classificação. Eles treinaram o SVM no medicamento existente  
classificação alcançando 78% de precisão de classificação e  
eles usaram as drogas classificadas erroneamente com maior pontuação como novas latas  
didatos para reaproveitamento [138]. Uma abordagem semelhante foi usada  
Semelhante a MSCMF, Zhang et al. [141] proposto  
reposicionamento de droga-doença, um semi-supervisionado, matriz tri-  
estrutura baseada em fatoração para novas associações de drogas e doenças  
previsão de ciação. Leva como entrada uma conhecida droga-doença como-  
associações, bem como múltiplas drogas e múltiplas doenças  
redes de similaridade e gera novas associações de drogas e doenças  
ações. Em particular, ele constrói três similaridades de drogas ma-  
trices com base em suas estruturas químicas, efeitos colaterais e  
proteínas alvo e três matrizes de similaridade de doenças com base em  
seus fenótipos, Ontologia de Doenças e genes de doenças. o  
associações previstas são validadas em bancos de dados de ensaios clínicos.  
Ao contrário do MSCMF, o reposicionamento de drogas para doenças fatoriza  
associações de doenças em um produto de três dimensões  
matrizes, onde a primeira e a última matrizes podem ser inter-  
pretendida como matrizes de atribuição de agrupamento de drogas e doenças,  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
7
52  
V. Gligorijevi c´ et al.    
Proteomi cs 2016 , 16  741-758    
respectivamente. Essas matrizes podem ser usadas para identificar sub-  
grupos de drogas e doenças altamente correlacionadas,  proporcionando    assim
informações adicionais sobre o propósito de drogas , identificando  
um grupo de candidatos a drogas semelhantes que podem ser usados ​​na clínica  
ensaio s.  
cers. Especificamente, eles usaram respostas transcendentais para com-  
libras e genes alvo de miRNA expressos diferencialmente em 23  
diferentes cânceres humanos. Para cada miRNA, eles particionaram  
seus genes alvo em módulos GO, e para cada módulo GO  
ule avaliaram a associação entre suas diferenças  
genes alvo expressos e a resposta transcricional para  
o composto usando o teste de Kolmogorov-Smirnov. Se estes  
associações são confirmadas para um número significativo de GO  
módulos de um miRNA particular, então os autores hipotetizam  
dimensionou um link entre o miRNA  e a droga correspondente  
composto. Eles analisaram a rede SMirN e separadamente  
miRNAs agrupados e compostos em módulos, com base em  
que eles inferem novos alvos de miRNA potenciais, bem como  
novos compostos de drogas que podem ser usados ​​no reaproveitamento de drogas  
para terapia do câncer. Chen [167] desenvolveu um novo modelo de Hy-  
Distribuição perGeométrica para Associações de Doença de cRNA   ln
inferência. O modelo integra as conhecidas doenças de miRNA  
ciações e interações lncRNA-miRNA e sem um ouro  
conjunto de dados padrão, infere uma rede de associações de doenças lncRNA  
com AUC de 0,76 na validação cruzada leave-one-out.  
Com base nas 19 principais associações previstas, eles relataram  
novos lncRNAs envolvidos no câncer de mama, pulmão e colorretal  
que podem ser usados ​​como novos biomarcadores para o diagnóstico destes  
cânceres. Um método integrativo mais sofisticado, baseado em  
fatoração de matriz não negativa, foi recentemente proposta por  
Biswas et al. [147]. Eles  fatoram a associação lncRNA-doença  
matriz em um produto de dois não negativos, de baixa dimensão  
matrizes especí fi cas para lncRNAs e doenças, respectivamente. o  
não-negatividade das matrizes de baixa dimensão obtidas al-  
baixo para facilitar a extração de lncRNA e subgrupos de doenças em  
os dados. Eles também podem ser interpretados como atribuição de cluster  
matrizes para lncRNAs e doenças, respectivamente. O fator-  
ização da matriz de associação lncRNA-doença foi feita  
de forma semi-supervisionada, ao restringir a construção de  
as matrizes de baixa dimensão com dados adicionais, incluindo  
gene codificador e dados de íons de expressão de lncRNA , bem como lncRNA-  
rede de associação de genes codificadores. Os autores identificaram sete  
eral lncRNA biologicamente relevante e grupos de doenças. Sediada  
nas pontuações de associação no lncRNA de baixa dimensão  
matriz, eles classificaram lncRNAs que causam doenças para cada partícula  
doença ular. Eles identificaram um grupo proeminente de lncRNAs  
associados a doenças cardíacas, bem como um grupo de lncRNAs  
fortemente associado a distúrbios neurológicos que podem ser  
usados ​​em testes experimentais futuros como biomarcadores destes  
disorde rs.  
Gottlieb et al. [142] desenvolveu um método supervisionado, denominado  
PREDICT (PREDICANDO INDICAÇÕES DE MEDICAMENTOS). Primeiro, ele calcula  
Medidas de similaridade droga-droga e doença-doença de cinco  
e seis fontes de dados de drogas e doenças diferentes, respectivamente.  
Em segundo lugar, com base nessas semelhanças, ele constrói uma visão geral  
similaridade para cada par droga-doença. Finalmente, com base no  
similaridade droga-doença, ele treina uma classe de regressão logística  
sobre a classificação correta de associações conhecidas de drogas e doenças.  
Os autores demonstraram uma grande precisão do PREDICT em  
identificar novas indicações de drogas com área sob o  
Curva ROC [160] de 0,92. Além disso, eles propõem PREDICT  
como uma estrutura geral que pode ser usada no futuro  pessoal  
tratamento medicamentoso otimizado, incorporando dados de expressão gênica  
de pacientes com doenças na estrutura.  
Todos os métodos anteriores usam supervisionado ou semi-  
estratégia prevista na previsão do alvo da droga ou doença-droga  
associações e, portanto, eles exigem um padrão ouro (ou seja, um conjunto  
de associações conhecidas) para treinar seus modelos. Por muitos espe-  
doenças ci fi ciais, esse conjunto de dados é desconhecido, ou incompleto, que  
torna o uso dos métodos mais difícil. Superar  
isto, Huang et al. [143] propôs um completamente sem supervisão  
método integrativo que pode inferir associações drogas-doença  
sem quaisquer associações anteriores. Eles usaram rede acoplada  
propagação [161] em similaridade química droga-droga , doença-  
similaridade do fenótipo da doença e coexpressão gene-gene  
redes homogêneas de similaridade, conectadas por gene-droga  
e redes heterogêneas de doenças genéticas. Eles aplicaram seus  
método sobre dados de pacientes com câncer colorretal e de próstata.  
Eles identificaram drogas de maior pontuação previstas para serem usadas em  
tratamento desses grupos de pacientes . Outro não supervisionado,  
Método NB para integração de rede heterogênea e drogas  
o reaproveitamento foi introduzido por Daminelli et al. [144]. Eles  
previu novas associações de drogas-alvo, completando  
bi-cliques completos na rede integrada de drogas-alvo-doença  
trabalhos. Eles demonstram o poder de seu método prevendo  
ing novos medicamentos para doenças cardiovasculares e parasitárias, como  
bem como prevendo novas drogas para quinases relacionadas ao câncer.  
Para outros métodos de NB para reaproveitamento de drogas, recomendamos um leitor  
a um artigo de revisão recente de Wu et al. [162].  
RNAs não codificantes, em particular microRNAs (ou miRNAs)  
e longos RNAs não codificantes (lncRNAs), começaram recentemente  
atraindo a atenção devido ao seu envolvimento em várias doenças  
atenua, incluindo câncer e doenças autoimunes [163] e  
assim, foram propostos como biomarcadores potenciais [146,  164]  
e alvos de drogas [165,  166].  Devido a grandes coleções de  tran-  
dados descritivos e de medicamentos disponíveis, novos dados computacionais  
métodos para a identificação de miRNAs como potenciais drogas alvo  
get foi proposto recentemente. Por exemplo, Jiang et al.  
3.2.1 Desafios  e  questões    abertas
Muitos dos métodos apresentados nesta seção requerem dif-  
diferentes tipos de dados a serem representados no espaço de recursos comuns.  
Por exemplo, métodos KB (por exemplo, P reDR) requerem as matrizes  
de todos os tipos de dados a serem construídos sobre o mesmo conjunto de  
laços (por exemplo, drogas ou doenças). Isso geralmente requer transformação  
dados que podem levar à perda de informações. No outro  
Por outro lado, métodos baseados em MF (por exemplo, MSCMF) podem lidar com estes  
[
145] propôs uma estrutura para construção de uma rede,  
SMirN, de interações entre pequenas moléculas de drogas (com  
libras) e miRNAs usando dados de diferentes humanos podem  
ꢀ C  
2015 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim  
www.proteomics-journal.c om  
Proteomi cs 2016 , 16  741-758    
753  
dados heterogêneos sem qualquer transformação de dados e  
assim, sem qualquer informação baixa. Além disso, muitos métodos re-  
deve escolher uma medida de similaridade apropriada para integrar  
vários tipos de dados. Isso nem sempre é uma tarefa simples  
e diferentes medidas podem resultar em diferentes conclusões finais  
sessões. Semelhante aos métodos descritos na Seção 3.1, o  
métodos para previsão de alvos de drogas (e doenças por drogas) e  
reaproveitamento de drogas carecem de um corpus de dados de referência para  
comparando seus desempenhos.  
métodos baseados são promissores para mineração heterogênea  
conjuntos de dados. Embora GNMTF seja uma integração de dados versátil  
framework [136], sua complexidade computacional aumenta com  
o número de tipos de dados a serem integrados. Assim, integrando  
um grande número de tipos de dados heterogêneos dentro do MF-  
framework baseado necessita de uma nova melhoria algorítmica  
mentos. Extrair as informações complementares veiculadas  
em dados de diferentes formatos e tipos é outro desafio  
que é parcialmente abordado pelo método integrativo apresentado  
ods. Por exemplo, os dados proteômicos mostraram ser um  
bom complemento para outros dados ômicos. Ou seja, muitos estudos  
confirmaram que proteínas com interações físicas em  
uma rede PPI são mais propensos a ter coexpressão correlacionada  
per fi s de seus gêneros correspondentes [172]. Pelo contrário,  
interacções proteína físicas são  menos propensos a coincidir a  ge-  
interações néticas de seus genes correspondentes [173]. Portanto,  
integração de rede de interação genética com rede PPI e  
outras redes moleculares mostraram ser benéficas em  
muitos problemas biológicos [133,136,174].  
4
Desafios e perspectivas  
Conforme apresentado na Seção 2, os dados biomédicos estão cada vez mais  
tornando-se disponível e lidando com seus "três V" componentes  
nents irão impor muitos desafios e questões abertas. Para  
exemplo, ao abordar o volume de Big Data (ou seja, alta dimensão  
regionalidade), muitas técnicas de redução de dimensionalidade têm  
foi elaborado, revisto nas Seções 3.1 e 3.2. Contudo,  
eles são todos computacionalmente intensivos em conjuntos de dados de grande escala  
e desenvolver técnicas que sejam eficientes e precisas em  
revelar subestruturas ocultas neles ainda é uma questão em aberto -  
ção. Uma das soluções possíveis para resolver esta questão  
podem ser métodos de análise de dados topológicos (TDAs) [168,  
Além disso, muitos tipos de dados, incluindo exposômicos e  
dados metagenômicos ainda precisam ser analisados ​​e sua integração  
com outros dados será um foco de estudos futuros. Para  
exemplo, muitos dos dados de saúde de um indivíduo, como demonstração  
dados gráficos, histórico médico pessoal e familiar, vacinação  
registros, exames laboratoriais e resultados de imagem são sistematizados  
sendo coletados e armazenados em registros eletrônicos de saúde  
169]. TDAs usam conceitos matemáticos desenvolvidos em álgebra  
topologia. TDAs analisam Big Data, convertendo-os em  
representações geométricas de baixa dimensão a partir das quais eles  
extraia formas (padrões) e obtenha insights sobre elas. Estes  
métodos têm se mostrado mais eficientes em encontrar  
subestruturas em conjuntos de dados de grande escala do que métodos padrão,  
como agrupamento ou métodos de análise de componente principal.  
Além disso, eles conseguem encontrar estruturas ocultas no  
dados que os métodos padrão não conseguiram descobrir [169].  
Lidar com a velocidade do Big Data (ou seja, lidar com seu crescimento  
ao longo do tempo) é particularmente desafiador e mal abordado  
na literatura sobre medicina de precisão. Um dos possiveis  
as direções futuras para abordar este desafio é o utiliza-  
ção dos chamados "algoritmos a qualquer momento" [170] que podem aprender  
de dados de streaming (por exemplo, classe Bayesiana dependente do tempo  
fi ers) [171] e que ainda retornam um resultado valioso se seu exe-  
A intervenção é interrompida a qualquer momento. Além disso, no futuro, nós  
terá acesso a cada vez mais dados de séries temporais. No  
momento, tais séries temporais são pré-processadas para encontrar  
padrões, por exemplo, séries temporais de dados de expressão são usados  
para encontrar genes com expressão correlacionada com o tempo (coexpressão  
rede), ou usado para estudar o efeito de drogas em um curto espaço de tempo  
escalas por análise de expressão diferencial. Com o aumento  
número crescente de recursos medidos e o tempo crescente  
abrangência das medições, um desafio chave será encontrar  
um modelo de integração de dados que explorará diretamente as séries temporais  
medições para as quais o tempo se estende e as frequências de  
as medidas variam muito.  
(
EHR). Os dados EHR estão cada vez mais disponíveis para aca-  
fins de pesquisa demica e apresentam numerosos  
desafios putacionais que devem ser enfrentados. Dois principais  
desafios computacionais incluem o desenvolvimento de algoritmos para:  
(
i) fenotipagem individual (ou seja, anotando registros de pacientes com  
doenças) [175] e (ii) integração de dados EHR com  
dados ômicos para melhor compreensão dos mecanismos da doença  
e tratamentos [176]. Os maiores obstáculos do primeiro desafio  
Vingança é intromissão e incompletude dos dados EHR que  
devem ser devidamente tidos em consideração. Por outro lado,  
os maiores obstáculos do segundo desafio são heterogêneos  
e diferentes tipos de formato de EHR e dados genômicos.  
Alguns passos para enfrentar esses desafios foram  
feito [175, 176],  mas desenvolvendo métodos que podem  superar  
esses obstáculos ainda estão por vir.  
Finalmente, enquanto nos concentramos nos quatro desafios da precisão  
medicina, integração de big data também abre novas oportunidades  
em bioinformática e em outras ciências de dados. Por exemplo,  
pode ser usado para reprocessar dados brutos de uma forma mais coerente, ou  
com novas questões de pesquisa em mente [177].  
Este trabalho foi apoiado pelo Conselho Europeu de Pesquisa  
(
ERC) Iniciando Pesquisador Independente Grant 278212, o Na-  
descoberta habilitada para a tecnologia da Fundação Científica Internacional (NSF) e  
Inovação (CDI) OIA-1028394, o projeto ARRS J1-5454, e  
o Projeto do Ministério da Educação e Ciência III44006 da Sérvia.  
A variedade do Big Data (ou seja, heterogeneidade) foi ad-  
vestido por muitos métodos, conforme apresentado na Seção 3.2. MF-  
Os autores declararam não haver conflito de interesses.