Detecção de anomalias

Em mineração de dados, a detecção de anomalias (também detecção de outliers ^[1] ) é a identificação de itens, eventos ou observações raros que levantam suspeitas por serem significativamente diferentes da maioria dos dados.^[1] Normalmente, os itens anômalos se referem a algum tipo de problema, como fraude bancária, defeito estrutural, problemas médicos ou erros em um texto. Anomalias são também referidas como outliers, ruído, desvios e exceções.^[2]

Em particular, no contexto de detecção de intrusos em uma rede, os objetos de interesse geralmente não são os objetos raros, mas surtos inesperados de atividade. Esse padrão não atende à definição estatística comum de um outlier como um objeto raro, e muitos métodos de detecção de outliers (em particular métodos não supervisionados) falharão nesses dados, a menos que tenham sido tratados adequadamente. Em vez disso, um algoritmo de análise de cluster pode ser capaz de detectar os micro clusters formados por esses padrões.^[3]

Existem três categorias amplas de técnicas de detecção de anomalias.^[4] As técnicas de detecção de anomalia não supervisionada detectam anomalias em um conjunto de dados de teste não rotulados com a suposição de que a maioria das instâncias no conjunto de dados é normal, procurando instâncias que pareçam se encaixar menos no restante do conjunto de dados. As técnicas de detecção de anomalia supervisionada exigem um conjunto de dados rotulado como "normal" e "anormal" e envolve o treinamento de um classificador (a principal diferença em muitos outros problemas de classificação estatística é a natureza desbalanceada inerente da detecção de outliers). As técnicas de detecção de anomalia semi-supervisionadas constroem um modelo representando o comportamento normal de um determinado conjunto de dados de treinamento normal e, em seguida, testam a probabilidade de uma instância de teste ser gerada pelo modelo aprendido.

Aplicações

A detecção de anomalias é aplicável em vários domínios, como detecção de intrusão, detecção de fraude, detecção de falhas, monitoramento da integridade do sistema, detecção de eventos em redes de sensores e detecção de distúrbios do ecossistema. É também frequentemente usada no pré-processamento para remover dados anômalos do conjunto de dados. Na aprendizagem supervisionada, a remoção dos dados anômalos do conjunto de dados geralmente resulta em um aumento estatisticamente significativo na precisão.^[5]^[6]

Técnicas populares

Diversas técnicas de detecção de anomalias têm sido propostas na literatura.^[7] Algumas das técnicas populares são:

Técnicas baseadas em densidade (k vizinhos mais próximos,^[8] fator outlier local, florestas de isolamento,^[9] e muitas outras variações desse conceito^[10]).
Detecção de outliers baseada em correlação subespaço, e em tensores^[11] para dados de alta dimensão.^[12]
Máquinas de vetores de suporte de uma classe.^[13]
Redes neurais replicadoras.^[14] Autoencodificadores.
Redes Bayesianas.^[14]
Modelos ocultos de Markov (HMMs).^[14]
Análise de cluster com detecção de outliers.^[15]^[16]
Desvios das regras de associação e conjuntos de itens frequentes.
Detecção de outliers baseada em lógica difusa.
Técnicas de conjunto, usando o recurso de ensacamento,^[17] normalização pontuação e diferentes fontes de diversidade.^[18]

O desempenho dos diferentes métodos depende muito do conjunto de dados e parâmetros, e os métodos têm poucas vantagens sistemáticas sobre os outros quando comparados em muitos conjuntos de dados e parâmetros.^[19]^[20]

Aplicação em segurança dos dados

A detecção de anomalias foi proposta para sistemas de detecção de intrusão (IDS) por Dorothy Denning em 1986.^[21] A detecção de anomalias para o IDS é normalmente realizada com limiares e estatísticas, mas também pode ser feita com soluções aproximadas e aprendizado indutivo.^[22] Os tipos de estatística propostos em 1999 incluíam perfis de usuários, estações de trabalho, redes, hosts remotos, grupos de usuários e programas baseados em frequências, médias, variâncias, covariâncias e desvios padrão.^[23] A contrapartida da detecção de anomalias na detecção de intrusão é a detecção de uso indevido .

Programas

O ELKI é um kit de ferramentas de mineração de dados Java de código aberto que contém vários algoritmos de detecção de anomalias, bem como aceleração de índice para eles.

Conjuntos de dados

Repositório de dados de referência de detecção de anomalias da Ludwig-Maximilians-Universität München ; Espelho na Universidade de São Paulo .
ODDS - ODDS: Uma grande coleção de conjuntos de dados de detecção de outliers publicamente disponíveis com informações básicas em diferentes domínios.

Referências

↑ ^a ^b Zimek, Arthur; Schubert, Erich (2017), «Outlier Detection», ISBN 9781489979933, Springer New York, Encyclopedia of Database Systems: 1–5, doi:10.1007/978-1-4899-7993-3_80719-1
↑ «A Survey of Outlier Detection Methodologies» (PDF). Artificial Intelligence Review. 22. CiteSeerX 10.1.1.318.4023 . doi:10.1007/s10462-004-4304-y
↑ «Data mining for network intrusion detection» (PDF). Proceedings NSF Workshop on Next Generation Data Mining
↑ «Anomaly detection: A survey». ACM Computing Surveys. 41. doi:10.1145/1541880.1541882
↑ «An Experiment with the Edited Nearest-Neighbor Rule». IEEE Transactions on Systems, Man, and Cybernetics. 6. doi:10.1109/TSMC.1976.4309523
↑ Smith, M. R.; Martinez, T. «Improving classification accuracy by identifying and removing instances that should be misclassified». The 2011 International Joint Conference on Neural Networks. [S.l.: s.n.] ISBN 978-1-4244-9635-8. doi:10.1109/IJCNN.2011.6033571
↑ «There and back again: Outlier detection between statistical reasoning and data mining algorithms». Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 8. ISSN 1942-4787. doi:10.1002/widm.1280
↑ «Distance-based outliers: Algorithms and applications». The VLDB Journal the International Journal on Very Large Data Bases. 8. CiteSeerX 10.1.1.43.1842 . doi:10.1007/s007780050006
↑ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (dezembro de 2008). Isolation Forest. [S.l.: s.n.] ISBN 9780769535029. doi:10.1109/ICDM.2008.17
↑ «Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection». Data Mining and Knowledge Discovery. 28. doi:10.1007/s10618-012-0300-z
↑ «Tensor-based anomaly detection: An interdisciplinary survey». Knowledge-Based Systems. 98. doi:10.1016/j.knosys.2016.01.027
↑ «A survey on unsupervised outlier detection in high-dimensional numerical data». Statistical Analysis and Data Mining. 5. doi:10.1002/sam.11161
↑ «Estimating the Support of a High-Dimensional Distribution». Neural Computation. 13. CiteSeerX 10.1.1.4.4106 . PMID 11440593. doi:10.1162/089976601750264965
↑ ^a ^b ^c Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan. «Outlier Detection Using Replicator Neural Networks». Data Warehousing and Knowledge Discovery. Col: Lecture Notes in Computer Science. 2454. [S.l.: s.n.] ISBN 978-3-540-44123-6. doi:10.1007/3-540-46145-0_17
↑ «Discovering cluster-based local outliers». Pattern Recognition Letters. 24. CiteSeerX 10.1.1.20.4242 . doi:10.1016/S0167-8655(03)00003-5
↑ «Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection». ACM Transactions on Knowledge Discovery from Data. 10. doi:10.1145/2733381
↑ Lazarevic, A.; Kumar, V. Feature bagging for outlier detection. [S.l.: s.n.] ISBN 978-1-59593-135-1. doi:10.1145/1081870.1081891
↑ «Ensembles for unsupervised outlier detection». ACM SIGKDD Explorations Newsletter. 15. doi:10.1145/2594473.2594476
↑ «On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study». Data Mining and Knowledge Discovery. 30. ISSN 1384-5810. doi:10.1007/s10618-015-0444-8
↑ Repositório de dados de referência de detecção de anomalias da Ludwig-Maximilians-Universität München ; Espelho na Universidade de São Paulo .
↑ «An Intrusion-Detection Model» (PDF). IEEE Transactions on Software Engineering. SE-13. CiteSeerX 10.1.1.102.5127 . doi:10.1109/TSE.1987.232894
↑ Teng, H. S.; Chen, K.; Lu, S. C. Adaptive real-time anomaly detection using inductively generated sequential patterns (PDF). [S.l.: s.n.] ISBN 978-0-8186-2060-7. doi:10.1109/RISP.1990.63857
↑ «Computer System Intrusion Detection: A Survey». Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802

[:0-1] Zimek, Arthur; Schubert, Erich (2017), «Outlier Detection», ISBN 9781489979933, Springer New York, Encyclopedia of Database Systems: 1–5, doi:10.1007/978-1-4899-7993-3_80719-1

[2] «A Survey of Outlier Detection Methodologies» (PDF). Artificial Intelligence Review. 22. CiteSeerX 10.1.1.318.4023 . doi:10.1007/s10462-004-4304-y

[3] «Data mining for network intrusion detection» (PDF). Proceedings NSF Workshop on Next Generation Data Mining

[ChandolaSurvey-4] «Anomaly detection: A survey». ACM Computing Surveys. 41. doi:10.1145/1541880.1541882

[5] «An Experiment with the Edited Nearest-Neighbor Rule». IEEE Transactions on Systems, Man, and Cybernetics. 6. doi:10.1109/TSMC.1976.4309523

[6] Smith, M. R.; Martinez, T. «Improving classification accuracy by identifying and removing instances that should be misclassified». The 2011 International Joint Conference on Neural Networks. [S.l.: s.n.] ISBN 978-1-4244-9635-8. doi:10.1109/IJCNN.2011.6033571

[ZimekFilzmoser2018-7] «There and back again: Outlier detection between statistical reasoning and data mining algorithms». Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 8. ISSN 1942-4787. doi:10.1002/widm.1280

[8] «Distance-based outliers: Algorithms and applications». The VLDB Journal the International Journal on Very Large Data Bases. 8. CiteSeerX 10.1.1.43.1842 . doi:10.1007/s007780050006

[9] Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (dezembro de 2008). Isolation Forest. [S.l.: s.n.] ISBN 9780769535029. doi:10.1109/ICDM.2008.17

[10] «Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection». Data Mining and Knowledge Discovery. 28. doi:10.1007/s10618-012-0300-z

[11] «Tensor-based anomaly detection: An interdisciplinary survey». Knowledge-Based Systems. 98. doi:10.1016/j.knosys.2016.01.027

[12] «A survey on unsupervised outlier detection in high-dimensional numerical data». Statistical Analysis and Data Mining. 5. doi:10.1002/sam.11161

[13] «Estimating the Support of a High-Dimensional Distribution». Neural Computation. 13. CiteSeerX 10.1.1.4.4106 . PMID 11440593. doi:10.1162/089976601750264965

[replicator-14] Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan. «Outlier Detection Using Replicator Neural Networks». Data Warehousing and Knowledge Discovery. Col: Lecture Notes in Computer Science. 2454. [S.l.: s.n.] ISBN 978-3-540-44123-6. doi:10.1007/3-540-46145-0_17

[15] «Discovering cluster-based local outliers». Pattern Recognition Letters. 24. CiteSeerX 10.1.1.20.4242 . doi:10.1016/S0167-8655(03)00003-5

[16] «Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection». ACM Transactions on Knowledge Discovery from Data. 10. doi:10.1145/2733381

[17] Lazarevic, A.; Kumar, V. Feature bagging for outlier detection. [S.l.: s.n.] ISBN 978-1-59593-135-1. doi:10.1145/1081870.1081891

[18] «Ensembles for unsupervised outlier detection». ACM SIGKDD Explorations Newsletter. 15. doi:10.1145/2594473.2594476

[CamposZimek2016-19] «On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study». Data Mining and Knowledge Discovery. 30. ISSN 1384-5810. doi:10.1007/s10618-015-0444-8

[20] Repositório de dados de referência de detecção de anomalias da Ludwig-Maximilians-Universität München ; Espelho na Universidade de São Paulo .

[21] «An Intrusion-Detection Model» (PDF). IEEE Transactions on Software Engineering. SE-13. CiteSeerX 10.1.1.102.5127 . doi:10.1109/TSE.1987.232894

[22] Teng, H. S.; Chen, K.; Lu, S. C. Adaptive real-time anomaly detection using inductively generated sequential patterns (PDF). [S.l.: s.n.] ISBN 978-0-8186-2060-7. doi:10.1109/RISP.1990.63857

[23] «Computer System Intrusion Detection: A Survey». Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX 10.1.1.24.7802

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]