Conjunt de dades de flors Iris

conjunt de dades multivariant

El conjunt de dades de flors Iris, també conegut com a conjunt de dades de Fisher és un conjunt de dades multivariant introduït per Ronald Fisher en un article seu de 1936, The use of multiple measurements in taxonomic problems (L'ús de mesures múltiples en problemes taxonòmics) com un exemple d'anàlisi discriminant lineal.[1] També se l'ha conegut com a conjunt de dades d'Anderson perquè Edgar Anderson va col·leccionar les dades per quantificar la variació morfològica de les flors de tres espècies Iris relacionades.[2] Dos de les tres espècies es van recollir a la Península de Gaspé: «totes són de la mateixa pastura, i recol·lectades el mateix dia i mesurades al mateix temps per la mateixa persona amb el mateix aparell».[3]

Diagrama de dispersió del conjunt de dades

El conjunt de dades conté 50 mostres de cadascuna de les tres espècies d'Iris (Iris setosa, Iris virginica i Iris versicolor). Es van mesurar quatre característiques de cada mostra: el llarg i l'ample del sèpal i del pètal, en centímetres. A partir de la combinació d'aquests quatre trets, Fisher va desenvolupar un model discriminant lineal per distingir entre una espècie de l'altra.

Ús del conjunt de dades

modifica
 
Resultats insatisfactoris amb mètode k-means (el conjunt de dades no fa grups fins a les classes conegudes) i les espècies de veritat visualitzades - utilitzat el programa ELKI
 
Un exemple de visualització «mapa de metro» pel conjunt de dades de les flors Iris.[4] Només una fracció petita d'Iris-virginica es barreja amb Iris-versicolor. Totes les altres mostres de les espècies diferents d'Iris es troben en nodes diferents.

Basat en el model d'anàlisi discriminant de Fisher, aquest conjunt de dades es va convertir en un cas de prova típic per a moltes tècniques classificacions estadístiques en aprenentatge automàtic com en màquines de vectors de suport.[5]

No obstant això, l'ús d'aquest conjunt de dades en algorismes d'agrupament no és comú perquè el conjunt de dades només conté dos grups amb una separació òbvia i clara. Un dels grups conté Iris setosa, mentre que l'altre conté tots, dos Iris virginica i Iris versicolor, només plenament separables per la informació de l'espècie proporcionada per Fisher. Això fa el conjunt de dades un bon exemple per explicar la diferència entre tècniques que se supervisen o no en la mineria de dades. El model d'anàlisi discriminant només es pot obtenir quan l'espècie objecte es coneix: les etiquetes de classe i els grups no són sempre el mateix.[6]

Tot i així, aquestes tres espècies es poden separar en la projecció en el component principal de brancatge no lineal.[7] El conjunt de dades s'aproxima a l'arbre més a prop amb alguna penalització pel nombre excessiu de nodes, doblegant-se i estirant-se. A partir d'això es pot construir un «mapa de metro». Es projecten els punts de dades per al node de més a prop. Per cada node es prepara un gràfic circular dels punts projectats. La zona del gràfic és proporcional al nombre de punts projectats. Es veu clar del gràfic que la major part de les mostres de les espècies diferents d'Iris són de nodes diferents; només una fracció petita d'Iris-virginica es barreja amb Iris-versicolor (la mescla de nodes blaus amb verds en el diagrama). Així les tres espècies d'Iris (Iris setosa, Iris virginica i Iris versicolor) se separen pels procediments no supervisats de l'anàlisi del component principal no alineat. Per discriminar-los és suficient seleccionar el node corresponent en l'arbre principal.

Conjunt de dades

modifica
 
Iris setosa
 
Iris versicolor
 
Iris virginica
 
Mapa espectre biplot dels conjunt de dades d'Iris
Dades de flors Iris de Fisher
Llarg del sèpal Ample del sèpal Llarg del pètal Ample del pètal Espècie
5,1 3,5 1,4 0,2 I. setosa
4,9 3,0 1,4 0,2 I. setosa
4,7 3,2 1,3 0,2 I. setosa
4,6 3,1 1,5 0,2 I. setosa
5,0 3,6 1,4 0,2 I. setosa
5,4 3,9 1,7 0,4 I. setosa
4,6 3,4 1,4 0,3 I. setosa
5,0 3,4 1,5 0,2 I. setosa
4,4 2,9 1,4 0,2 I. setosa
4,9 3,1 1,5 0,1 I. setosa
5,4 3,7 1,5 0,2 I. setosa
4,8 3,4 1,6 0,2 I. setosa
4,8 3,0 1,4 0,1 I. setosa
4,3 3,0 1,1 0,1 I. setosa
5,8 4,0 1,2 0,2 I. setosa
5,7 4,4 1,5 0,4 I. setosa
5,4 3,9 1,3 0,4 I. setosa
5,1 3,5 1,4 0,3 I. setosa
5,7 3,8 1,7 0,3 I. setosa
5,1 3,8 1,5 0,3 I. setosa
5,4 3,4 1,7 0,2 I. setosa
5,1 3,7 1,5 0,4 I. setosa
4,6 3,6 1,0 0,2 I. setosa
5,1 3,3 1,7 0,5 I. setosa
4,8 3,4 1,9 0,2 I. setosa
5,0 3,0 1,6 0,2 I. setosa
5,0 3,4 1,6 0,4 I. setosa
5,2 3,5 1,5 0,2 I. setosa
5,2 3,4 1,4 0,2 I. setosa
4,7 3,2 1,6 0,2 I. setosa
4,8 3,1 1,6 0,2 I. setosa
5,4 3,4 1,5 0,4 I. setosa
5,2 4,1 1,5 0,1 I. setosa
5,5 4,2 1,4 0,2 I. setosa
4,9 3,1 1,5 0,2 I. setosa
5,0 3,2 1,2 0,2 I. setosa
5,5 3,5 1,3 0,2 I. setosa
4,9 3,6 1,4 0,1 I. setosa
4,4 3,0 1,3 0,2 I. setosa
5,1 3,4 1,5 0,2 I. setosa
5,0 3,5 1,3 0,3 I. setosa
4,5 2,3 1,3 0,3 I. setosa
4,4 3,2 1,3 0,2 I. setosa
5,0 3,5 1,6 0,6 I. setosa
5,1 3,8 1,9 0,4 I. setosa
4,8 3,0 1,4 0,3 I. setosa
5,1 3,8 1,6 0,2 I. setosa
4,6 3,2 1,4 0,2 I. setosa
5,3 3,7 1,5 0,2 I. setosa
5,0 3,3 1,4 0,2 I. setosa
7,0 3,2 4,7 1,4 I. versicolor
6,4 3,2 4,5 1,5 I. versicolor
6,9 3,1 4,9 1,5 I. versicolor
5,5 2,3 4,0 1,3 I. versicolor
6,5 2,8 4,6 1,5 I. versicolor
5,7 2,8 4,5 1,3 I. versicolor
6,3 3,3 4,7 1,6 I. versicolor
4,9 2,4 3,3 1,0 I. versicolor
6,6 2,9 4,6 1,3 I. versicolor
5,2 2,7 3,9 1,4 I. versicolor
5,0 2,0 3,5 1,0 I. versicolor
5,9 3,0 4,2 1,5 I. versicolor
6,0 2,2 4,0 1,0 I. versicolor
6,1 2,9 4,7 1,4 I. versicolor
5,6 2,9 3,6 1,3 I. versicolor
6,7 3,1 4,4 1,4 I. versicolor
5,6 3,0 4,5 1,5 I. versicolor
5,8 2,7 4,1 1,0 I. versicolor
6,2 2,2 4,5 1,5 I. versicolor
5,6 2,5 3,9 1,1 I. versicolor
5,9 3,2 4,8 1,8 I. versicolor
6,1 2,8 4,0 1,3 I. versicolor
6,3 2,5 4,9 1,5 I. versicolor
6,1 2,8 4,7 1,2 I. versicolor
6,4 2,9 4,3 1,3 I. versicolor
6,6 3,0 4,4 1,4 I. versicolor
6,8 2,8 4,8 1,4 I. versicolor
6,7 3,0 5,0 1,7 I. versicolor
6,0 2,9 4,5 1,5 I. versicolor
5,7 2,6 3,5 1,0 I. versicolor
5,5 2,4 3,8 1,1 I. versicolor
5,5 2,4 3,7 1,0 I. versicolor
5,8 2,7 3,9 1,2 I. versicolor
6,0 2,7 5,1 1,6 I. versicolor
5,4 3,0 4,5 1,5 I. versicolor
6,0 3,4 4,5 1,6 I. versicolor
6,7 3,1 4,7 1,5 I. versicolor
6,3 2,3 4,4 1,3 I. versicolor
5,6 3,0 4,1 1,3 I. versicolor
5,5 2,5 4,0 1,3 I. versicolor
5,5 2,6 4,4 1,2 I. versicolor
6,1 3,0 4,6 1,4 I. versicolor
5,8 2,6 4,0 1,2 I. versicolor
5,0 2,3 3,3 1,0 I. versicolor
5,6 2,7 4,2 1,3 I. versicolor
5,7 3,0 4,2 1,2 I. versicolor
5,7 2,9 4,2 1,3 I. versicolor
6,2 2,9 4,3 1,3 I. versicolor
5,1 2,5 3,0 1,1 I. versicolor
5,7 2,8 4,1 1,3 I. versicolor
6,3 3,3 6,0 2,5 I. virginica
5,8 2,7 5,1 1,9 I. virginica
7,1 3,0 5,9 2,1 I. virginica
6,3 2,9 5,6 1,8 I. virginica
6,5 3,0 5,8 2,2 I. virginica
7,6 3,0 6,6 2,1 I. virginica
4,9 2,5 4,5 1,7 I. virginica
7,3 2,9 6,3 1,8 I. virginica
6,7 2,5 5,8 1,8 I. virginica
7,2 3,6 6,1 2,5 I. virginica
6,5 3,2 5,1 2,0 I. virginica
6,4 2,7 5,3 1,9 I. virginica
6,8 3,0 5,5 2,1 I. virginica
5,7 2,5 5,0 2,0 I. virginica
5,8 2,8 5,1 2,4 I. virginica
6,4 3,2 5,3 2,3 I. virginica
6,5 3,0 5,5 1,8 I. virginica
7,7 3,8 6,7 2,2 I. virginica
7,7 2,6 6,9 2,3 I. virginica
6,0 2,2 5,0 1,5 I. virginica
6,9 3,2 5,7 2,3 I. virginica
5,6 2,8 4,9 2,0 I. virginica
7,7 2,8 6,7 2,0 I. virginica
6,3 2,7 4,9 1,8 I. virginica
6,7 3,3 5,7 2,1 I. virginica
7,2 3,2 6,0 1,8 I. virginica
6,2 2,8 4,8 1,8 I. virginica
6,1 3,0 4,9 1,8 I. virginica
6,4 2,8 5,6 2,1 I. virginica
7,2 3,0 5,8 1,6 I. virginica
7,4 2,8 6,1 1,9 I. virginica
7,9 3,8 6,4 2,0 I. virginica
6,4 2,8 5,6 2,2 I. virginica
6,3 2,8 5,1 1,5 I. virginica
6,1 2,6 5,6 1,4 I. virginica
7,7 3,0 6,1 2,3 I. virginica
6,3 3,4 5,6 2,4 I. virginica
6,4 3,1 5,5 1,8 I. virginica
6,0 3,0 4,8 1,8 I. virginica
6,9 3,1 5,4 2,1 I. virginica
6,7 3,1 5,6 2,4 I. virginica
6,9 3,1 5,1 2,3 I. virginica
5,8 2,7 5,1 1,9 I. virginica
6,8 3,2 5,9 2,3 I. virginica
6,7 3,3 5,7 2,5 I. virginica
6,7 3,0 5,2 2,3 I. virginica
6,3 2,5 5,0 1,9 I. virginica
6,5 3,0 5,2 2,0 I. virginica
6,2 3,4 5,4 2,3 I. virginica
5,9 3,0 5,1 1,8 I. virginica

S'han publicat diferents versions del conjunt de dades.[8]

Referències

modifica
  1. R. A. Fisher «The use of multiple measurements in taxonomic problems». Annals of Eugenics, 7, 2, 1936, p. 179–188. Arxivat de l'original el 2011-04-12. DOI: 10.1111/j.1469-1809.1936.tb02137.x [Consulta: 22 octubre 2018].
  2. Edgar Anderson «The species problem in Iris». Annals of the Missouri Botanical Garden, 23, 3, 1936, p. 457–509.
  3. Edgar Anderson «The irises of the Gaspé Peninsula». Bulletin of the American Iris Society, 59, 1935, p. 2–5.
  4. GORBAN, ALEXANDER N.; ZINOVYEV, ANDREI «PRINCIPAL MANIFOLDS AND GRAPHS IN PRACTICE: FROM MOLECULAR BIOLOGY TO DYNAMICAL SYSTEMS» (en anglès). International Journal of Neural Systems, 20, 03, 6-2010, p. 219–232. DOI: 10.1142/s0129065710002383. ISSN: 0129-0657.
  5. «UCI Machine Learning Repository: Iris Data Set». [Consulta: 22 octubre 2018].
  6. Färber, Ines; Günnemann, Stephan; Kriegel, Hans-peter; Kröger, Peer «On Using Class-Labels in Evaluation of Clusterings» (en anglès). .
  7. Gorban, A.N.; Sumner, N.R.; Zinovyev, A.Y. «Topological grammars for data approximation». Applied Mathematics Letters, 20, 4, 4-2007, p. 382–386. DOI: 10.1016/j.aml.2006.04.022. ISSN: 0893-9659.
  8. Bezdek, J.C.; Keller, J.M.; Krishnapuram, R.; Kuncheva, L.I. «Will the real iris data please stand up?» (en anglès). IEEE Transactions on Fuzzy Systems, 7, 3, 6-1999, p. 368–369. DOI: 10.1109/91.771092. ISSN: 1063-6706.

Enllaços externs

modifica
  NODES
INTERN 1
Project 5