Analís de componentes principales

En estadística, el analís de componentes principales (n'español ACP, n'inglés, PCA) ye una téunica utilizada pa describir un set de datos en términos de nueves variables ("componentes") non correlacionadas. Los componentes ordenar pola cantidá de varianza orixinal que describen, polo que la téunica ye útil p'amenorgar la dimensionalidad d'un conxuntu de datos.

ACP d'una distribución normal multivariante centrada en (1,3) con esviación estándar 3 na direición averada (0,866, 0,5) y esviación estándar 1 na direición perpendicular a l'anterior. Los vectores amuesen los autovectores de la matriz de correllación esguilaos por aciu el raigañu cuadráu del correspondiente autovalor, y movíos por que'l so orixe coincidan cola media estadística.

Téunicamente, el ACP busca la proyeición según la cual los datos queden meyor representaos en términos de mínimos cuadraos. Esta convierte un conxuntu d'observaciones de variables posiblemente correlacionadas nun conxuntu de valores de variables ensin correllación llinial llamaes componentes principales.

El ACP emplégase sobremanera en analís exploratorio de datos y pa construyir modelos predictivos. El ACP porta'l cálculu de la descomposición en autovalores de la matriz de covarianza, de normal en centrando los datos na media de cada atributu.

Tien De estremase del analís factorial col que tien similaridades formales y nel cual puede ser utilizáu como un métodu de aproximamientu pa la estracción de factores.

Enconto

editar

El ACP constrúi un tresformamientu llinial qu'escueye un nuevu sistema de coordenaes pal conxuntu orixinal de datos nel cual la varianza de mayor tamañu del conxuntu de datos ye prindada na primer exa (llamáu'l Primer Componente Principal), la segunda varianza más grande ye la segunda exa, y asina socesivamente. Pa construyir esti tresformamientu llinial tien de construyise primero la matriz de covarianza o matriz de coeficientes de correllación. Por cuenta de la simetría d'esta matriz esiste una base completa de vectores propios de la mesma. El tresformamientu que lleva de les antigües coordenaes a les coordenaes de la nueva base ye precisamente'l tresformamientu llinial necesaria p'amenorgar la dimensionalidad de datos. Amás les coordenaes na nueva base dan la composición en factores subxacentes de los datos iniciales.

El ACP ye particularmente preséu p'amenorgar la dimensionalidad d'un grupu de datos. Los primeros componentes principales describen la mayor parte de la varianza de los datos (más cuanto más correlacionadas tuvieren les variables orixinales). Estos componentes de baxu orde dacuando contienen l'aspeutu "más importante" de la información, y los demás componentes pueden inorase. Esisten distintes téuniques pa envalorar el númberu de componentes principales que son relevantes; la téunica más apropiada va depender de la estructura de correllaciones nos datos orixinales.[1]

Matemátiques del ACP

editar

Supongamos qu'esiste una muestra con n individuos pa cada unu de los cualos midiéronse m variables (aleatories)   El ACP dexa atopar un númberu de factores subxacentes p < m qu'espliquen aproximao'l valor de les m variables pa cada individuu. El fechu de qu'esistan estos p factores subxacentes puede interpretase como un amenorgamientu de la dimensionalidad de los datos: onde antes necesitabamos m valores pa carauterizar a cada individuu agora bastar p valores. Cada unu de los p atopaos llámase componente principal, d'ende'l nome del métodu.

Esisten dos formes básiques d'aplicar el ACP:

  1. Métodu basáu na matriz de correllación, cuando los datos nun son dimensionalmente homoxéneos o l'orde de magnitú de les variables aleatories midíes nun ye'l mesmu.
  2. Métodu basáu na matriz de covarianzas, que s'usa cuando los datos son dimensionalmente homoxéneos y presenten valores medios similares.

Métodu basáu en correllaciones

editar

El métodu parte de la matriz de correllaciones, consideremos el valor de caúna de les m variables aleatories  . Pa cada unu de los n individuos tomemos el valor d'estes variables y escribamos el conxuntu de datos en forma de matriz:

 .

Reparar que cada conxuntu :  puede considerase una muestra aleatoria pa la variable  . A partir de los   datos correspondientes a les m variables aleatories, puede construyise la matriz de correllación muestral, que vien definida por:

 

Puesto que la matriz de correllaciones ye simétrica entós resulta diagonalizable y les sos valores propios   verifiquen:

 

Por cuenta de la propiedá anterior estos m valores propios reciben el nome de pesos de cada unu de los m componentes principales. Los factores principales identificaos matemáticamente representar pola base de vectores propios de la matriz  . Ta claro que caúna de les variables puede ser espresada como combinación llinial de los vectores propios o componentes principales.

Métodu basáu nes covarianzas

editar

L'oxetivu ye tresformar un conxuntu dau de datos X de dimensión n x m a otru conxuntu de datos Y de menor dimensión n x l cola menor perdida d'información útil posible utilizando pa ello la matriz de covarianza.

Partir d'un conxuntu n de muestres caúna de les cuales tien m variables que les describen y l'oxetivu ye que, caúna d'eses muestres, describir con solu I variables, onde l < m. Amás, el númberu de componentes principales l tien que ser inferior a la menor de les dimensiones de X.

 

Los datos pal analís tienen que tar centraos a media 0 (restándo-yos la media de cada columna) y/o autoescalados(centraos a media 0 y estremando cada columna pola so esviación estándar).

 

Los vectores   son conocíos como scores y contienen la información de cómo les muestres tán rellacionaes unes con otres amás, tienen la propiedá de ser ortogonales. Los vectores   llámense loadings ya informen de la rellación esistente ente les variables y tienen la cualidá de ser ortonormales. Al coyer menos componentes principales que variables y debíu al error d'axuste del modelu colos datos, produzse un error que s'atropa na matriz  .

El PCA basar na descomposición en vectores propios de la matriz de covarianza. La cual calcúlase cola siguiente ecuación:

 
 
 

Onde   ye'l valor propiu acomuñáu al vector propiu  . A lo último,

 

Esta ecuación poder entender como que   son les proyeiciones de X en  , onde los valores propios   miden la cantidá de varianza prindada, esto ye, la información que representen cada unu de los componentes principales. La cantidá d'información que prinda cada componente principal va menguando según el so númberu esto ye, el componente principal númberu unu representa más información que'l dos y asina socesivamente.

Llimitaciones

editar

L'aplicación del ACP ta llindada por dellos supuestos[2]

  • Camientu de linealidad: Asumir que los datos reparaos son combinación llinial d'una cierta base.
  • Importancia estadística de la media y la covarianza: el ACP utiliza los vectores propios de la matriz de covarianzas y namái atopa les direiciones d'exes nel espaciu de variables considerando que los datos distribuyir de manera gaussiana.

Exemplos

editar
  • Un set de datos puede describir l'altor y el pesu de 100 neños ente 2 y 15 años. Dambes variables tán, obviamente, correlacionadas (los neños de más edá son más altos y pesen más). L'analís de componentes principales describe los datos en términos de dos nueves variables. El primer componente puede interpretase como "tamañu" o "edá" y recueye la mayor parte de la varianza de los datos orixinales. El segundu componente describe variabilidá nos datos que nun ta correlacionada n'absolutu col primer componente principal "tamañu", y (probablemente) seya malo d'interpretar. Si l'oxetivu ye amenorgar la dimensionalidad de los datos, puede refugase esti segundu componente principal. Lo mesmo aplica si'l set de datos contién un númberu mayor de variables que pueden interpretase como midíes averaes de "tamañu". Por casu, llargor del fémur, llargor de los brazos, pesu, altor, etc. Un set de datos d'esti tipu podría describise xeneralmente con un únicu componente principal que podría interpretase como "tamañu" o "edá".
  • Un analís consideró les calificaciones escolares n = 15 estudiantes en m = materies (llingua, matemátiques, física, inglés, filosofía, historia, química, ximnasia). Los dos primeros componentes principales esplicaben xuntos el 82,1% de la varianza. El primer d'ellos paecía fuertemente correlacionado coles materies d'humanidaes (llingua, inglés, filosofía, historia) ente que'l segundu apaecía rellacionáu coles materies de ciencies (matemátiques, física, química). Asina paez qu'esiste un conxuntu d'habilidaes cognitives rellacionaes coles humanidaes y un segundu rellacionáu coles ciencies, estos dos conxuntos d'habilidaes son estadísticamente independientes polo qu'un alumnu puede puntuar alto en namái unu d'ellos, nos dos o en nengunu.[3]
  • Un analís de 11 indicadores socieconómicos de 96 países, reveló que los resultaos podíen esplicase n'alto grau a partir de namái dos componentes principales, el primeru d'ellos tenía que ver col nivel de PIB total del país y el segundu col índiz de ruralidad.[4]

Referencies

editar
  1. Peres-Neto, Pedro R.; Jackson, Donald A.; Somers, Keith M.. «How many principal components? stopping rules for determining the number of non-trivial axes revisited». Computational Statistics & Data Analysis 49 (4):  páxs. 974–997. doi:10.1016/j.csda.2004.06.015. https://doi.org/10.1016/j.csda.2004.06.015. Consultáu'l 2018-04-22. 
  2. Jonathon Shlens.A Tutorial on Principal Component Analysis.
  3. «Exemplos de PCA (www.uoc.edu)». Archiváu dende l'orixinal, el 2009-12-29.
  4. Universidá Carlos III de Madrid

Enllaces esternos

editar



  NODES
INTERN 1