Data-analyysi

eri metodit ja lähestymistavat, joilla käsitellä saatavilla olevaa dataa

Data-analyysi kattaa erityyppisiä menetelmiä ja lähestymistapoja, joita yhdistää pyrkimys muodostaa eri tavoin kerätystä tiedosta (data) kiinnostavaa korkeamman tason informaatiota ja malleja, jotka puolestaan mahdollistavat erilaisten hyödyllisten johtopäätösten tekemisen. Tilastotieteessä data-analyysi linkittyy mm. datan keräämiseen, sen sisältävien muuttujien muokkaamisen ja datan visuaaliseen tarkasteluun sekä erilaisten todennäköisyysmallien rakentamiseen.

Klassinen data-analyysi nojaa tutkijan ennakko-olettamuksiin kohteena olevan ilmiön luonteesta ja pyrkii varmistamaan vastaako ilmiöstä kerätty tieto ilmiöstä oletettua mallia. Se nojaa tilastollisen mallittamisen menetelmiin.

Eksploratiivinen data-analyysi tekee niukemmin oletuksia kohdeilmiöstä. Siinä ilmiötä kuvaava malli muodostetaan osana analyysiprosessia esimerkiksi informaatioteoreettisten menetelmien ja argumenttien avulla.

Bayesilainen data-analyysi on laskennallinen menetelmä, joka mahdollistaa ilmiötä kuvaavan asiantuntijatiedon ja sen epävarmuuden sisällyttämisen analyysin tuloksena syntyvän mallin rakenteeseen ns. priorijakaumien avulla.

Kvalitatiivinen data-analyysi perustuu ilmiötä käsittelevään laadulliseen tietoon, jota ei välttämättä ole saatettu numeeriseen asuun.

Tiedonlouhinta (data mining) pyrkii etsimään ilmiöön liittyvästä datasta (esimerkiksi laajasta tietokannasta) kiinnostavia säännönmukaisuuksia.

Data-analyysin eri vaiheet

muokkaa

Data-analyysi voidaan jakaa neljään eri vaiheeseen:[1]

Valmistelu

muokkaa
  • suunnittelu
  • datan kerääminen
  • datan valinta

Esikäsittely

muokkaa
  • puhdistus
  • suodatus
  • täydentäminen
  • korjaus
  • standardointi
  • muuntaminen

Dataa tarvitsee usein esikäsitellä ennen varsinaista analyysiä. Se voi sisältää puuttuvia havaintoja tai virheitä. Se voi vaatia myös skaalausta tai muunnoksia (esim. neliöjuuri tai logaritmi) muuttujille tai voi olla, että sitä täytyy kerätä useasta riippumattomasta lähteestä. Outlierien täytyy huomioida ja poistaa tai korjata, mikäli mahdollista. Puuttuvat havainnot voidaan imputoida käyttäen moni-imputointia.

Analyysi

muokkaa

Datan visuaalinen tarkastelu on usein tehokasta analyysiä. Aineiston kiinnostavista muuttujista saa hyvän kuvan piirtämällä hajontakuvion. Piirtämällä histogrammi voidaan tarkastella muuttujan jakaumaa. Usean muuttujan välisiä keskinäisiä riippuvuuksia voidaan tarkastella mm. korrelaatiolla ja regressiolla. 

Bayesilaisessä tilastotieteessä analyysin kohteena on parametriavaruus, sillä havaintoavaruus pidetään tunnettuna ja kiinteänä. Siinä sovitetaan todennäköisyysmalli dataan ja lasketaan saadun posteriorijakauman perusteella todennäköisyyksiä.[2] Posteriorijakauman avulla voidaan myös mm. ennustaa tulevia havaintoja. Bayesilaisessa tilastotieteessä pääosassa on Bayesin kaava.

Jälkikäsittely

muokkaa
  • tulkinta
  • dokumentointi
  • arviointi

Data analyysin käyttö eri aloilla

muokkaa
  • Teollisen prosessin data: suuri määrä tietoa kerätään, tallennetaan ja prosessoidaan tarkoituksena automatisoida ja kontrolloida teollista tuotantoa, jakelua ja varastointia. Päätarkoitus data-analyysille on optimoida prosesseja ja parantaa yrityksen kilpailukykyä.
  • Yrityksissä: yritystoiminnan dataa analysoidaan liiketoiminnan paremman ymmärryksen ja ohjauksen toivossa. Analysoinnin alueita ovat mm. asiakkaat, myynti, markkinointi, hinnoittelu ja riskienotto. Esimerkkinä kauppakassi-analyysi, jossa selvitetään mitä tuotteita asiakkaat ostavat samanaikaisesti. Sen avulla pyritään parantamaan niiden tuotteiden yhteismyyntiä ja näin ollen kasvattamaan kokonaismyyntiä.
  • Teksti- ja rakennedata: nykyaikana tärkeitä informaation lähteitä ovat mm. tekstitiedostot, sähköiset viestit (sähköposti), internetistä löytyvät dokumentit ja verkkoon perustuvat datakannat (ns. syvä web, engl. deep web). Teksti- ja rakennedatan analyysi auttaa informaation suodattamisessa, etsimisessä ja louhimisessa.
  • Kuva-data: useat kuvaamisvälineet älypuhelinten kameroista satelliittien kameroihin käyttävät 2D tai 3D kuva-dataa. Sen avulla voidaan etsiä ja tunnistaa esineitä, analysoida ja luokitella paikkoja ja yhdistää kuva-dataa muihin informaation lähteisiin.
  • Biolääketieteellinen data: laboratoriokokeista saatavaa dataa käytetään analysoimaan, ymmärtämään ja hyödyntämään biologisia prosesseja. Biolääketieteellistä dataa käytetään esim. DNA-sekvenssien, geenien ja proteiinien ilmenemisen analysoimiseen tai säätelyverkostojen mallintamiseen.

[1]

Ohjelmia data-analyysin tekemiseen

muokkaa

Suosittuja ilmaisia ja avoimen lähdekoodin ohjelmia ovat R, Rapid Miner ja WEKA.

Maksullisia ohjelmia ovat MATLAB, SPSS, SAS, STATISTICA ja jBEAM.

Lähteet

muokkaa
  1. a b Runkler T.A.: Data Analytics: Models and Algorithms for Intelligent Data Analysis. Springer Vieweg, 2012.
  2. Gelman Andrew, Carlin John B., Stern Hal S. & Rubin Donald B.: Bayesian Data Analysis. Chapman & Hall/CRC, 1995.

Aiheesta muualla

muokkaa
  NODES
INTERN 1