Data-analytiikan harjoittelu

Harjoittelun aiheet ovat data-aineiston muokkaaminen analysoitavaksi, havaintomatriisin teko ja data-aineiston tilastollinen tutkiminen. Harjoituksen jälkeen opiskelija

tunnistaa tyypilliset puutteet datassa ja tuntee keskeiset korjaustavat
osaa valita hyvälaatuisen datan analysoitavaksi
tuntee erilaiset muuttujatyypit ja niille soveltuvat mittaamisen menetelmät
oppii etäisyyden käsitteen, joka on oleellinen datapisteiden erilaisuuden ja samanlaisuuden hahmottamiseksi ja datan klusteroimiseksi.

Lataa tästä harjoituksiin liittyvät valmiit datat.

Harjoitus 1 (PDF)

Ensimmäisessä harjoituksessa tutustutaan havaintomatriisin käsittelyyn. Usein on tärkeää hakea matriisista yksittäinen rivi tai sarake joidenkin ehtojen mukaan. Toinen tärkeä yksityiskohta on faktorin käsite, joka on kätevä nominaalisten eli ryhmittelevien muuttujien käsittelyyn. Esimerkiksi sukupuoli mies/nainen voidaan faktorin avulla muuttaa numeeriseksi 1/2. Tällöin jotkin toimenpiteet yksinkertaistuvat huomattavasti. Huomaa, että suuri osa ensimmäisten harjoitusten tehtävistä voidaan tehdä jo datan hakuvaiheessa, jos se on tallennettu relaatiotietokantaan. Harjoituksessa tutustutaan myös laatikkokuvaajan (boxplot) käyttöön, jonka avulla voidaan tarkastella visuaalisesti yksittäisten muuttujien laatua. Lisäksi käytetään myös korrelaatiofunktiota, joka kertoo muuttujien yhteisvaihtelusta aineistossa. Voimakkaasti korreloivat muuttujat voidaan ajatella sellaisiksi, että ne mittaavat jossain määrin samaa asiaa. Korrelaatiorakennetta käytetään myöhemmin datan tiivistämisessä siten, että jokainen havaintoyksikkö voidaan esittää pienemmällä määrällä muuttujia. (Pääkomponenttianalyysi)

Harjoitus 2 (PDF)

Toinen harjoitus jatkaa havaintomatriisiin tutustumista. Tässä haetaan muuttujien puuttuvia arvoja sekä täydennetään niitä muiden samaan ryhmään kuuluvien tapausten ko. muuttujan keskiarvolla. Kyseessä on tyypillinen datan ”imputointi”, jossa kaikille puuttuville arvoille estimoidaan sopiva arvo. Tämä on tärkeää, koska monet analyysimenetelmät eivät pysty käsittelemään puuttuvia muuttujien arvoja. Toisaalta sellaisia menetelmiä on olemassa, jotka soveltuvat myös puuttuvalle datalle.

Harjoitus 3 (PDF)

Kolmannessa harjoituksessa tutustutaan lineaariseen- sekä logistiseen regressioon. Nämä ovat perinteisessä tilastollisessa analyysissä käytettyjä mallinnusmenetelmiä, joita käytetään laajasti monilla sovellusalueilla. Lineaarisessa regressiossa pyritään ennustamaan jotakin selitettävää numeerista arvoa, kun joukko selittäviä muuttujia tunnetaan. Fysiikasta tuttuja regressiotehtäviä on esimerkiksi vastuksen resistanssin määrittäminen, kun selitettävä muuttuja (U jännite) mitataan selittävän muuttujan (I virta) kanssa. Saaduista mittauspisteistä voidaan määrittää tutkittavan vastuksen resistanssi. Logistisessa regressiossa pyritään ennustamaan jonkin muuttujan luokkajäsenyyttä. Perustapauksessa luokkia on kaksi, luokat C1 ja C2. Esimekiksi C1 Sauli Niinistö valitaan uudestaan presidentiksi ja C2, joku muu valitaan presidentiksi. Lisäksi harjoituksessa käytetään Euklidista etäisyyttä kahden pisteen samankaltaisuuden tulkinnassa.

Lataa tästä harjoitusten 1-3 malliratkaisut.

Lataa täältä hyödyllisiä ja usein käytettyjä analytiikan funktioita R:llä toteutettuna.

Harjoittelun aihe on koneoppiminen ja ennustava analytiikka. Harjoituksen tuloksena opiskelija

osaa tunnistaa erityyppiset koneoppimisen menetelmät ohjatun ja ohjaamattoman oppimisen osa-alueilta
oppii tunnistamaan tilanteeseen soveltuvan menetelmän valitsemiseksi.

Lataa täältä koneoppimisen harjoituksiin liittyvät valmiit datat (UCI Machine Learning Repository: Birth.death, Wine, Pima Indians Diabetes).

Harjoitus 1 (PDF)

Ensimmäisessä harjoituksessa kerrataan perusanalytiikkaharjoittelun ensimmäisen ja toisen harjoituskerran asioita. Lisäksi tutustutaan ”ryvästämiseen” eli klusterointiin. Klusterointi on yksi ohjaamattoman oppimisen menetelmä, jossa tarkoituksena on selvittää muodostaako data sellaisia alueita , jossa datan osajoukot muodostavat omia ”saarekkeitaan” . Tällöin yhden saarekkeen alkiot ovat keskenään jonkin ominaisuuden mukaan samankaltaisia. Ideaalitapauksessa saarekkeet ovat selvästi erottuvia eivätkä mene toistensa kanssa päällekkäin.

Harjoitus 2 (PDF)

Toisessa harjoituksessa sovelletaan välimatkan käsitettä pisteiden samankaltaisuuteen. Lisäksi sovelletaan hierarkkista klusterointia, jossa kaksi erillistä klusteria saattaa muodostaa yhteisen klusterin jonkin uuden muuttujan suhteen.

Harjoitus 3 (PDF)

Kolmannessa harjoituksessa tutustutaan datan jakamiseen eri tarkoituksiin. Tyypillisesti koneoppimisalgoritmi opetetaan opetusdatalla, joka on alkuperäisen datan osajoukko. Opetettua algoritmia testataan testidatalla, jota ei ole käytetty opetuksessa. Näin saadaan selville, miten hyvin malli osaa yleistää oppimaansa . Kolmantena joukkona on validointijoukko, jolla voidaan tarkastella mallin ”ylisovittumista” . Ylisovittumistilanteessa malli oppii hyvin opetusjoukkonsa ominaisuudet, mutta sen yleistämiskyky heikkenee. Tämä voidaan huomata siitä, että validointijoukon testitulokset alkavat heikentyä.

Lataa tästä harjoitusten 1-3 malliratkaisut.

Täältä löydät hyödyllisiä työkaluja klusteroinnin tekemiseen R:n avulla.

Harjoitteluympäristön luonti

Kiinnostuitko?

Seuraa meitä myös somessa