Tietotekniikka

Doing Data Science – Data Science on datan soveltamista käytäntöön

Kirja-arvio.

Doing Data Science on yliopistokurssin pohjalta kirjoitettu kirja, jossa useat henkilöt kertovat data science teeman alta hyvin erilaisista näkökulmista.

Kirjassa oli joitakin koodiharjoituksia, mutta kirja toimii erinomaisesti ilman niitäkin. Jotkin osiot ovatkin hyvin teknisiä selityksiä esimerkiksi logistisesta regressiosta. Iso osa kirjasta on kuitenkin käytännönläheistä helposti omaksuttavaa asiaa.

Suosittelen tätä, jos data science ei ole vielä niin tuttua, tai haluat ammentaa lisää käytännön sovelluksiin liittyvää tietämystä.

Kirjan ovat kirjoittaneet Cathy O’Neil and Rachel Schutt.

Kirjan hankkiminen

Kirjan tai äänikirjan voi hankkia esimerkiksi Amazonista täältä.

Data Science vaikuttaa tuleviin tapahtumiin

Toisin kuin tilastotieteessä, data science mallit vaikuttavat takaisin todelliseen maailmaan. Esimerkiksi suosittelukone (data science) vaikuttaa käyttäjien valintoihin mutta sääennuste (tilastotiede) ei vaikuta säähän. Tästä seuraa myös se, että data science ei vain ennusta tulevaisuutta, vaan myös aiheuttaa sitä.

Data scienctist on yhteistyökykyinen moniosaaja

Isoin oppini kirjasta olikin se, että data science ei ole pelkkiä algoritmeja.

Olen töissäni pohtinut onko tuotantotalouden opintotaustani muutamalla insinööri- ja tilastomatematiikan kurssilla riittävä data scientist tittelillä työskentelyyn. Tuntuu, että usein data scientistiä pidetään synonyymina tilastotieteilijälle.

Kirjassa eräs Googlen data scientist toteaa vähättelevään sävyyn hänen tilastotieteen tutkintonsa olleen vain osittain rooliin soveltuva, koska todellisuus on niin paljon opintoja monimuotoisempaa. Toteamus karisti itsetunto-ongelmani hetkessä – datatieteilijänä toimiminen ei vaadi mitään tiettyä taustaa. Itselläni kova matematiikka ja tilastotiede vain korostuvat vähemmän, mutta ihan hyvä pohja niihinkin on.

Googlen tiimistäkin mainitaan, että kukaan ei ole mestari yksin, vaan tiimin suorituskyky muodostuu erilaisista osaamisista. Monessa kohtaa käydään kirjassa vaikuttaneiden henkilöiden data science profiileja läpi. Data science profiiliin kuuluivat seuraavat osa-alueet:

  • Tietotekniikka
  • Matematiikka
  • Tilastotiede
  • Koneoppiminen
  • Toimialatuntemus
  • Viestintä- ja esiintymistaidot
  • Data visualisointi

Eräs määritelmä data scientistille oli: Henkilö, joka osaa kirjoittaa koodia paremmin kuin yksikään tilastotieteilijä, ja tietää tilastoista enemmän kuin yksikään koodaaja.

Käytännön ohjeita data scientisille

Kirjoitetun koodin on oltava luettavaa, koska hyvin todennäköisesti joku muukin tulee muokkamaan tekelettäsi. Itsekin olen päässyt maistamaan toisen kirjoittaman satojen rivien R-skriptin muokkaamista omassa työssäni. Kokemukseni perusteella esimerkiksi sellainen perusasia kuin skriptin jakaminen pienempiin funktioihin säästäisi ylläpitovaiheessa sekä omaa että muiden aikaa merkittävästi.

Tiedon jakaminen ja ymmärrettävien ratkaisujen tekeminen ei ole hyve vain data scientistin työssä. Jos tieto pysyy ainoastaan oman pääsi sisällä, tekemäsi ratkaisut eivät voi skaalautua yhden ihmisen työpanosta suuremmiksi.

Algoritmien kanssa on syytä käyttää harkintaa, mikäli kyseessä on niin sanottu musta laatikko. Musta laatikko tarkoittaa, että algoritmin tekemää laskentaa on hyvin vaikeaa tai lähes mahdotonta ymmärtää tai selittää, vaikka se saattaisi toimia hyvällä tarkkuudella. Joissakin tapauksissa ennustemallin ymmärtäminen voi olla paljon tärkeämpää kuin mallin tarkkuus.

Hyviin tuloksiin pääseminen edellyttää useiden menetelmien kokeilua. Ongelmaa tulisi lähestyä aina parhaan ratkaisun näkökulmsta, eikä olemassa olevien koodikirjastojen.

Joku totesti kirjassa data sciencen olevan 90% data engineer työtä, eli datan siivoamista ja yhdistämistä eri järjestelmistä. Allekirjoitan väitteen, sillä laadukas data on analytiikan edellytys.

Mielenkiintoisia data science sovellusaloja

Yksi luku oli omistettu kokonaan verkostojen analysoinnille. Luvussa esitellään erilaisia Facebookista ja Twitteristäkin löytyviä verkostoista laskettavia tunnuslukuja.

Myös data journalisimi mainitaan eräänä data science sovelluskohteena. Käytännössä se tarkoittaa tarinan kerrontaa faktojen ja visualisointien avulla.

Eräs treffisivusto puolestaan oli tehnyt laskelmia, mitkä viesteissä mainitut sanat todennäköisimmin johtavat treffeille päätymiseen.

Jätä kommentti