Työ

Arki Solitalla – Tällaista on ollut työ Data Scientistina

Solitan Datalytics-akatemian scrum koulutus. Scurmin käyttöä havainnollistettiin harjoituksessa, jossa rakennettiin Lego-kaupunki.

Huom! Täältä löytyy 24.11.2018 julkaisemani tuoreempi kirjoitus nykyisistä työtehtävistäni.

Pääkuva otettu Solitan uusille työntekijöille järjestetyssä scrum koulutuksessa toukokuussa. Meikäläinen kuvassa kolmas oikealta.

Idea tämän blogin kirjoittamiseen on muhinut pöytälaatikossa jo puolen vuoden ajan – yhtä kauan kuin olen nykyisessä työpaikassani Solitassa kerennyt työskennellä. Alkuperäisenä tarkoituksenani oli kirjoittaa kokemuksiani ensimmäisestä viikostani uudessa työpaikassa.

Viikko meni ja monet asiat olivat edelleen avoinna. Seuraavaksi ajattelin, että olisin kertonut ensimmäisen kuukauden kokemuksistani. Halusin odottaa, että toimenkuva hieman selkeytyy.

Mutta vieläkään minulla ei ole selkeää titteliä tai mitään yhtä punaista lankaa, jonka ympärillä arki pyörisi. Yhdistävä tekijä on data. Käytän tarvittaessa data scientist titteliä, koska se on ainakin kuvaampi kuin data äijä. Titteli blogin otiskossa voisi olla melkein mitä vain: it-konsulttidata engineer tai vastaava.

Data Science on tilastotieteen, tietotekniikan ja toimialaosaamisen yhdistämistä päätelmien tekemiseksi datasta.

Kun töissä tarkastelee yksittäistä ajan hetkeä, aina on tekemättömiä tehtäviä. Tuntuu, että mikään ei ole valmista. Kun katsoo yksittäistä viikkoa mikään projekti ei ole alkanut tai loppunut. Kaikki vaikuttaa olevan ennallaan.  Kun tarkastelee kuukauden tapahtumia, ei välttämättä vieläkään huomaa muutosta.

Myrskyn silmässä ei tuule. Kun katsoo taakseen puolen vuoden jälkeen, huomaa olleensa koko ajan tasaisesti etenvän hurrikaanin keskipisteessä.

Ensimmäinen kuukausi

Aloitin Solitalla helmikuun lopussa Datalytics-akatemiaksi ristityssä perehdytysohjelmassa, johon otettiin sisään kymmenkunta työuran alkupuolta taivaltavaa junioria.

Muistaakseni jo ensimmäisenä päivänäni sain kuulla, että akatemia lykkääntyy kuukaudella, sillä osa ohjelmassa aloittavista pääsisi aloittamaan vasta myöhemmin. En oikein missään vaiheessa saanut tarkkaa suunnitelmaa ensimmäisille viidelle viikolleni. Solitalla uusien työntekijöiden perehdytys onkin vaihtelevaa: Osa hyppää suoraan projektiin ja osalla on pitkäkin aika ennen tositoimiin ryhtymistä.

Sain ohjeiksi haastatella kokeneempia solitalaisia heidän toimenkuvastaan. Tapaamisten varaaminen edellytti samalla sisäisiin järjestelmiin perehtymistä: Sähköposti, kalenteri, neuvotteluhuoneiden varaaminen, junaliput, matkalaskut, tuntikirjaukset ja niin edelleen.

Tapaamisten ohella jäi tyhjää aikaa, mutta pitkäveteisyys ei koitunut ongelmaksi.

Katselin opetusvideoita ja opettelin eri teknologioiden perusteita. Tutuksi tulivat raportointiohjelma Tableau, pilvipalveluihin infrastruktuuria tarjoava Amazon Web Services (AWS), käyttöliittymien toteutukseen käytetty React ja tilastollisissa analyyseissa käytettävä R.

Samalla aloittelin hiljalleen diplomityön kirjoittamista.

Ensimmäisten päivieni aikana yllätyin siitä, kuinka samanlaista ”isossa” firmassa monet asiat oli verrattuna yrittäjänä toimimiseen. Useimpiin tilanteiisin ei ole valmista ratkaisua. Tuntikirjauspaikkojen ja laskutusten pähkäily on yhtä hankalaa. Joudut myymään ajatuksiasi ja osaamistasi niin asiakkaille kuin kollegoillekin.

Datalytics-akatemia

Datalytics-akatemiana tunnettu perehdytysohjelma kesti kuusi viikkoa: huhtikuusta toukokuuhun. Tarkoituksena oli leipoa uusista solitalaisia data-osaajia.

Vaikka akatemiassa painotuttiin dataan liittyviin teemoihin, se oli todella kattava kokonaispaketti koko Solitan toimintaan. Aluksi vähän ihmettelin, että tarvitseeko käydä niin monta eri asiaa läpi pintapuolisesti. Mutta myöhemmin olen saanut huomata, että akatemian käyneet ovat välillä konkareitakin paremmin perillä yrityksen tarjoamista palveluista kokonaisuutena.

Tältä Datalytics-akatemian runko näytti:

AiheTarkennus
AgileProjektien toteuttaminen ketterillä menetelmillä. Esimerkiksi Scrum.
TietomallinnusMiten data kannattaa jäsennellä tietokantaan. Esim dimensionaalinen mallinus ja data vault.
SQLStructured Query Language. Tietojen kyseleminen tietokannasta.
TableauOhjelmisto datan visualisointiin ja raportointiin. Sekä työpöytäohjelmana että pilvipohjaisena.
ETLExctract > Transform > Load. Prosessi datan viemiseksi järjestelmistä tietovarastoon. Työkaluna Talend.
Datan visualisointiRaporttien visuaalinen suunnittelu.
Master dataDatan säilöminen keskitetysti yhteen paikkaan.
Data governanceDatan hallinta yleisellä tasolla.
BirstPilvipohjainen raportointiohjelmisto. Tarjoaa mahdollisuuden myös datan mallintamiseen.
Data ScienceSyy-yhteyksien etsimistä datasta. Työkaluna R.
PalvelumuotoiluPalveluiden ideointia, kehittämistä ja
suunnittelua.
SuunnitteluratkaisutYrityksen talouden seuraaminen, budjetointi.
JedoxErityisen hyvin Excelin kanssa pelittävä ohjelmisto liiketoiminnan suunnitteluun.
IntegraatiotDatan kulkeminen järjestelmien välillä. Esimerkiksi Mule.
PilviPilvipalveluiden skaalaaminen, hallinta ja valvonta palveluna asiakkaalle.
MyyntiRatkaisujen esittely asiakkaalle.
OhjelmistokehitysParhaita käytäntöjä esimerkiksi jatkuvasta toimittamisesta.
AWSAmazon Web Services. Palvelin infrastruktuurin skaalaaminen ja automatisointi.

 

Koulutuspäiviä oli keskimäärin kolme viikossa ja yhteen päivään sisältyi yksi tai kaksi aihettta. Datalytics-akatemiaan kuului myös harjoitustyö, jossa simuloitiin pienimuotoista raportointiprojektia. Koulutusten ohella aika menikin harjoitustyön tekemiseen ja diplomityön kirjoittamiseen.

Koulutukset järjestettiin puoliksi Helsingin ja puoliksi Tampereen toimistolla. Reissaamista pääkaupunkiseudulle tulikin lähes viikoittain. Tilanne ei tosin poikkea normaalista arjesta. Keskimäärin Helsingin reissuja on ollut kerran viikossa. Muistelen kuulleeni, että jollakin mittarilla Solita tekee suomalaisista yrityksistä eniten junamatkoja.

Muut akatemiaan osallistuneet tulivat hyvin tutuiksi. Vapaa ajalla ollaan käyty lyömässä tennistä ja tarvittaessa majoitimme toisiamme, jos Tampereella tai Helsingissä oli kaksi peräkkäistä koulutuspäivää.

Akatemia huipentui keväällä Sappeella järjestettyyn analytiikka- ja pilviyksiköiden ”aktiviteettipäivään”. Kuvamateriaalia on vähän ja sekin julkaisukelvotonta tällä palstalla.

Ensimmäinen projekti: Tietovarasto julkisen sektorin asiakkaalle

Ensimmäiseksi asiakasprojektiksi touko-kesäkuun vaihteessa osoitettiin julkishallinnon organisaatiolle toteutettava tietovarasto. Tietovarasto oli jo aloittaessani osittain käytössä ja siihen liittyy myös paljon muita järjestelmäuudistuksia.

Projekti osoittautui epäkiitolliseksi muutamastakin syystä. Ensinnäkään se ei ollut luonteeltaan ihan sellainen mitä olin toivonut, sillä kiikarissa oli ollut enemmän datan analysointi eli data science-projektit. Toisekseen toteutus on edennyt hidastempoisesti. Se ei ole varsinaisesti kenenkään syy, sillä toteutukseen osallistuu useita eri tahoja ja asioista sopiminen vie paljon aikaa. Ymmärrän tietysti senkin, että vaikka toiveita kuunnellaan, projektitiimien mudostaminen on vaativa palapeli.

Blogin alussa sanoin, että ei ole tullut sellaista valmiiksi saamisen tunnetta. Esimerkiksi tämän projektin osalta on vaikea määritellä tarkkaa valmistumishetkeä, kun kehitystarpeita tulee jatkuvasti lisää ja pienemmät osakokonaisuudet valmistuvat eri aikoihin.

Käytännössä iso osa ajasta on kulunut asioiden selvittämiseen ja vastausten odotteluun. Tehtävälistalla osa asioista on pitemmällä aikavälillä toteutettavia ja välillä sinne tulee äkillisiä yllätyksiä: Asiakas esimerkiksi tarvitsee raporteille dataa, joka ei vielä tule tietovarastoon.

Usein pienen tehtävän suorittaminen edellyttää tuntien tai päivien selvitystyön: Mitä asiakas itseasiassa tarvitsee, miten kiireellinen tehtävä on, milloin kukakin kerkeää tekemään ja mitä, tarvitaanko jotain käyttäjäoikeuksia ja niin edelleen. Tekninen toteutus voi lopulta olla vain yhden SQL-komennon ajaminen.

Projektissa tietovarasto on rakennettu Microsoft SQL Serverille ja mallinnettu data vault-menetelmällä.

Data Science-projektit

Tietovarastoprojektin ohella olen ollut mukana sekalaisesti monissakin eri projekteissa. Kenties mielenkiintoisin on liittynyt suunnilleen nyrkin kokoisisten ilman lämpötilaa ja kosteutta mittaavien sensoreiden datan analysointiin. Tarkoituksena on vertailla asiakkaalle erilaisia sensoreita, viedä data sensoreista tietokantaan ja katsoa, mitä datasta saadaan irti.

Jos luulit, että data science tarkoittaa oikean koneoppimisalgoritmin valintaa ja regressiomenetelmien vertailua, olet väärässä ainakin tämän projektin osalta.

Tärkeimmät havainnot sensoreiden testaamisessa ovat liittyneet signaalin vahvuuteen ja laitteen asetteluun rakennuksen sisällä. Välillä olen kulkenut ympäri toimistoa ruuvailemassa osia irti huonekaluista ja kodinkoneista, että saisin sensorin asetettua sopivaan paikkaan.

Toki olen talonmiehen hommien lisäksi tehnyt teknistäkin puolta. Sensoritestauksessa olen käyttänyt datan analysointiin ja kuvaajien luomiseen Pythonin data science-kirjastoja ja luonut niistä visuaalisesti miellyttäviä selaimessa katseltavia html-tiedostoja. Pythonia yleisemmin datan analysointiin käytetään meillä kuitenkin R-kieltä.

Olen ollut pariin otteeseen myös mukana tekemässä tarjousta asiakkaan Data Science-projektiin. Yhdessä tarjouksessa kyse oli asiakaspoistuman ennustamisesta kertaluonteisesti. Homma kaatui siihen, että asiakas olisi halunnut pienemmän työmääräarvion. Emme nähneet sitä realistisena annetuilla vaatimuksilla.

Toisessa tapauksessa tarjous koski kuljettajille tarkoitettua seurantanäkymää, josta voisi seurata ajoneuvon energiakulutusta ja hyödyntää kulutuksen minimoinnissa algoritmin laskemia ohjeita. Oma roolini oli tehdä tarjoukseen kaaviokuva teknisestä toteutuksesta ja hahmotella toimintasuunnitelmaa. Jätimme lopullisen tarjouksen tekemättä projektiin, koska tilaaja edellytti sanktion uhalla tuloksia, joita oli mahdotonta luvata etukäteen.

Seuraavaksi: Kokemuksia työelämästä

Tällaista arki on ollut Solitan datahommissa. Paljon teknologiaa ja avoimia kysymyksiä, mutta niin se on nykyään kaikessa työssä.

Seuraavaksi tarkoituksena on kirjoittaa kokemuksistani työelämässä. Eli millaisia ajatuksia ensimmäinen vakityö on herättänyt, mikä työelämässä on vinossa ja miten näen oman tulevaisuuteni työn osalta.

2 thoughts on “Arki Solitalla – Tällaista on ollut työ Data Scientistina

  1. ”Projekti osoittautui epäkiitolliseksi muutamastakin syystä. Ensinnäkään se ei ollut luonteeltaan ihan sellainen mitä olin toivonut, sillä kiikarissa oli ollut enemmän datan analysointi eli data science-projektit. ”

    Minkä verran yleisesti olet päätynyt näihin projekteihin, missä tekeminen on ollut muuta kuin, mitä sinulla on ollut tähtäimessä? Ja minkälaisia fiiliksiä jättänyt jälkikäteen? Onko datan analysointi kuitenkin edelleen ns. prio1?

    PS. Kiva lueskella, kun kerrankin ihminen avoimesti omalla nimellään kirjoittaa auki työelämästään.

    1. Sanoisin, että kun yhdistetään konsultointimaailma ja suhteellisen uusi dataliiketoiminta, niin kaikkia tehtäviä ei yksinkertaisesti voi valita. Joko tehtävät eivät ole projektien alkaessa ihan nappiin tai projektin luonne tai oma rooli voi muuttua projektin edetessä. Nyt mulla on alla kolme pidempää projektia ja useita pienempiä, joten sanoisin osumatarkkuuden olleen noissa isommissa ihan ok: Yksi täysi huti, yksi ihan ok ja kolmas osui käynnistysvaikeuksien jälkeen tosi hyvin maaliin.

      Myös oma kiinnostus on muuttunut reilun vuoden Solita-uran aikana enemmän siihen suuntaan, että perus koodauksesta ja järjestelmien rakentamisestakin on tullut ihan hauskaa puuhaa analytiikan ohella. Tuota järjestelmien rakentamista ainakin meillä iso osa data scientistin työstäkin on, koska pelkkien teorioiden sijaan me tehdään ihan oikeita käytännön sovelluksia.

      Eli tietyllä tavalla olen joutunut antamaan jonkin verran periksi työelämän realiteeteille, mutta samalla oppinut aidosti nauttimaan niistä asioista, jotka ennen eivät olleet niin kivoja.

Jätä kommentti