Tampere Entrepreneurship Society eli tuttavallisemmin Tampere ES järjesti 9.2.2017 klo 17-19 Tampereen keskustassa Data Science aiheisen iltatilaisuuden nimeltä Data Science Meetup.

Agenda sisälsi kaksi mielenkiintoista, mutta erilaista puheenvuoroa aiheesta. Ensimmäinen puheenvuoro oli suunnattu koneoppimisen ammattilaisille ja harrastajille, toinen yleisesti kaikille aiheesta kiinnostuneille. Itse osallistuin tapahtumaan, koska tulen aihepiiriin todennäköisesti tulevaisuudessa törmäämään töiden puolesta.

Täältä löytyy Facebook-tapahtuma ja täältä keskustelu Meetup-nettisivulla .

Tuomas Tikkanen, Genevia Technologies - Miksi koneoppimiskilpailuihin kannattaa osallistua?

Tuomas Tikkanen, Koneoppimiskilpailut - Tampere ES Data Science Meetup.
Tuomas Tikkanen, Koneoppimiskilpailut - Tampere ES Data Science Meetup.

Itseltäni löytyy käyttäjätili Data Science aiheisista kilpailuistaan tunnetusta Kaggle -palvelusta, mutta itse kisoihin en vielä ole osallistunut. Genevia nimisessä yrityksessä työskentelevä Tuomas kävikin läpi, miksi osallistuminen kannattaa ja mitä se käytännössä tarkoittaa.

Nettisivusto Kagglea voidaan pitää suurimpana koneoppimiskilpailujen järjestäjänä. Toinen suosittu sivusto on Innocentive . Kaggle tai Innocentive tarjoavat alustan, mutta ongelma on yleensä peräisin organisaatiolta, joka haluaa ratkaisun ongelmaansa. Yritykset maksavat isännöinnistä isoja rahoja, mutta saavat vastineeksi ratkaisuja, näkyvyyttä tai tietoa potentiaalisista työntekijöistä. Osallistujat voivat olla tiimejä tai yksilöitä ja heille tarjolla on rahaa, työtä tai mainetta.

Data tarjotaan yleensä siistissä muodossa, mikä säästää osallistujien aikaa. Oman mallin soveltuvuutta ongelman ratkaisemiseen voi testata kilpailun aikana ristiinvalidoinnin avulla tai lähettämällä mallin ennustukset kilpailun järjestäjälle, joka kertoo kuinka oikein salaisesti ja satunnaisesti valittu osa ennustuksista pitää paikkaansa.

Ristiinvalidointia voi tehdä itsenäisesti opetusaineistolla loputtomia kertoja, mutta kilpailun järjestäjältä palautetta mallin toimivuudesta voi saada vain rajallisen määrän, joten jokainen testi kannattaa suunnitella huolellisesti.

Tuomaksen tekemän analyysin mukaan koneoppimisessa Python oli yllättävän selkeä suosikki ohjelmointikieleksi. Toiseksi tuli odotetusti R ja kolmanneksi Java.

Aiheesta kiinostuneet voivat katsoa ohjeet parhaaseen 10% pääsemiksi esitysdioista . Tuomaksen LinkedIn-profiili löytyy täältä .

Reetu Kainulainen, Ultimate.ai - Automatisoi vaikka asiakaspalvelusi

Reetu Kainulainen, Ultimate ai - Tampere ES Data Science Meetup.
Reetu Kainulainen, Ultimate ai - Tampere ES Data Science Meetup.

Sekä yrityksen, että Reetun henkilökohtainen intohimo perustuu luonnollisen tekstin käsittelyyn. Englanniksi termi on natural language processing eli NLP. Reetun LinkedIn-profiili löytyy täältä .

Tekstin ja puheentunnistus on ottanut viimeisen kymmenen vuoden aikana valtavia askeleita, kuten Reetun luentokalvoista löytyvästä kuvaajasta voi itse todeta. Itselle syväoppiminen (deep learning) ei ole käytännön tekemisestä tuttu, mutta sen todettiin edesauttaneen algoritmien kehittymistä valtavasti.

Reetu esitteli edustamansa yrityksen Ultimate.ai palveluita, joista nousi esille ainakin automaattinen chat bot. Chat bot tarkoittaa siis automatisoitua asiakaspalvelua yrityksen nettisivuilla. Hyötyä on selkä, sillä 50% kysymyksistä toistuu jatkuvasti. Perinteinen kysymyksiin vastaaminen vaati “turhaa” ihmistyötä.

Käytännössä chat bot toimii niin, että se pilkkoo asiakkaan kysymyksen osiin. Esimerkiksi lauseesta Onko teidän Helsingin toimisto auki sunnuntaina? voitaisiin poimia erilleen paikka (Helsinki), aika (sunnuntai) ja itse asia jota kysytään (aukioloajat). Mikäli botti tunnistaa kysymyksen, se voi vastata suoraan. Jos viestiä ei pystytä tunnistamaan tarvittavalla varmuudella, se voidaan lähettää asiakaspalvelijan vastattavaksi.

Lopuksi Reetu esitteli vielä, kuinka tekoäly saadaan luomaan runoja Kalevala-mitassa .