EN FI SV
Google Colab, Databricks Community Edition, Visual Studio Code ja Docker vaihtoehtoina ilmaiseksi data science-kehitysympäristöksi.

Ilmaiset data science-kehitysympäristöt

Tämä kirjoitus on julkaistu vain englanniksi nimellä: Free data science workspaces.

Vertailu merkittävimpien pilvien koneoppimisalustoista. AWS SageMaker, Azure Machine Learning, Google Vertex AI ja Databricks.

Vertailu suurten pilvipalveluiden koneoppimisalustoista

Tämä kirjoitus on julkaistu vain englanniksi nimellä: Comparison of machine learning platforms in major clouds.

Mikä on koneoppimisalusta? Esittelyssä niiden erilaiset komponentit, kuten kehittäjän työtila, MLOps-työkalut ja pilvilaskenta.

Mikä on koneoppimisalusta?

Tämä kirjoitus koneoppimisalustoista löytyy vain englanniksi nimellä What is a machine learning platform?

Koneoppimisen hyödyntäminen ennakoivassa huollossa. Kaksiosaisessa sarjassa asiaa kustannusäästöistä ja esimerkki Python-kielellä.

Koneoppiminen ennakoivassa huollossa

Ennakoiva huolto tarkoittaa pyrkimystä huoltaa laitteistoa jo ennen varsinaista vikaantumista. Etukäteen tehdyt huollot pystytään aikatauluttamaan suunnitelmallisesti, jolloin esimerkiksi teollisuusyrityksen tuotantoa ei jouduta keskeyttämään.

Kokemuksia DataCamp-palvelusta. Data science-koulutus on helppo järjestää joko itselle tai tiimille järjestelmällisenä kokonaisuutena.

DataCamp - Data science-opinnot verkkokurssina

DataCamp on data science-verkkoursseihin erikoistunut nettipalvelu. Kurssivalikoima sisältää niin Python-, R-, SQL- kuin Excel-materiaaliakin. Kerron kokemuksiani palvelusta, ja avaan eri hintaryhmien tarjoamia hyötyjä.

Ensiasunnon ostaminen keskustasta. Kokemuksia lainan neuvottelemisesta, asunnon hinnan arvioinnista ja korkojen vaikutuksesta.

Ensiasunnon ostaminen keskustasta - Lainaneuvotteluita ja laskentamalleja

Ensiasunnon ostaminen tuli itselleni ajankohtaiseksi viime syksynä uuden työpaikan ja opiskelija-asunnon asumisoikeuden umpeutuessa. Siispä tämän kirjoituksen aiheena on ensiasunnon ostaminen keskusta-alueelta, erityisesti taloudellisesta näkökulmasta.

Teknisen toteutuksen kuvaus asiakasprojektissta, jossa toteutin hakurobotin AWS-pilvialustalle nuuskimaan tietoa automatisoidusti netistä.

Hakurobotti AWS-pilvialustalle - Tekninen kuvaus asiakasprojektista

Tässä kirjoituksessa esitellään sivutoimisen yritykseni toteuttaman hakurobotin tekniset yksityiskohdat. Taustaksi voi lukea tämän projektikuvauksen. Tiivistettynä tarkoituksena oli etsiä netistä automatisoidusti vastaavia tuotteita, joita yritys julkaisi nettisivuillaan.

Aikasarjadatan klusterointi SQL-kyselyllä. Yksinkertaisella logiikalla saatiin luotua havainnollistava 3D-kuvaaja. Koodi löytyy GitHubista.

Datan klusterointi SQL-kyselyllä - Esimerkki IoT-datalla

Aikasarjadatan klusterointi SQL-kyselyllä. Kokeilun tarkoituksena oli osoittaa, että data science ei aina vaadi erikoisia työkaluja. SQL on kuitenkin melko suoraviivaista.

Testissä Excel-mobiilisovelluksen ominaisuus, jolla tulostetun taulukon kuvasta voidaan tuoda tiedot laskentataulukkoon automatisoidusti.

Kuva taulukoksi - Tulostetun datan digitalisointi Excel-mobiilisovelluksella

Excel-mobiilisovelluksesta löytyy Tietojen lisääminen kuvasta-ominaisuus, jolla voi digitoida paperille tulostettua dataa Excel-taulukkoon. Testasin, kuinka mobiililaitteen kameraa hyödyntävä tietojen digitointi toimii tulostetulle ja käsinkirjoitukselle taulukolle.

Kirjoitin Solitan blogiin aiheesta "Suomenkielisten sanojen perusmuotoistaminen pythonilla". Kirjoitus sisältää koodiesimerkkejä.

Suomenkielisten sanojen perusmuotoistaminen ja stemmaus pythonilla

Kirjoitin Solitan blogiin englanniksi aiheesta Finnish stemming and lemmatization in python . Tämä on suomenkielinen tiivistelmä artikkelista. Perusmuotoistaminen ja stemmaus avuksi tekstinlouhinnassa Tekstianalytiikan ja koneoppimisen yhteydessä taivutettuja sanoja halutaan usein muuttaa yleispätevämpään muotoon.

Kirjoitin Solitan blogiin aiheesta "Tekoälykokeiluissa havainnot ovat tuloksia tärkeämpiä". Linkki alkuperäiseen tekstiin ja tiivistelmä.

Tekoälykokeiluissa havainnot ovat tuloksia tärkeämpiä

Kirjoitin Solitan blogiin aiheesta Tekoälykokeiluissa havainnot ovat tuloksia tärkeämpiä . Tiivistelmä blogin sisällöstä Teimme asiakkaalle tekoälyyn ja koneoppimiseen liittyviä kokeiluja Algoritmien antamat tulokset eivät olleet toivotun hyviä Havaitsimme ongelman koskevan prosessia, ei algoritmeja Päätelmä: Tekoälykokeiluista saatavat tulokset tarjoavat keskustelualustan Tulosten optimointi on vasta prosessin viimeinen vaihe

Kokemuksia tekstianalytiikasta ja rahoitushakemusten automaattisesta luokittelusta.

Kokemuksia tekstianalytiikasta rahoitushakemuksien luokittelussa

Kirjoitin englanniksi Solitan data-blogiin tekstianalytiikkaprojektista, jossa tavoitteena oli automatisoida rahoitushakemusten manuaalisen luokittelu. Linkki blogiin löytyy tästä . FastText tekstiluokitteluprojektissa - Tiivistelmä Ensisijainen työkalu tekstiluokittelussa oli Facebookin kehittämä FastText-paketti.

Tekninen kuvaus data edellä tehdystä web-sovelluksesta, jonka toteutuin AWS-pilvialustalle harrasteprojektina.

Web-sovellus pilvessä data edellä - Tekninen toteutus

Toteutin harrasteprojektina sekä tietokoneelle että mobiililaitteille taipuvan web-sovelluksen, jossa tärkeänä kriteerinä oli kyvykkyys hyödyntää dataa monipuolisesti esimerkiksi koneoppimisen, rajapintojen ja visualisointien muodossa.

Tein harrasteprojektina pilveen mobiilioptimoidun web-sovelluksen, jossa olennaista oli datan monipuolinen hyödyntäminen. Katso demovideo.

Web-sovellus pilvessä data edellä - Sovelluksen esittely

Toteutin harrasteprojektina sekä tietokoneelle että mobiililaitteille taipuvan web-sovelluksen, jossa tärkeänä kriteerinä oli kyvykkyys hyödyntää dataa monipuolisesti koneoppimisen, rajapintojen ja visualisointien muodossa.

Outo englanninkielinen titteli ei usein kerro, mitä työ oikeasti on. Blogitekstissä kerron tarkemmin, millaisia ongelmia ratkon työssäni.

Mitä teen työkseni?

Joistakin ammateista tai työtehtävistä on helpompi kertoa kuin toisista. Esimerkiksi poliisin tai putkimiehen ammateista kaikilla on jonkinlainen käsitys. Sitten on rooleja, joissa on epämääräinen englanninkielinen titteli, työ ei näy toimiston seinien ulkopuolelle ja käsitteistö on täynnä outoja lyhenteitä.

Sain vihdoin julkaistua pöytälaatikossani muutaman kuukauden muhineen blogikirjoituksen teemalla "Konkreettinen esimerkki koneoppimisesta ja liiketoimintahyödyistä". Tarve yhdistää liiketoiminta ja koneoppiminen vaikuttaa olevan kova.

Esimerkki koneoppimisen soveltamisesta liiketoimintaan

Kirjoitus löytyy englanniksi Solitan data-aiheisiin postauksiin suuntautuneesta data.solita.fi blogista. Sain vihdoin julkaistua pöytälaatikossani muutaman kuukauden muhineen blogikirjoituksen teemalla “Konkreettinen esimerkki koneoppimisesta ja liiketoimintahyödyistä”.

Ennen oli Excel. Nykyään on mobiilisovellukset, pilvi, IoT ja koneoppinen. Tässä blogissa kerron näkemykseni Excelin roolista suhteessa muihin työkaluihin. Pohdintaa myös Excelin tulevaisuudesta.

Elämme koneoppimisen ja pilven aikakautta, mutta mikä Excelin rooli nykyään on?

Ennen oli Excel. Nykyään on mobiilisovellukset, pilvi, IoT ja koneoppinen. Tässä blogissa kerron näkemykseni Excelin roolista tänä päivänä. Kokemukseni perusteella ihmiset voidaan jakaa karkeasti kolmeen ryhmään Exceliin suhtautumisen perusteella - käyn ryhmät läpi kolmessa ensimmäisessä luvussa.

Kirjassa annetaan useita määritelmiä termille data science ja pohditaan data scientistin työssä vaadittavia taitoja. Kirja oli konkreettinen ja sopivan helppolukuinen myös aihetta vähemmän tuntevalle.

Doing Data Science - Data Science on datan soveltamista käytäntöön

Doing Data Science on yliopistokurssin pohjalta kirjoitettu kirja, jossa useat henkilöt kertovat data science teeman alta hyvin erilaisista näkökulmista. Kirjassa oli joitakin koodiharjoituksia, mutta kirja toimii erinomaisesti ilman niitäkin.

Luin kirjan tilastolliseen laskentaan käytetystä R-kielestä. Kerron kokemukseni kirjan sisällöstä ja käyttämistäni oppimismenetelmistä.

R in a Nutshell - Kokemuksia R-ohjelmoinnista

R on tilastolliseen laskentaan suunniteltu ohjelmointikieli. R in a Nutshell puolestaan on R-kirja, jonka kahlasin läpi kuluneen viiden viikon aikana.

Tampere ES Data Science Meetupissa puheenvuorot koneoppimiskilpailuista ja nettisivujen asiakaspalvelun automatisoinnista.

Tampere ES Data Science Meetup

Tampere Entrepreneurship Society eli tuttavallisemmin Tampere ES järjesti 9.2.2017 klo 17-19 Tampereen keskustassa Data Science aiheisen iltatilaisuuden nimeltä Data Science Meetup.

Vedonlyönti - sillä on mahdollista elättää itsensä. Blogia ei ole sponsoroitu, vaan ajatukset ovat täysin omiani. Lue opas.

Vedonlyönti - Voiko sillä elää? - Lue Opas

Vedonlyönti - sillä on mahdollista elättää itsensä. Blogia ei ole sponsoroitu, vaan ajatukset ovat täysin omiani. Vedonlyönti erityisesti urheilun parissa herättää paljon myyttejä ja uskomuksia, joista osa pitää paikkansa ja osa ei.

Kirja koneoppimisesta, tiedonlouhinnasta ja algoritmeista. Data Mining Concepts and Techniques, J. Han, M. Kamber & J. Pei.

Data Mining Concepts and Techniques, J. Han, M. Kamber & J. Pei

Ensimmäisissä kappaleissa määritellään tiedonlouhinta, käydään yleistietoa datatyypeistä, datan käsittelyyn liittyvistä teknologioista. Suurin osa materiaalista käsittelee hyvin syvällisesti erilaisia tiedonlouhinta-algoritmeja assosiaatioista, luokittelusta, klusteroinnista ja poikkavuuksien havaitsemisesta.