EN FI SV
Kubernetes on tehnyt todellisen läpimurron konttisovellusten hallinnoinnissa. Kokeilin ajaa web sovellusta työkalulla.

Web-sovelluksen ajaminen Kuberneteksella

Tämä kirjoitus on julkaistu vain englanniksi: Running Flask frontend and backend in Kubernetes.

Python-ohjelmointi on helppo tapa aloitta ohjelmistokehityksen parissa. Tämä tutoriaali ei edellytä erillistä ohjelmistojen asentamista.

Python-ohjelmoinnin aloittaminen 5 minuutissa

Tässä tutoriaalissa pääset kokeilemaan Python-ohjelmointia ilman ohjelmistojen asentamista. Tarvitset Google-tilin, jolla kirjaudutaan Google Colab-palveluun. Ohjelmointiympäristön käynnistäminen Python-ohjelmointia varten Python-ohjelmoinnin aloittamiseksi siirrytään Googlen tarjoamaan ohjelmointiympäristöön.

Google Colab, Databricks Community Edition, Visual Studio Code ja Docker vaihtoehtoina ilmaiseksi data science-kehitysympäristöksi.

Ilmaiset data science-kehitysympäristöt

Tämä kirjoitus on julkaistu vain englanniksi nimellä: Free data science workspaces.

Vertailu merkittävimpien pilvien koneoppimisalustoista. AWS SageMaker, Azure Machine Learning, Google Vertex AI ja Databricks.

Vertailu suurten pilvipalveluiden koneoppimisalustoista

Tämä kirjoitus on julkaistu vain englanniksi nimellä: Comparison of machine learning platforms in major clouds.

Mikä on koneoppimisalusta? Esittelyssä niiden erilaiset komponentit, kuten kehittäjän työtila, MLOps-työkalut ja pilvilaskenta.

Mikä on koneoppimisalusta?

Tämä kirjoitus koneoppimisalustoista löytyy vain englanniksi nimellä What is a machine learning platform?

Nouseeko lottovoiton todennäköisyys, jos viikoittaisen lottoamisen sijaan panostaa yhteen lottoarvontaan? Kyllä, mutta aika vähän.

Lottostrategia, joka todistetusti parantaa voiton todennäköisyyksiä

Blogin idea lähti ajatuksesta: Nouseeko lottovoiton todennäköisyys, jos viikoittaisen lottoamisen sijaan rahat sijoittaa yhteen lottoarvontaan? Vastaus on kyllä, mutta niin vähän että sillä ei käytännössä ole merkitystä.

Koneoppimisen hyödyntäminen ennakoivassa huollossa. Kaksiosaisessa sarjassa asiaa kustannusäästöistä ja esimerkki Python-kielellä.

Koneoppiminen ennakoivassa huollossa

Ennakoiva huolto tarkoittaa pyrkimystä huoltaa laitteistoa jo ennen varsinaista vikaantumista. Etukäteen tehdyt huollot pystytään aikatauluttamaan suunnitelmallisesti, jolloin esimerkiksi teollisuusyrityksen tuotantoa ei jouduta keskeyttämään.

Kuinka web-sivulle voi esittää olevansa eri maantieteellisessä sijainnissa? Kokeilussa esitin olevani Irlannissa matkustaessani Ruotsissa.

Maantieteellisen sijainnin huijaaminen verkkopalvelulle - Harrasteprojekti

Edellisen työnantajani blogista löytyy kirjoitus , jossa kokeilin maantieteellisen sijainnin huijaamista verkkopalvelulle. Tarkoitukseen löytyy luonnollisesti valtava läjä valmiitakin sovelluksia. Kyseessä oli harrasteprojekti, joten en mennyt aidan matalimmasta kohdasta.

Kokemuksia DataCamp-palvelusta. Data science-koulutus on helppo järjestää joko itselle tai tiimille järjestelmällisenä kokonaisuutena.

DataCamp - Data science-opinnot verkkokurssina

DataCamp on data science-verkkoursseihin erikoistunut nettipalvelu. Kurssivalikoima sisältää niin Python-, R-, SQL- kuin Excel-materiaaliakin. Kerron kokemuksiani palvelusta, ja avaan eri hintaryhmien tarjoamia hyötyjä.

Teknisen toteutuksen kuvaus asiakasprojektissta, jossa toteutin hakurobotin AWS-pilvialustalle nuuskimaan tietoa automatisoidusti netistä.

Hakurobotti AWS-pilvialustalle - Tekninen kuvaus asiakasprojektista

Tässä kirjoituksessa esitellään sivutoimisen yritykseni toteuttaman hakurobotin tekniset yksityiskohdat. Taustaksi voi lukea tämän projektikuvauksen. Tiivistettynä tarkoituksena oli etsiä netistä automatisoidusti vastaavia tuotteita, joita yritys julkaisi nettisivuillaan.

Kirjoituksessa selvitetään PySpark-ohjelmoinnin suorituslogiikka ja annetaan useita neuvoja PySpark-koodin optimoimiseksi.

PySpark-koodin suorituslogiikka ja optimointi

Kirjoitin viime syksynä entisen työnantajani blogiin hajautettuun laskentaan käytetystä PySpark-ohjelmointiviitekehyksestä. Kuten nimi antaa ymmärtää, aihe on erittäin tekninen. Täältä löydät kirjoituksen, jonka otsikon voisi suomentaa PySpark-suorituslogiikka ja koodin optimointi .

Aikasarjadatan klusterointi SQL-kyselyllä. Yksinkertaisella logiikalla saatiin luotua havainnollistava 3D-kuvaaja. Koodi löytyy GitHubista.

Datan klusterointi SQL-kyselyllä - Esimerkki IoT-datalla

Aikasarjadatan klusterointi SQL-kyselyllä. Kokeilun tarkoituksena oli osoittaa, että data science ei aina vaadi erikoisia työkaluja. SQL on kuitenkin melko suoraviivaista.

Tutoriaali Spark-rinnakkaislaskentaan Python-ohjelmointikielellä. Esimerkki on ajettu AWS pilvilaskenta-alustalla AWS Glue-palvelussa.

Spark + Python tutoriaali datakehittäjille

Siirry Solitan Data-blogista löytyvään Spark + Python tutoriaaliin: Tutoriaali Pythonilla ja Sparkilla datakehittäjille AWS Glue-palvelussa . Spark ja rinnakkaislaskenta Kaupan kassatyöntekijä voi palvellla vain rajallista määrää asiakkaita.

AWS Glue soveltuu erityisesti suurten datamäärien, eli niin sanotun big datan prosessointiin eräajona. Kirjoitus Solitan Data-blogissa.

Big data ETL - Johdatus AWS Glue-palveluun

Amazon Web Services (AWS) pilvilaskenta-alusta koostuu useista itsenäisistä palveluista, joista jokainen on tarkoitettu tietyn ongelman ratkaisemiseksi. AWS Glue-palvelu soveltuu erityisesti suurten datamäärien, eli niin sanotun big datan prosessointiin eräajona.

Kirjoitin Solitan blogiin aiheesta "Suomenkielisten sanojen perusmuotoistaminen pythonilla". Kirjoitus sisältää koodiesimerkkejä.

Suomenkielisten sanojen perusmuotoistaminen ja stemmaus pythonilla

Kirjoitin Solitan blogiin englanniksi aiheesta Finnish stemming and lemmatization in python . Tämä on suomenkielinen tiivistelmä artikkelista. Perusmuotoistaminen ja stemmaus avuksi tekstinlouhinnassa Tekstianalytiikan ja koneoppimisen yhteydessä taivutettuja sanoja halutaan usein muuttaa yleispätevämpään muotoon.

Kirjoitin Solitan blogiin aiheesta "Tekoälykokeiluissa havainnot ovat tuloksia tärkeämpiä". Linkki alkuperäiseen tekstiin ja tiivistelmä.

Tekoälykokeiluissa havainnot ovat tuloksia tärkeämpiä

Kirjoitin Solitan blogiin aiheesta Tekoälykokeiluissa havainnot ovat tuloksia tärkeämpiä . Tiivistelmä blogin sisällöstä Teimme asiakkaalle tekoälyyn ja koneoppimiseen liittyviä kokeiluja Algoritmien antamat tulokset eivät olleet toivotun hyviä Havaitsimme ongelman koskevan prosessia, ei algoritmeja Päätelmä: Tekoälykokeiluista saatavat tulokset tarjoavat keskustelualustan Tulosten optimointi on vasta prosessin viimeinen vaihe

Kokemuksia tekstianalytiikasta ja rahoitushakemusten automaattisesta luokittelusta.

Kokemuksia tekstianalytiikasta rahoitushakemuksien luokittelussa

Kirjoitin englanniksi Solitan data-blogiin tekstianalytiikkaprojektista, jossa tavoitteena oli automatisoida rahoitushakemusten manuaalisen luokittelu. Linkki blogiin löytyy tästä . FastText tekstiluokitteluprojektissa - Tiivistelmä Ensisijainen työkalu tekstiluokittelussa oli Facebookin kehittämä FastText-paketti.

Tekninen kuvaus data edellä tehdystä web-sovelluksesta, jonka toteutuin AWS-pilvialustalle harrasteprojektina.

Web-sovellus pilvessä data edellä - Tekninen toteutus

Toteutin harrasteprojektina sekä tietokoneelle että mobiililaitteille taipuvan web-sovelluksen, jossa tärkeänä kriteerinä oli kyvykkyys hyödyntää dataa monipuolisesti esimerkiksi koneoppimisen, rajapintojen ja visualisointien muodossa.

Tein harrasteprojektina pilveen mobiilioptimoidun web-sovelluksen, jossa olennaista oli datan monipuolinen hyödyntäminen. Katso demovideo.

Web-sovellus pilvessä data edellä - Sovelluksen esittely

Toteutin harrasteprojektina sekä tietokoneelle että mobiililaitteille taipuvan web-sovelluksen, jossa tärkeänä kriteerinä oli kyvykkyys hyödyntää dataa monipuolisesti koneoppimisen, rajapintojen ja visualisointien muodossa.

Sain vihdoin julkaistua pöytälaatikossani muutaman kuukauden muhineen blogikirjoituksen teemalla "Konkreettinen esimerkki koneoppimisesta ja liiketoimintahyödyistä". Tarve yhdistää liiketoiminta ja koneoppiminen vaikuttaa olevan kova.

Esimerkki koneoppimisen soveltamisesta liiketoimintaan

Kirjoitus löytyy englanniksi Solitan data-aiheisiin postauksiin suuntautuneesta data.solita.fi blogista. Sain vihdoin julkaistua pöytälaatikossani muutaman kuukauden muhineen blogikirjoituksen teemalla “Konkreettinen esimerkki koneoppimisesta ja liiketoimintahyödyistä”.

Kirjassa annetaan useita määritelmiä termille data science ja pohditaan data scientistin työssä vaadittavia taitoja. Kirja oli konkreettinen ja sopivan helppolukuinen myös aihetta vähemmän tuntevalle.

Doing Data Science - Data Science on datan soveltamista käytäntöön

Doing Data Science on yliopistokurssin pohjalta kirjoitettu kirja, jossa useat henkilöt kertovat data science teeman alta hyvin erilaisista näkökulmista. Kirjassa oli joitakin koodiharjoituksia, mutta kirja toimii erinomaisesti ilman niitäkin.

Yritykseni kautta tehty asiakasprojekti, jossa automatisoin tietojen hakua netistä simuloimalla käyttäjän toimintoja PhantomJS-työkalulla.

PhantomJS ja automatisoitu tietojen haku

Kuvaus automatisoidusta tiedonhausta nettisivuilta PhantomJS-kirjastoa hyödyntäen toiminimeni kautta tehdyssä asiakasprojektissa. PhantomJS projektin kulku Kuvaus tietojen hausta Menetelmät tietojen hakuun nettisivuilta automaattisesti PhantomJS-kirjaston käyttäminen tietojen haun automatisoinnissa PhantomJS projektin kulku Tehtävänä oli automatisoida yhteystietojen parsiminen nettisivuilta.

Hackathon on kilpailu, jossa ratkaisu koostuu tietotekniikan ja liiketoiminnan yhdistämisestä. Lue ratkaisustamme Hiabin Hackathonissa.

Mikä on Hackathon ja miten se voitetaan?

Mikä on Hackathon? Hackathon on kilpailu, jossa ratkaistaan joko todellisia tai keksittyjä ongelmia tietoteknisestä näkökulmasta. Jotkin hackathonit ovat painottuneet nimenomaan koodaamiseen ja tekniseen toteutukseen, mutta monissa yritysten järjestämissä hackathoneissa tavoite voi olla liiketoimintaongelman ratkaiseminen.

Luin kirjan tilastolliseen laskentaan käytetystä R-kielestä. Kerron kokemukseni kirjan sisällöstä ja käyttämistäni oppimismenetelmistä.

R in a Nutshell - Kokemuksia R-ohjelmoinnista

R on tilastolliseen laskentaan suunniteltu ohjelmointikieli. R in a Nutshell puolestaan on R-kirja, jonka kahlasin läpi kuluneen viiden viikon aikana.

Tietokoneiden uumenista löytyy vastaus esimerkiksi siihen, missä iässä olet todennäköisesti löytänyt ihannekumppanisi.

Algorithms to Live by - Tietotekniikkaa sovellettuna arkielämään

Algorithms to Live by kirjan on kirjoittanut Brian Christian ja Tom Griffiths. Algoritmi tarkoittaa sarjaa ohjeita. Esimerkiksi: Kävele suoraan. Jos vastaan tulee seinä, käänny vasemmalle.

Python-koodi, jolla voi automaattisesti listata CSV-tiedostojen otsikkokentät. Alunperin tarvitsin koodia tietovaraston dokumentaatioon.

Csv tiedostojen kentät listaksi Pythonilla

Tietovarastoprojektin dokumentointi edellytti tietovarastoon tulevien CSV-tiedostojen otsikkokenttien listaamista. Sen sijaan, että olisin käsin kirjoittanut kymmenien CSV-tiedostojen kentät rutiininomaisesti dokumentointiimme, automatisoin homman Python-koodilla.

Algoritmiongelma tuli alunperin vastaan todellisessa asiakasprojektissa, jossa tuotteen kulkua tuotantolinjalla täytyi pystyä seuraamaan.

Algoritmiongelma - Osaatko ratkaista älytehtävän todellisesta asiakasprojektista?

Algoritmiongelman kuvaus Ongelma on tullut alunperin vastaan todellisessa asiakasprojektissa, jossa tuotteen kulkua tuotantolinjalla täytyi pystyä seuraamaan. Vaiheessa A oli esimerkiksi 8 tuotetta, jonka jälkeen kaksi peräkkäistä tuotetta yhdistettiin vaiheessa B yhdeksi.

Tampere ES Data Science Meetupissa puheenvuorot koneoppimiskilpailuista ja nettisivujen asiakaspalvelun automatisoinnista.

Tampere ES Data Science Meetup

Tampere Entrepreneurship Society eli tuttavallisemmin Tampere ES järjesti 9.2.2017 klo 17-19 Tampereen keskustassa Data Science aiheisen iltatilaisuuden nimeltä Data Science Meetup.

Lue, kuinka projektissa muokattiin asiakkaan data oikeaan formaattiin Power Querylla.

Taulukkomuotoisen datan organisointi Excel Power Querylla

Pääasiassa Suomessa toimiva asiakkaani oli hankkinut myyntidataa toisen alueen markkinoilta. Data piti saada selkeämpään muotoon, sillä nyt se oli miten sattuu Excel-tiedoston useissa eri välilehdissä.

Vedonlyönti - sillä on mahdollista elättää itsensä. Blogia ei ole sponsoroitu, vaan ajatukset ovat täysin omiani. Lue opas.

Vedonlyönti - Voiko sillä elää? - Lue Opas

Vedonlyönti - sillä on mahdollista elättää itsensä. Blogia ei ole sponsoroitu, vaan ajatukset ovat täysin omiani. Vedonlyönti erityisesti urheilun parissa herättää paljon myyttejä ja uskomuksia, joista osa pitää paikkansa ja osa ei.

NaN

Maanjäristysdatan visualisointi ja klusterointi

Visualisointi toteutettiin analysoimalla R-studion sisäänrakennettua quakes tietoaineistoa, joka sisälsi 1000 kirjausta Fijin maanjäristyksistä vuodesta 1964 määrittämättömään vuoteen asti. Visualisoinnin kannalta oleellisia muuttujia olivat karttakoordinaatit, järistyksen syvyys ja voimakkuus.

Virusongelma: Virus leviää maapallolla ja tappaa ilman hoitoa. Tehtävänäsi on ratkaista tilastollinen pähkinä ja pelastaa maailma.

Virusongelma - Tilastollinen pulmapähkinä

Virusongelma on pulmatehtävä, ei todellinen tilanne. Maailmalla leviää virus, joka tappaa ilman hoitoa. Virukseen on olemassa lääke, joka parantaa sairaan, mutta tappaa terveen ihmisen.

Olet palkannut viisi uutta myyntiharjoittelijaa, joilla suoritetaan 100 myyntipuhelun mittainen testi. Kuka saa jatkaa?

Arjen tilastotiedettä - Myyntiharjoittelijan palkkaaminen

Data-kategorian blogeissa analysoidaan todelliseen elämään pohjautuvia pulmia, joita voidaan ratkoa datan ja tilastojen avulla. Tilanne Olet palkannut viisi uutta myyntiharjoittelijaa, joilla suoritetaan 100 myyntipuhelun mittainen testi.

Data science, data engineeer, business intelligence... Big data teeman ympärillä on paljon sekavaa termistöä. Kokosin tärkeimmät.

Data science ja business intelligence - Termistö haltuun

Työnhaussa ja internetin palstoja lukiessa törmää usein erilaisiin termeihin, kuten data science, big data ja niin edelleen. Kokosin yleisimmät termit ja määrittelin ne omien käsitysteni ja nettiblogeihin perustuen.

Python-kielelle suunnniteltu Django web-framework tarjoaa data-analytiikasta kiinnostuneelle kaiken tarpeellisen. Näin pääset alkuun.

Django tutoriaali - Dataintensiivisiin web-sovelluksiin

Django on web-framework Python-ohjelmointikielelle, mikä tarkoittaa käytännössä valmista kansiorakennetta ja ohjelmointiluokkia yleisimpien nettisivujen toimintojen helpottamiseksi. Virallinen tutoriaali tarjoaa erinomaisen pohjan Django-sovelluksen toteuttamiseen, vaikka alkuasetusten säätämisessä oli omat haasteensa.

Videokurssi big datasta. Techniques and Concepts of Big Data, Barton Poulson.

Techniques and Concepts of Big Data, Barton Poulson - Lynda.com

Lynda.comin videoissa käytiin läpi, mitä big data on yleisellä tasolla, mutta loppu kohti mennään hieman lähemmäs käytäntöä kertomalla erilaisista palveluista ja menetelmistä.

Paljonko tienaat taukojen aikana? Javascriptilla koodattu web-laskuri.

Taukolaskuri - Paljonko tienaat tauon aikana?

Taukolaskuri ei ole enää toiminnassa heinäkuussa 2022. “Nyt kukaan ei näe. On hyvä hetki hakea vähän lisää kahvia.” “Käynpä taas vessassa ja vaihdan ohimennen kuulumiset Jarin ja Veeran kanssa.

NaN

Paikkatietojen hakukone

Paikkatietojen hakukoneen tietokantaa ei enää ylläpidetä helmikuussa 2017. Sovellus poistettiin käytöstä kokonaan heinäkuussa 2022. Montako asukasta Tampereella asuikaan? Paljonkohan meidän kylässä on kesämökkejä?

NaN

Beginning PHP and MySQL, Jason Gilmore

Opetti PHP:sta kaiken tarvittavan. Suurin ongelma itselleni oli alussa oppia PHP yleinen toimintaperiaate, sillä kirjan esimerkit koskivat tilannetta, jossa käyttäjällä on oma palvelin, sillä itselläni oli käytössä jaettu palvelin, johon PHP:ta ja sen lisäpaketteja ei tarvinnutkaan asentaa erikseen.

NaN

HTML and CSS - Design And Build Websites, Jon Duckett

Tässä kirjassa mentiin perusteita syvemmälle nettisivujen ulkoasun suunnitteluun. Esimerkit olivat todella hyviä. Parempi kuin edellinen HTML - CSS kirja.

Arvio kirjasta Head First JavaScript Programming. Kirjoittanut Elisabeth Robson & Eric Freeman. Aiheena Javasrcipt-ohjelmointi.

Head First JavaScript Programming, Elisabeth Robson & Eric Freeman

JavaScriptin perusteet. Välillä tuntui, että kirja piti lukijaa liiankin tyhmänä, mikä on tämän tyyppisissä teoksissa poikkeuksellista. Asiat käytiin siis ainakin perusteellisesti läpi, mutta parempiakin teoksia varmasti löytyy etenkin, jos ymmärrät mitään koodaamisesta.

NaN

Head First HTML and CSS, Elisabeth Robson & Eric Freeman

Opi muokkaamaan nettisivujen ulkoasua. HTML ja CSS tulevat yllättävän helposti vastaan työelämässä, jos olet missään tekemisissä nettisivujen kanssa. Kirjassa oli paljon ärsyttävää sälää, kuten kysymys- ja vastausosioita, jotka eivät sopineet suoraviivaiseen makuuni.

Kirja-arvio. Kuinka nettisivut tehdään? Miten internet toimii? Mikä on webhotelli? Mitä ovat WordPress, CSS, HTML, JavaScript ja PHP?

The Web Book, Robert Schifreen

Kuinka nettisivut tehdään? Miten internet toimii? Mikä on webhotelli? Mitä ovat WordPress, CSS, HTML, JavaScript ja PHP? Todella hyvä peruspaketti, kun haluat oppia tekemään nettisivuja tai ainakin ymmärtää periaatteet.