EN FI SV
Kirjoituksessa selvitetään PySpark-ohjelmoinnin suorituslogiikka ja annetaan useita neuvoja PySpark-koodin optimoimiseksi.

PySpark-koodin suorituslogiikka ja optimointi

Kirjoitin viime syksynä entisen työnantajani blogiin hajautettuun laskentaan käytetystä PySpark-ohjelmointiviitekehyksestä. Kuten nimi antaa ymmärtää, aihe on erittäin tekninen. Täältä löydät kirjoituksen, jonka otsikon voisi suomentaa PySpark-suorituslogiikka ja koodin optimointi .

Tutoriaali Spark-rinnakkaislaskentaan Python-ohjelmointikielellä. Esimerkki on ajettu AWS pilvilaskenta-alustalla AWS Glue-palvelussa.

Spark + Python tutoriaali datakehittäjille

Siirry Solitan Data-blogista löytyvään Spark + Python tutoriaaliin: Tutoriaali Pythonilla ja Sparkilla datakehittäjille AWS Glue-palvelussa . Spark ja rinnakkaislaskenta Kaupan kassatyöntekijä voi palvellla vain rajallista määrää asiakkaita.

AWS Glue soveltuu erityisesti suurten datamäärien, eli niin sanotun big datan prosessointiin eräajona. Kirjoitus Solitan Data-blogissa.

Big data ETL - Johdatus AWS Glue-palveluun

Amazon Web Services (AWS) pilvilaskenta-alusta koostuu useista itsenäisistä palveluista, joista jokainen on tarkoitettu tietyn ongelman ratkaisemiseksi. AWS Glue-palvelu soveltuu erityisesti suurten datamäärien, eli niin sanotun big datan prosessointiin eräajona.

Excel Power Map-ominaisuus on tarkoitettu paikkatietojen visualisointiin. Katso turvapaikanhakijadatasta tehty demo-video.

Excel Power Map - Paikkadatan visualisointi aikasarjana

Excel Power Map-ominaisuus on tarkoitettu paikkatietojen visualisointiin. Työkalusta käytetään myös nimeä Excel 3D Map. Löydät Solitan data-blogiin tekemäni Power Map demon täältä .

Kirjoitin Solitan blogiin aiheesta "Suomenkielisten sanojen perusmuotoistaminen pythonilla". Kirjoitus sisältää koodiesimerkkejä.

Suomenkielisten sanojen perusmuotoistaminen ja stemmaus pythonilla

Kirjoitin Solitan blogiin englanniksi aiheesta Finnish stemming and lemmatization in python . Tämä on suomenkielinen tiivistelmä artikkelista. Perusmuotoistaminen ja stemmaus avuksi tekstinlouhinnassa Tekstianalytiikan ja koneoppimisen yhteydessä taivutettuja sanoja halutaan usein muuttaa yleispätevämpään muotoon.

Blogikirjoittaminen ammatillisista aiheista on mainio tapa lisätä omaa ja työnantajan näkyvyyttä. Lue ohjeet ja kokemukset.

Blogikirjoittaminen ammatillisista aiheista - Kokemuksia ja vinkkejä

Tämä kirjoitus on julkaistu vain englanniksi. Löydät artikkelin täältä: Blogging about professional topics – Experiences and tips. Tiivistelmä kirjoituksen aiheista:

Kirjoitin Solitan blogiin aiheesta "Tekoälykokeiluissa havainnot ovat tuloksia tärkeämpiä". Linkki alkuperäiseen tekstiin ja tiivistelmä.

Tekoälykokeiluissa havainnot ovat tuloksia tärkeämpiä

Kirjoitin Solitan blogiin aiheesta Tekoälykokeiluissa havainnot ovat tuloksia tärkeämpiä . Tiivistelmä blogin sisällöstä Teimme asiakkaalle tekoälyyn ja koneoppimiseen liittyviä kokeiluja Algoritmien antamat tulokset eivät olleet toivotun hyviä Havaitsimme ongelman koskevan prosessia, ei algoritmeja Päätelmä: Tekoälykokeiluista saatavat tulokset tarjoavat keskustelualustan Tulosten optimointi on vasta prosessin viimeinen vaihe

Kokemuksia tekstianalytiikasta ja rahoitushakemusten automaattisesta luokittelusta.

Kokemuksia tekstianalytiikasta rahoitushakemuksien luokittelussa

Kirjoitin englanniksi Solitan data-blogiin tekstianalytiikkaprojektista, jossa tavoitteena oli automatisoida rahoitushakemusten manuaalisen luokittelu. Linkki blogiin löytyy tästä . FastText tekstiluokitteluprojektissa - Tiivistelmä Ensisijainen työkalu tekstiluokittelussa oli Facebookin kehittämä FastText-paketti.

Outo englanninkielinen titteli ei usein kerro, mitä työ oikeasti on. Blogitekstissä kerron tarkemmin, millaisia ongelmia ratkon työssäni.

Mitä teen työkseni?

Joistakin ammateista tai työtehtävistä on helpompi kertoa kuin toisista. Esimerkiksi poliisin tai putkimiehen ammateista kaikilla on jonkinlainen käsitys. Sitten on rooleja, joissa on epämääräinen englanninkielinen titteli, työ ei näy toimiston seinien ulkopuolelle ja käsitteistö on täynnä outoja lyhenteitä.

Tarkoituksenani on kuvata konsulttien päätöksiin vaikuttavia tekijöitä, joita konsulttipalveuiden ostaja ei välttämättä tule ajatelleeksi.

Näin saat parhaat tekijät dataprojektiisi - Kirjoitukseni Solitan blogissa

Kirjoitin työnantajani Solitan blogiin aiheesta Näin saat parhaat tekijät dataprojektiisi. Tarkoituksenani on kuvata konsulttien päätöksiin vaikuttavia tekijöitä, joita konsulttipalveuiden ostaja ei välttämättä tule ajatelleeksi.

Sain vihdoin julkaistua pöytälaatikossani muutaman kuukauden muhineen blogikirjoituksen teemalla "Konkreettinen esimerkki koneoppimisesta ja liiketoimintahyödyistä". Tarve yhdistää liiketoiminta ja koneoppiminen vaikuttaa olevan kova.

Esimerkki koneoppimisen soveltamisesta liiketoimintaan

Kirjoitus löytyy englanniksi Solitan data-aiheisiin postauksiin suuntautuneesta data.solita.fi blogista. Sain vihdoin julkaistua pöytälaatikossani muutaman kuukauden muhineen blogikirjoituksen teemalla “Konkreettinen esimerkki koneoppimisesta ja liiketoimintahyödyistä”.

Onnistuuko yrittäminen ja palkkatyö samaan aikaan? Entä miten toiminimi vaikuttaa verotukseen ja kuinka suuria ovat rahalliset hyödyt?

Yrittäminen ja palkkatyö samaan aikaan

Nykyään työskentelen vakituisella pestillä Data Scientist tittelin alla ohjelmistoyritys Solitalla. Mutta toisinaan hämärän tullessa vedän edelleenkin yrittäjän viitan niskaan. Kuinka yrittäminen ja palkkatyö onnistuvat samaan aikaan?

Hackathon on kilpailu, jossa ratkaisu koostuu tietotekniikan ja liiketoiminnan yhdistämisestä. Lue ratkaisustamme Hiabin Hackathonissa.

Mikä on Hackathon ja miten se voitetaan?

Mikä on Hackathon? Hackathon on kilpailu, jossa ratkaistaan joko todellisia tai keksittyjä ongelmia tietoteknisestä näkökulmasta. Jotkin hackathonit ovat painottuneet nimenomaan koodaamiseen ja tekniseen toteutukseen, mutta monissa yritysten järjestämissä hackathoneissa tavoite voi olla liiketoimintaongelman ratkaiseminen.

Raportti ensimmäisestä 6 kuukaudestani Solitalla "data hommissa". Kokemuksia ja käytännön esimerkkejä asiakasprojekteista.

Arki Solitalla - Tällaista on ollut työ Data Scientistina

Huom! Täältä löytyy 24.11.2018 julkaisemani tuoreempi kirjoitus nykyisistä työtehtävistäni. Pääkuva otettu Solitan uusille työntekijöille järjestetyssä scrum-koulutuksessa toukokuussa. Meikäläinen kuvassa kolmas oikealta.

Mikä erottaa Solitan muista ohjelmistoalan yrityksistä? Entä mitä tehdään edustamassani Agile Data-yksikössä?

Tällainen firma on ohjelmistoyritys Solita

Päivitys 30.8.2018: Monet tässä blogissa mainituista asioista ovat muuttuneet vuodessa. Älä käytä kirjoitusta tietolähteenä, vaan tarkasta ajantasainen tieto Solitan verkkosivuilta ja blogeista .

Aloitan pian työni data-analytiikkakonsulttina. Lue sensuroimaton versio Solitan rekrytointiprosessista ja lataa lähettämäni työhakemus.

Näin hankin itselleni unelmatyön - Jättijulkaisu työnhausta esimerkkien kera

Puoli vuotta sitten otin selkeän tavoitteen. Halusin tehdä data-analytiikan konsultointia ensiluokkaisessa työyhteisössä. Allekirjoitin työsopimuksen tällä viikolla, joten nyt pääsen kertomaan rekrytointiprosessista ja työhakemuksen tekemisestä vaihe vaiheelta.