Kirjoitin viime syksynä entisen työnantajani blogiin hajautettuun laskentaan käytetystä PySpark-ohjelmointiviitekehyksestä. Kuten nimi antaa ymmärtää, aihe on erittäin tekninen.
Täältä löydät kirjoituksen, jonka otsikon voisi suomentaa PySpark-suorituslogiikka ja koodin optimointi .
PySpark-kirjoituksen sisältö
Tässä on pääpointit yhdessä Data Scientist Timo Voipio n kanssa kirjoitetun artikkelin sisällöstä:
- Pandas DataFramet PySparkin esitietovaatimuksena
- PySpark DataFramet ja niiden suorituslogiikka
- Harkitse välimuistiin tallentamista nopeuttaaksesi PySparkia
- Käytä pieniä koodipätkiä ja useita ympäristöjä PySparkissa
- Suosi DataFrameja mielummin kuin RDD:tä rakenteelliseen dataan
- Vältä käyttäjän määrittelemiä funktioita PySparkissa
- Ositusten määrä ja koko PySparkissa
- Yhteenveto - PySparkin perusteet ja
PySpark ja Databricks käytössä myös nykyisessä työssä
Nykyinen työnantajani on Unikie . PySparkia on tullut ajettua nykyisissäkin tehtävissä Databricks data-analytiikkaympäristössä.
Tarkempi työhistoriani löytyy henkilökohtaisesta esittelystäni.
Kirjoita uusi kommentti
Nimi näytetään muille. Sähköpostia ei julkaista. Lisää tietosuojasta.