Kirjoitin viime syksynä entisen työnantajani blogiin hajautettuun laskentaan käytetystä PySpark-ohjelmointiviitekehyksestä. Kuten nimi antaa ymmärtää, aihe on erittäin tekninen.

Täältä löydät kirjoituksen, jonka otsikon voisi suomentaa PySpark-suorituslogiikka ja koodin optimointi .

PySpark-kirjoituksen sisältö

Tässä on pääpointit yhdessä Data Scientist Timo Voipio n kanssa kirjoitetun artikkelin sisällöstä:

  • Pandas DataFramet PySparkin esitietovaatimuksena
  • PySpark DataFramet ja niiden suorituslogiikka
  • Harkitse välimuistiin tallentamista nopeuttaaksesi PySparkia
  • Käytä pieniä koodipätkiä ja useita ympäristöjä PySparkissa
  • Suosi DataFrameja mielummin kuin RDD:tä rakenteelliseen dataan
  • Vältä käyttäjän määrittelemiä funktioita PySparkissa
  • Ositusten määrä ja koko PySparkissa
  • Yhteenveto - PySparkin perusteet ja

PySpark ja Databricks käytössä myös nykyisessä työssä

Nykyinen työnantajani on Unikie . PySparkia on tullut ajettua nykyisissäkin tehtävissä Databricks data-analytiikkaympäristössä.

Tarkempi työhistoriani löytyy henkilökohtaisesta esittelystäni.