Tietotekniikka

PySpark-koodin suorituslogiikka ja optimointi

Kirjoituksessa selvitetään PySpark-ohjelmoinnin suorituslogiikka ja annetaan useita neuvoja PySpark-koodin optimoimiseksi.

Kirjoitin viime syksynä entisen työnantajani blogiin hajautettuun laskentaan käytetystä PySpark-ohjelmointiviitekehyksestä. Kuten nimi antaa ymmärtää, aihe on erittäin tekninen.

Täältä löydät kirjoituksen, jonka otsikon voisi suomentaa PySpark-suorituslogiikka ja koodin optimointi.

PySpark-kirjoituksen sisältö

Tässä on pääpointit yhdessä Data Scientist Timo Voipion kanssa kirjoitetun artikkelin sisällöstä:

  • Pandas DataFramet PySparkin esitietovaatimuksena
  • PySpark DataFramet ja niiden suorituslogiikka
  • Harkitse välimuistiin tallentamista nopeuttaaksesi PySparkia
  • Käytä pieniä koodipätkiä ja useita ympäristöjä PySparkissa
  • Suosi DataFrameja mielummin kuin RDD:tä rakenteelliseen dataan
  • Vältä käyttäjän määrittelemiä funktioita PySparkissa
  • Ositusten määrä ja koko PySparkissa
  • Yhteenveto – PySparkin perusteet ja

PySpark ja Databricks käytössä myös nykyisessä työssä

Nykyinen työnantajani on Unikie. PySparkia on tullut ajettua nykyisissäkin tehtävissä Databricks data-analytiikkaympäristössä.

Tarkempi työhistoriani löytyy henkilökohtaisesta esittelystäni.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *