PySpark-koodin suorituslogiikka ja optimointi

Kirjoitin viime syksynä entisen työnantajani blogiin hajautettuun laskentaan käytetystä PySpark-ohjelmointiviitekehyksestä. Kuten nimi antaa ymmärtää, aihe on erittäin tekninen.

Täältä löydät kirjoituksen, jonka otsikon voisi suomentaa PySpark-suorituslogiikka ja koodin optimointi .

PySpark-kirjoituksen sisältö

Tässä on pääpointit yhdessä Data Scientist Timo Voipio n kanssa kirjoitetun artikkelin sisällöstä:

Pandas DataFramet PySparkin esitietovaatimuksena
PySpark DataFramet ja niiden suorituslogiikka
Harkitse välimuistiin tallentamista nopeuttaaksesi PySparkia
Käytä pieniä koodipätkiä ja useita ympäristöjä PySparkissa
Suosi DataFrameja mielummin kuin RDD:tä rakenteelliseen dataan
Vältä käyttäjän määrittelemiä funktioita PySparkissa
Ositusten määrä ja koko PySparkissa
Yhteenveto - PySparkin perusteet ja

PySpark ja Databricks käytössä myös nykyisessä työssä

Nykyinen työnantajani on Unikie . PySparkia on tullut ajettua nykyisissäkin tehtävissä Databricks data-analytiikkaympäristössä.

Tarkempi työhistoriani löytyy henkilökohtaisesta esittelystäni.

PySpark-koodin suorituslogiikka ja optimointi

PySpark-kirjoituksen sisältö

PySpark ja Databricks käytössä myös nykyisessä työssä

Kirjoituksen avainsanat

Saatat pitää myös näistä

Osallistu keskusteluun

Kirjoita uusi kommentti

PySpark-koodin suorituslogiikka ja optimointi

PySpark-kirjoituksen sisältö

PySpark ja Databricks käytössä myös nykyisessä työssä

Kirjoituksen avainsanat

Saatat pitää myös näistä

Vertailu suurten pilvipalveluiden koneoppimisalustoista

Spark + Python tutoriaali datakehittäjille

Dataloren lisenssit ja hinnoittelu

Osallistu keskusteluun

Kirjoita uusi kommentti

Vastaa kommenttiin