Tietotekniikka

Spark + Python tutoriaali datakehittäjille

AWS Glue tutoriaali Pythonilla ja Sparkilla datakehittäjille.

Siirry Solitan Data-blogista löytyvään Spark + Python tutoriaaliin: Tutoriaali Pythonilla ja Sparkilla datakehittäjille AWS Glue-palvelussa.

Spark ja rinnakkaislaskenta

Kaupan kassatyöntekijä voi palvellla vain rajallista määrää asiakkaita. Tiukka keskittyminen ja aiempi kokemus työstä parantavat työntekijän suorituskykyä tiettyyn pisteeseen asti. Parempi keino suurien asiakasmäärien palvelemiseksi on lisätä kassojen määrää.

Tietotekniikasta puhuttaessa rinnakkaislaskenta toimii samalla periaatteella. Yhden supertietokoneen sijasta voi olla järkevämpää käyttää rinnakkain tavallisia laskentayksiköitä, jotka suorittavat samaa tehtävää yhtäaikaisesti.

Spark on Apachen tarjoama avoimen lähdekoodin projekti rinnakkaislaskentaan.

Sparkia voisi kuvailla laskentaympäristöksi, jota ohjelmoidaan valitulla ohjelmointikielellä. Yleinen valinta Sparkin kaveriksi on Python johtuen kielen monipuolisuudesta, tunnettuudesta ja helposta syntaksista.

Miksi Spark-ohjelma kannattaa ajaa pilvilaskenta-alustalla?

Spark on tarkoitettu isoille datamäärille. Vaikka Sparkin voisi asentaa omalle läppärille, tietokoneen resurssit tulisivat nopeasti vastaan. Oikeissa käyttötapauksissa Spark-laskentaa tehdään usein pilvialustoilla, ja Amazonin pilvilaskenta-alustalta löytyvä Glue-palvelu tarjoaa tähän ”matalan” kynnyksen vaihtoehdon.

Skaalautuvan rinnakkaislaskentaklusterin pystyttäminen alusta lähtien ei käy käden käänteessä. AWS Glue tarjoaa valmiiksi palvelinympäristön, jolloin kehittäjän tarvitsee vain kirjoittaa Spark-koodi.

Täältä löydät johdantokirjoituksen Gluesta: Big data ETL – Johdatus AWS Glue-palveluun.

Yhteenveto Spark ja Python tutoriaalista

Tutoriaalissa käsitellään nämä aihealueet:

  • Luo tietolähde AWS Gluelle
  • Indeksoi tietolähde tietoluetteloon
  • Indeksoitu metatiedot Glue-tauluissa
  • AWS Glue-työt datan muokkaamiseksi
  • Glue-skriptit datan käsittelemiseksi Pythonilla ja Sparkilla
  • Spark kehittämisen nopeuttaminen Gluen kehityspalvelimella
  • Gluen suorituskyky
  • Yhteenveto Glue-tutoriaalista Sparkilla ja Pythonilla

Jätä kommentti