Tietotekniikka

Suomenkielisten sanojen perusmuotoistaminen ja stemmaus pythonilla

Suomenkielisten sanojen perusmuotoistaminen pythonissa. Perusmuotoistaminen tarkoittta sanojen muuntamista perusmuotoon.

Kirjoitin Solitan blogiin englanniksi aiheesta Finnish stemming and lemmatization in python.

Tämä on suomenkielinen tiivistelmä artikkelista.

Perusmuotoistaminen ja stemmaus avuksi tekstinlouhinnassa

Tekstianalytiikan ja koneoppimisen yhteydessä taivutettuja sanoja halutaan usein muuttaa yleispätevämpään muotoon. Esimerkiksi kissa, kissasta ja kissassammekohan viittaavat samaan asiaan, vaikka ne ovat eri sanoja. Tietokoneohjelma ei sitä ymmärrä.

Sanan perusmuotoistaminen tarkoittaa sitä, että äskeisen esimerkin kaikki sanat muutettaisiin muotoon kissa. Monissa tapauksissa koneoppimismalli toimii paremmin, kun kaikkia taivutusmuotoja ei tulkita erillisiksi sanoiksi.

Stemmaus eroaa perusmuotoistamisesta siinä, että se pureutuu syvemmälle kielitieteeseen.

Näihin yleisiin tekstianalytiikan operaatioihin löytyy niukasti suomenkielisiä työkaluja. Siksi halusin tehdä python-ohjelmointikieltä varten ohjeet alkuun pääsemiseksi.

Stemming ja lemmatization suomeksi

Blogikirjoituksen otsikon voisi suomentaa vaikka näin: Suomenkielisten sanojen stemmaus ja perusmuotoistaminen pythonilla.

Suomeksi stemming on Wikipedian mukaan stemmaus. Lemmatization puolestaan on suomennettu Wikipediassa termillä perusmuotoistaminen.

Tiivistelmä blogin sisällöstä

  • Mikä ero on termeillä stemmaus ja perusmuotoistaminen?
  • Voikko-kirjaston käyttäminen perusmuotoistamisessa
  • Kokonaisten lauseiden perusmuotoistaminen
  • Stemmaus pythonilla
  • Milloin kannattaa käyttää stemmausta ja perusmuotoistamista?

Pääset lukemaan kirjoitukseen Solitan blogissa tästä.

Jätä kommentti