Kirjoitin englanniksi Solitan data-blogiin tekstianalytiikkaprojektista, jossa tavoitteena oli automatisoida rahoitushakemusten manuaalisen luokittelu. Linkki blogiin löytyy tästä .

FastText tekstiluokitteluprojektissa - Tiivistelmä

Ensisijainen työkalu tekstiluokittelussa oli Facebookin kehittämä FastText-paketti. Taustalle rakennettu neuroverkko toimii erityisen hyvin suomen kaltaisille kielille, koska se osaa huomioida sanojen taivutusmuodot.

Haasteita tuotti datan jäsentäminen FastTextia varten ja luokkien epätasainen koko. Tulokset olivat lupaavia ja päihittivät yksinkertaiset menetelmät, kuten yleisimmän luokituksen valitsemisen.