Mikä kielimalli on paras suomenkieliseen käyttöön?

Meidän pieni kielialueemme aiheuttaa että joudumme kaikessa tekoälyyn liittyvässä tarkemmin valitsemaan toimiiko sovellus myös suomenkielellä.

Puheentunnistus toimii varmemmin jos kielenä on englanti.
Kielimallien sisäinen ajattelu toimii joko englanniksi tai kiinaksi.
Puheentuottajat pitää aina hienosäätää toimimaan myös meidän kielellämme.

Kielimallin pitää omassa assistentissani pystyä kääntämään puhumani suomenkieli englantiin, koska kotiautomaatiossani kaikki laitteiden nimet ovat englanniksi. Samoin kun assistentti vastaa minulle, pitää kieli olla taas käännetty takaisin suomeksi. En halunnut että joutuisin omassa kodissani sanomaan "turn up the living room light", vaan suomen kielen käyttö on luonnollisempaa. Samoin kun nettailuassistenttini hakee netistä tietoa, pitää sen osata kääntää haku englanniksi ja myöskin palauttaa syntyneet vastaukset taas suomeksi. Jo pelkästään Ylen uutisten haku-assistentille aiheuttaa vaikeuksia tiivistää Ylen RSS-uutisia minulle puhuttuun muotoon.

Tällä hetkellä minulla on käytössä OpenAIn gpt-oss-120b-kielimalli lähinnä sen takia että se osaa suomea suhteellisen hyvin, sekä toimii MoE-mallina koneessani vikkelästi. Kokeilin hetken kehuttua uutta Qwen3.5 mallia, mutta sen suomenkieli oli niin täynnä virheitä Ylen uutisia lukiessaan etten pystynyt enää edes päättelemään mitä se yritti kertoa.

Juuri julkaistiin Googlen Gemma 4 kielimalli vapaaseen käyttöön ja sitä oli myös testattu EUn EuroEval kielitestissä Suomen osalta ja oli testissä sijoittunut jopa paremmaksi kuin kaikki muut testatut, mukaanlukien myös konesaleissaan sijatsevat. Joten pitäähän sitä kokeilla. En tosin uskonut että gpt-oss-120b sijoittuisi kovin kauaksi Gemma4:n lukemista, joten ensimmäinen työ oli ajaa samat testit myös sille.

Euroeval Suomi

Testissä on viisi osuutta:

sentiment-classification
Tämä on tavallinen sentimenttianalyysi, jossa kielimallille annetaan teksti, ja pyydetään kertomaan onko tekstin sävy positiivinen, negatiivinen vai neutraali. Tähän kielimalleja käytetään paljon esim. asiakaspalautteiden läpikäynnissä.

named-entity-recognition
Tässä testissä annetaan lauseita, joiden sanoista kielimallin pitää kertoa mitkä ovat erisnimiä, ja mitkä tavallisia sanoja.

linguistic-acceptability
Kielimallille annetaan lause, ja kielimallin pitää kertoa onko lause kieliopillisesti oikein.

reading-comprehension
Luetun ymmärtäminen ts. kielimallille annetaan teksti, jonka jälkeen tehdään hyvin yksinkertainen kysymys tekstin sisällöstä. Mitään isompaa älykkyyttä ei kysymykseen vastaamisen pitäisi vaatia. Vain tekstin ymmärtämistä.

summarization
Kielimallille annetaan teksti, josta sen pitää tehdä yhteenveto. Tämä on ehkä lähinnä sitä Ylen uutisten lukua ja siitä ydinkohtien etsimistä.

common-sense-reasoning
Maalaisjärjen käyttö ts. kielimallille annetaan yksinkertaisia pulmatilanteita, joihin sen pitää löytää järkevä vastaus. Kielen ymmärtäminen näissä on oleellista, vaikka tämä vaatii myös kielimallista myös älykkyyttä.

Leaderboardissa kielimallit oli listattu Rank-arvon mukaisesti, mutta sen laskeminen vaatisi kaikkien muidenkin mallien arvojen laskemista, koska siinä lasketaan mikä on jokaisen mallin sijainti yksittäisessä testissä ja Rank on sitten eräänlainen keskiarvo siitä eli jos lisään oman testin, pitäisi minun laskea samalla metodilla myös muiden mallien Rank-arvot uusiksi. En lähtenyt sille tielle.

Ajoin siis testin Gpt-0ss-120b mallille thinking=medium asetuksella. Tulokset olivat yllättävän hyviä siinä että tässä pienempien kielimallien valikoimassa se keräsi kolme ykkössijaa mikä on hyvä tulos etenkin kun huomioi että otin vertailuun mukaan myös OpenAIn Gpt-5.4:n. Selviä heikkouksiakin on eli erillisnimien tunnistus ja luetun ymmärtäminen. Maalaisjärkitesti myös vaatii vielä erillisen testikierroksen, koska löysin yhden maininnan netistä että Hellaswagin englanninkielisestä testistä olisi tullut n. 98%, mutta mistään en löytynyt iten sitä ajettua testiä. Toisaalta nyt kun minulla on Euroeval asennettuna, niin voin senkin suhteellisen nopeasti ajaa.

	sentiment-classification	named-entity-recognition	linquistic- acceptability	reading-comprehension	summarization	common-sense-reasoning
	scandisent_fi	turku_ner_fi	scala_fi	tydiqa_fi	xlsum_fi	hellaswag_fi
Gemma-4-31B-it	91,88	67,21	58,36	59,69	32,16	80,17
Gpt-5.4-2026-03-05	90,76	53,31	41,59	63,41	32,12	79,03
Gemma-4-26B-A4B-it	91	61,92	45,41	57,89	32,22	66,73
Mistral-Small-3.1-24B-Instruct-2503	92,17	55,35	38,28	74,86	30,89	63,4
Mistral-Small-3.2-24B-Instruct-2506	91,61	46,06	35,83	74,97	30,87	56,29
gpt-oss-120b(medium)	88,7	50	31,6	61,3	28,3	52,3
Gpt-oss-20b(medium)	90,63	38,68	29,89	62,5	27,4	40,41

Edit: Korjasin testistä saatuja arvoja, koska varsinaiseen rank/leaderboardiin valittiin testissä saadusta kahdesta mittarista toinen ja se ei ollutkaan mikä sivujen taulukoissa oli.

Ajoin myös Hellaswag-testin myös englanniksi, koska epäilin että gpt-oss-120b:n huono tulos tulee vain siitä ettei se pärjää muutenkaan tuossa testissä. Niinkuin olikin:
google/gemma-4-31B-it (val)
englanti: 85,65(mcc), 89,06(accuracy)
suomi: 80,17(mcc), 85,20(accuracy)

gpt-oss-120b-f16
englanti: 67,59(mcc), 75,35(accuracy)
suomi: 52,30(mcc), 64,38(accuracy)

Toisaalta testin kattavuudelle ja tarkkuudelle voidaan asettaa epäilyjä, koska en oikeasti usko että 31Bn kielimalli osaa suomen kieltä paremmin kuin ne konesalimallit. Testin lukuihin kannattaakin suhtautua niin että se kertoo osaako kielimalli yhtään tyydyttävästi kieltä. Mitään tarkempia nyansseja en usko noista luvuista irtoavan. Minulle sen arvo on siinä että tiedän mitkä ovat niitä malleja, mitä kannattaa edes kokeilla.

Flow : More with less

Search This Blog

Mikä kielimalli on paras suomenkieliseen käyttöön?

Comments

Post a Comment