Koneeni on Strix Halo eli kansanmukaisemmin AMD Ryzen Ai Max+ 395, joten konetehoja puheentunnistukseen pitäisi olla riittävästi. KenLM-mallin käyttö kuitenkin lisää vaatimuksia aika paljon. Common Voice 23 - aineiston testauksen kestosta saa hyvät arviot. Aineisto kestää 2:34 kun taas ajo large-mallin Whisperillä kestää 0:40. KenLM-mallilla ajo vie 1:45. Tästä voi suoraan laskea että normaali-Whisperillä kuormitus on 26% kun taas KenLM-mallilla selkeästi lähempänä rajoja eli 68%. Common Voicessa keskimääräinen kesto yhdellä lauseella Whisperillä oli 1,3s kun taas KenLM:llä 3,4s. Tuo jälkimmäinen luku onkin sitten se oleellisin kun käytetään Whisper Onlinea, jossa puheentunnistukseen syötetään jatkuvasti uutta puhetta, jota puheentunnistin askel askeleelta käy läpi syntyvää puhetta ja perusajatuksena on että kun puhe päättyy, suurin osa puheesta olisi jo käsitelty. Joka tapauksessa koodissa on nyt 2 sekunnin puheenpäättymisen tunnistus eli kun tulee hiljaista 2s, tulki...
- Get link
- X
- Other Apps