Giellatekno - senter for samisk språkteknologi

Språkteknologi er alle teknologiske løysingane som har med språk å gjere. Visse språkuavhengige teknologiske løysingar (preparerte kalveskin og lause blytypar) har sett si glanstid, mens andre (grafittiblandinga i blyantar) framleis er med oss. Men i denne samanhengen er det digital teknologi vi snakkar om, og den typen som varierer frå språk til språk.

For å kunne fungere digitalt (som i den teksten du les no) må eit språk ha digitale løysingar på plass. Norsk må ha standardiserte verdiar for æøå og tastatur til å skrive dei, det same gjeld nordsamisk med sine bokstavar á.

Maskinomsetjing, automatisk skriving av samandrag, intelligent informasjonssøk (“søk 'fisk' og få tilslag på 'torsk', søk 'nordmann' og få tilslag på 'nordmenn'), ordretteprogram, datamaskiner som snakkar og datamaskiner som forstår når du snakkar til dei, til alt dette trengst det programvare som simulerer det språket det gjeld; med andre ord: språkteknologi.

Språk utan språkteknologiske løysingar blir ikkje med på overgangen frå penn via skrivemaskin til datamaskin. I framtida vil fleirspråklege publikasjonar (som t.d. den firespråklege regjeringa.no eller den til ein viss grad to-tre-språklege forsking.no) vere mogleg å oppretthalde berre med hjelp av maskinomsetjingsprogram, datastøtta omsetjingsplattformar og digitale terminologistyringsprogram.

Attom alt dette ligg det maskinlesbare modellar av ordforråd og grammatikk, i vårt tilfelle for dei samiske språka. I tillegg til å danne grunnlaget for sluttbrukarprogram som dei vi lista opp her, gjer språkteknologien det også mogleg å forske på språk på ein fullstendig ny måte. I tillegg til å sjå på einskildord og einskildsetningar kan vi no analysere all tilgjengeleg tekst i ein sveip, og vi kan sjå på eigenskapane ikkje berre til einskildord, men til heile ordforrådet på ein gang.

For Giellatekno er det dei samiske språka som gjeld. Det å analysere samisk er ikkje trivielt, kvart ord har bokstavleg talt hundrevis av bøyingsformer, og tar vi med avleiingsformer blir talet langt høgare. Som alle andre språk har dei samiske språka mykje formlikheit: Den riktige analysa av ei ordform er avhengig av konteksten ho står i. Norsk har former som “landa” (substantiv eller verb?), samisk har former som “muitalit” (å fortelje / vi fortel / dei fortel / du fortalde), det å finne rett form, og deretter rett setningsanalyse, krev program med reglar frå samisk syntaks.

Denne bloggen vil dels fortelje kva som går føre seg nede i desse analysefilene, og dels kaste eit skrått blikk på utviklinga av appar, dingsar og ulike typar av språkprogram, frå ein samisk ståstad.