BokmålNynorsk
sitemap

Du er her:

Forsiden Nyheter Faglig Hva er stavekontroll
Hva er stavekontroll

Av Torbjørn Nordgård

Begrepet stavekontroll brukes ofte når det er snakk om tekstbehandling og hjelp til rettskriving. Noen ganger brukes begrepet på en unøyaktig og direkte feilaktig måte. Vi skal her se nærmere på hva automatisk stavekontroll er og hvorfor det er vanskelig å lage god stavekontroll for norsk.

Et stavekontrollprogram har to hovedoppgaver:

  • Identifisere ord som er feilstavet i en tekst og markere dem
  • Foreslå riktig stavet ord

Kontrollen kan skje fortløpende mens man skriver, eller den kan aktiveres på en tekst som lastes inn i tekstbehandleren. Man kan også tilbys å starte stavekontrollen fra begynnelsen av dokumentet man jobber med. Feilstavede ord blir normalt markert med rød understreking. Man skal kunne be stavekontrollprogrammet om å foreslå alternativer til et feilstavet ord. Dette skjer normalt ved at man klikker på høyre musetast når markøren er over ordet. Det spiller ingen rolle om markøren står i begynnelsen, midten eller slutten av ordet. Programmet skal da foreslå ord som alternativ til det feilstavede ordet, vanligvis inntil fem alternativer.

Gjenkjenningsproblemet

Det er i hovedsak to måter å identifisere feilstavede ord på. Den enkleste er å lagre det man antar er alle gyldige ord i en liste eller tabell. For hvert ord som skal kontrolleres, sjekker programmet om det finnes i listen. Hvis det ikke er der, sørger programmet for at ordet får rød strek under seg. Denne strategien vil fungere ypperlig for språk som er såkalt isolerende eller analytiske, som f.eks. mandarin kinesisk eller vietnamesisk. Slike språk har ingen eller minimalt med bøyninger. Den fungerer også, kanskje litt overraskende, veldig bra for engelsk, som ikke er kjent for å være et analytisk språk. Men engelsk har nokså begrensede bøyningsegenskaper, og det er et språk nesten uten produktive sammensetninger, som vi kommer tilbake til nedenfor.

Den andre og mer kompliserte strategien er å bruke det man på norsk kan kalle abstrakte endelige tilstandsmaskiner (finite state automata). Vi skal ikke gå inn på detaljer her, men de er i stand til å gjenkjenne ord i språk med mye bøyning og ulike typer sammensetninger, kalt agglutinerende eller syntetiske språk. Finsk og tyrkisk er eksempler på slike språk der ord kan være temmelig komplekse. Skandinaviske språk, tysk og nederlandsk hører også inn her, selv om de er mye ”enklere” enn f.eks. finsk mht ordbøyninger. Men i norsk og andre skandinaviske språk kan man sette sammen ord nokså fritt, f.eks. rumpekunstmalerier (Dagbladet 25. august 2010). Dette er et ord som man ikke vil finne i ordlister. Dette betyr at for norsk og andre skandinaviske språk vil ikke den enkle strategien ovenfor være tilstrekkelig, simpelthen fordi man ikke kan liste opp alle lovlige ordene i språket. Man ønsker naturligvis at stavekontrollen skal kunne skille mellom et korrekt stavet sammensatt ord og et sammensatt ord som er feilstavet. Man må derfor implementere en tilstandsmaskin, eller noe som er enda kraftigere, for at stavekontrollen skal være troverdig.

Forslagsproblemet

Den andre delen av stavekontrollproblemet – det å foreslå relevante alternativer – kan løses på en nokså likefrem måte dersom man baserer seg på den enkle løsningen av gjenkjenningsproblemet. Dersom et ord er feilstavet, kan man la programmet foreslå ord som ligner på det feilstavede ordet. Fortolkningen av ”ligner på” kan være det man kaller minimal redigeringsavstand, f.eks. at klis ligner på flis glis kis kli klin klip klips kliss kliv knis, altså at alternativet skiller seg fra det feilstavede ordet ved at et tegn er erstattet med et annet, et tegn er strøket eller et tegn er lagt til. Man kan også se for seg at tegnsekvenser kan erstattes, f.eks. at bynner blir foreslått rettet til begynner. Kombinasjoner av dette og minimal redigeringsavstand er også mulig.

Forslagsproblemet er vanskeligere dersom stavekontrollen skal ta hensyn til sammensatte ord. For et feilstavet ord som iskremkoer kan man tenke seg forslag som iskrem+kor, iskrem+køer, iskrem+koker, iskrem+koner, iskrem+kuer, iskrem+koder, iskrem+kroer, iskrem+koier, osv. Å identifisere alternativene og plukke ut de som bør foreslås, er ikke trivielt. I dette tilfellet er det iskremkuer (Dagbladet 25. august 2010).

Kvalitet

Når man skal vurdere kvaliteten til et stavekontrollprogram, bør man sjekke ordforrådet, inklusive personnavn, virksomhetsnavn og stedsnavn. Er ordforrådet for lite, kommer det røde streker under korrekt stavede ord. Programmene må både kunne identifisere feilstavede ord og foreslå korreksjoner. Stavekontroll for norsk må også kunne håndtere sammensatte ord. Dersom programmet ikke klarer å analysere sammensatte ord, vil alle korrekt stavede kreative nyord bli markert som feilstavet. I tillegg vil brukerne oppleve at røde streker forsvinner når ordene feilaktig deles opp, altså at et korrekt ord som ananasbiter markeres som feil, mens den lett komiske sekvensen ananas biter aksepteres.

 
footer_stripe