Dansk Sprogteknologi i verdensklasse – rapport fra sprogteknologiudvalget

Kunstig intelligens skal blive bedre til dansk.

I begyndelsen af 2018 nedsatte Kulturministeren et sprogteknologisk udvalg under Dansk Sprognævn. Udvalget har i løbet af 2018 inddraget mere end 120 offentlige og private institutioner og virksomheder i en række workshops og seminarer for at afdække behovet og afsøge mulighederne for at understøtte brugen af dansk i forbindelse med kunstig intelligens (AI). Resultaterne præsenteres nu i rapporten Dansk Sprogteknologi i verdensklasse.

Meldingen fra alle sider er meget klar: Udvikling af chatrobotter, taleassistenter, tekstanalysesystemer, automatisk oversættelse mm. med høj sproglig kvalitet for dansk er en enorm udfordring for de globale og lokale AI-virksomheder. De investeringer som skal til, er for høje, og det modvirker udviklingen af nye AI-produkter i et sundt og konkurrencedygtigt marked.

Der er derfor brug for offentlige investeringer i åbne sprogresurser og bedre værktøjer til dansk sprogforståelse (tale og tekst) for at det danske samfund kan få udbytte af den nye teknologi. Samtidig bør der investeres mere i uddannelse og forskning i dansk sprogteknologi for at dansk også kan være med i fremtidens systemer.

Gennem årene er der med offentlig og privat støtte blevet udviklet en række sprogresurser og -værktøjer for dansk, men indsatserne har været spredte og ikke koordinerede. Der har bl.a. ikke været tilstrækkelig opmærksomhed på at disse resurser, som ofte har kostet millionbeløb at producere, efterfølgende skulle kunne stilles frit til rådighed. Det betyder at mange datasæt kun er begrænset eller slet ikke anvendelige.

Udvalget foreslår derfor:

  1. At der oprettes en organisation som har til opgave at koordinere indsatsen for dansk sprogteknologi
  2. At der oprettes en dansk sprogbank som skal understøtte udviklingen og vedligeholdelse af danske produkter baseret på sprogteknologi og kunstig intelligens, bl.a. ved at gøre danske sprogresurser og sprogværktøjer frit tilgængelige, herunder en dansk termbank
  3. At uddannelse i dansk sprogteknologi prioriteres
  4. At forskning i dansk sprogteknologi styrkes.

Udvalget foreslår endvidere at offentlige institutioner får mere fokus på at de ved at stille sproglige data til rådighed kan være med til at sikre brugen af dansk på alle samfundsområder.

I forbindelse med udgivelsen af rapporten udgiver udvalget en oversigt over de danske sprogresurser og sproglige datasæt som har kunnet identificeres i forbindelse med udvalgets arbejde, og som evt. kan danne grundlaget for en dansk sprogbank.

Kulturminister Mette Bock udtaler:

“Jeg vil gerne kvittere for det store og fagligt velfunderede arbejde, som Sprogteknologiudvalget har lagt i sin rapport. Der tegner sig et tydeligt billede af, at teknologier med sproglige komponenter spiller en stadig voksende rolle. Det er afgørende, at det danske sprog også kan følge med ind i en tidsalder, hvor sprogteknologien gradvist integreres i flere og flere områder af vores liv. Jeg ser frem til at se nærmere på udvalgets konklusioner og anbefalinger og glæder mig samtidig over, at regeringen allerede har fokus på området i forbindelse med planen om Digital velfærd i verdensklasse, som udkom i oktober 2018 og den Nationale Strategi for Kunstig Intelligens, som blev udgivet i marts.”

Udvalgets formand Sabine Kirchmeier, Dansk Sprognævn, tilføjer: ”Sprogets betydning for udvikling af kunstig intelligens har i alt for lang tid været overset. Mange tror at data kun er tal, men faktum er at der ligger enorme mængder af viden om os og vores samfund gemt i danske tekster og optagelser af dansk tale. Men man skal knække sprogkoden for at forstå indholdet – og det kræver bedre dansk sprogteknologi og fri adgang til flere sproglige data.

Det har været et stort, men også taknemmeligt arbejde at skabe et overblik over det danske sprogs stilling i forhold til sprogteknologi. Emnet er komplekst, men vi har gjort os stor umage med at forklare det grundigt, så rapporten også kan læses som en introduktion til dansk sprogteknologi. Opbakningen til anbefalingerne har været stor, og det er et enigt udvalg der står bag anbefalingerne”.

Læs mere

Læs rapporten Dansk Sprogteknologi i verdensklasse (pdf)

Se Sprognævnets oversigt over danske sprogresurser (xslx)

Kontakt: Sabine Kirchmeier (+45 26 84 63 70).

30 mio. kr. til dansk sprogbank

I forbindelse med Danmarks første nationale strategi for kunstig intelligens, som regeringen præsenterer i dag, har regeringen afsat knap 30 mio. kr. over de kommende fire år til at lave en fælles dansk sprogresurse, som skal være frit tilgængelig for virksomheder, offentlige myndigheder og forskere.

I forbindelse med Danmarks første nationale strategi for kunstig intelligens, som regeringen præsenterer i dag, har regeringen afsat knap 30 mio. kr. over de kommende fire år.

Pengene skal gå til at lave en fælles dansk sprogresurse som skal være frit tilgængelig for virksomheder, offentlige myndigheder og forskere.

“Det er et virkelig fint initiativ som flugter med vores anbefalinger”, udtaler Sprognævnets direktør Sabine Kirchmeier.

“Sprognævnet har længe gjort opmærksom på at det danske sprog kræver særlig opmærksomhed i forbindelse med kunstig intelligens hvis vi ikke skal sakke agterud i forhold til fx de engelsktalende lande. Endvidere bør borgerne møde et korrekt og forståeligt dansk når de kommunikerer med fx robotter og taleassistenter”.

Læs regeringens pressemeddelelse.

Se Sprognævnets video om sprogteknologi, og læs mere om sprogteknologiudvalgets arbejde.

Se temaet om sprogteknologi på sproget.dk.

Regeringens sammenhængsreform: Dansk sprogteknologi i verdensklasse!

Regeringen har 23.10.2018 som led i Sammenhængsreformen lanceret reformsporet “Digital service i verdensklasse”. Reformsporet skal ved hjælp af digitalisering og nye teknologier udvikle den offentlige sektor så borgere og virksomheder kan få en mere sammenhængende og tidsvarende digital service.

Blandt de ambitiøse mål er dansk sprogteknologi i verdensklasse.

Her kommer de uddrag af regeringens plan som omhandler sprogteknologi:

Danmark skal forrest i anvendelsen af kunstig intelligens (resumé)

“Regeringen vil gøre Danmark til ét af de førende lande inden for kunstig intelligens inden 2025. Der igangsættes derfor følgende initiativer:

  • Der udarbejdes en national strategi for kunstig intelligens, der går på tværs af den offentlige og private sektor, og som både sikrer bedre rammer for anvendelsen af kunstig intelligens og samtidig opstiller en række principper for anvendelsen, bl.a. i forhold til privatliv, sikkerhed, retfærdighed mv.
  • Kunstig intelligens afprøves gennem oprettelsen af en række signaturprojekter
  •  Der udvikles en dansk sprogressource, så man fx kan anvende talegenkendelse” (…)

4.3 Danmark skal forrest i anvendelsen af  kunstig intelligens

(…) “Samtidig er det afgørende for udviklingen af kunstig intelligens på flere områder, at man kan anvende talegenkendelse og sprogforståelse. Da Danmark er et lille sprogområde, er sprogressourcen imidlertid ikke udviklet tilstrækkeligt. Derfor vil regeringen tage initiativ til, at der
udvikles en dansk sprogressource til fri afbenyttelse, så arbejdet med kunstig intelligens kan udvikles yderligere i Danmark.” (…)

Dansk sprogteknologi i verdensklasse

“Talegenkendelse og sprogforståelse gør det muligt at understøtte forskellige former for opgaver. Det gælder beslutningsstøtte ved sagsbehandling af miljøgodkendelser, gennemgang af årsregnskaber og revisionserklæringer, klagesager, support- og akutopkald, mailsvar mv. En betydelig barriere for effektiv anvendelse af talegenkendelse og sprogforståelse på dansk er, at Danmark er et lille sprogområde. Derfor igangsættes opbygningen af en sprogressource på dansk, der sættes til fri afbenyttelse, så leverandørerne har en fælles sprogressource af høj kvalitet, der giver dem mulighed for at udvikle gode løsninger inden for talegenkendelse og sprogforståelse med et højt præcisionsniveau.”

Læs om initiativerne på regeringens hjemmeside.

EU-Parlamentet har vedtaget en resolution om sprogteknologi

Det er ikke kun i Danmark man begynder at blive opmærksom på at kunstig intelligens og sprogteknologi skal fungere på borgernes eget sprog. EU-Parlamentet vedtog den 11. september 2018  med et overvældende flertal en resolution om ligebehandling af sprog i den digitale tidsalder.

I oplægget til Parlamentet står der bl.a.:

”Til trods for at sprogteknologier er yderst vigtige elementer i den digitale revolution, er de ikke tilstrækkeligt repræsenteret i de europæiske beslutningstageres dagsorden.

Sprogteknologier bidrager til ligestilling af alle europæiske borgere i deres dagligdag, uanset hvilket sprog de taler. Selv om mindre sprog eller mindretalssprog vil vinde mest ved sprogteknologier, er værktøjerne og ressourcerne til dem ofte knappe og i nogle tilfælde ikke-eksisterende.

Der er reelt en voksende teknologisk kløft mellem store, velfinansierede sprog og de øvrige officielle sprog, sprog med sidestillet officiel status eller ikke-officielle EU-sprog, hvoraf nogle måske allerede er truet af digital udryddelse.

For at slå bro over denne teknologikløft er det nødvendigt med en politik, der fremmer teknologisk udvikling for alle europæiske sprog. Bevarelsen af et sprog og dermed af den kultur, der udvikler sig omkring det, er i høj grad betinget af dets evne til at fungere og være nyttigt i moderne og foranderlige miljøer som den digitale verden.

Kulturel og sproglig mangfoldighed er således tæt forbundet med kapaciteter og ressourcer i den digitale verden.”

Betænkningen foreslår en række politiske løsninger der vil kunne give større sproglig ligestilling i Europa gennem brug af ny teknologi ved at

  • forbedre de institutionelle rammer for sprogteknologiske politikker
  • skabe nye forskningspolitikker med henblik på at øge anvendelsen af sprogteknologi i Europa
  • gøre brug af uddannelsespolitikker til at sikre sproglig ligestilling i fremtiden i den digitale tidsalder
  • øge støtten til forbedring af både private virksomheders og offentlige organers udnyttelse af sprogteknologier.

Læs betænkningen på dansk.

Følg behandlingen, og se flere dokumenter.

Se uddrag af behandlingen i Parlamentet

 

Hvordan arbejder sprogteknologiudvalget?

Sprogteknologiudvalget består af 17 medlemmer (se medlemmer) som arbejder efter et kommissorium (se kommissorium) som er aftalt med Kulturministeriet. Arbejdet skal resultere i en rapport med anbefalinger. Udvalgets sekretariat ligger i Dansk Sprognævn.

Arbejdet er organiseret i udvalgsmøder og workshops. På udvalgsmøderne kortlægges situationen for sprogteknologi i Danmark, og det diskuteres hvilke anbefalinger udvalget skal give for at fremme udviklingen og brugen af sprogteknologi på dansk.

For at kunne afdække behovet for dansk sprogteknologi bedst muligt har sekretariatet organiseret en række workshops med mennesker og organisationer som hhv. bruger, udbyder, udvikler og forsker i sprogteknologi. Derudover er der planlagt 2 workshops om hhv. maskinoversættelse og terminologi.

Som supplement til workshopperne udsender sekretariatet spørgeskemaer til udvalgte informanter. Spørgsmålene skal belyse nuværende barrierer for brugen af dansk sprogteknologi og indsamle forslag til hvordan disse barrierer kan overvindes.

Resultatet af spørgeskemaundersøgelserne og workshopperne danner sammen med en grundig gennemgang af artikler og andre dokumenter om sprogteknologi grundlaget for udvalgets rapport.

Udvalgets arbejde formidles løbende via bloggen sprogtek2018.dk, hvor alle har mulighed for at stille spørgsmål og deltage i debatten.

Udvalget holder tæt kontakt med nordiske og europæiske organisationer der arbejder med sprogteknologi, for at dele viden på tværs af grænserne og afsøge samarbejdsmuligheder.

Sprogteknologiudvalgets rapport præsenteres i et afsluttende seminar i foråret/sommeren 2018.

Kulturministeren igangsætter sprogteknologisk udvalgsarbejde

Dansk Sprognævn har fået til opgave at lede det sprogteknologiske udvalg som er nedsat efter ønske fra kulturministeren

Udvalget skal med udgangspunkt i et brugerorienteret perspektiv kortlægge de nuværende og fremtidige behov for at benytte dansk og andre sprog samt sproglig viden i forhold til digitale tjenester og applikationer baseret på kunstig intelligens i centrale sektorer af samfundet. Udvalget skal vurdere i hvilket omfang det vil være muligt at imødekomme disse behov under inddragelse af de relevante spillere i erhvervslivet, den offentlige sektor samt uddannelses- og forskningssektoren.

Udvalget skal afklare behovet og perspektiverne for en national termbank (”sprogtermbank”) og inddrage resultater fra arbejdet med dansk terminologi og danske vidensbaser samt med begrebs- og datamodellering i det fællesoffentlige digitale arkitektursamarbejde.

Udvalget skal inddrage relevante resultater fra arbejdet med sprogteknologi og terminologi i andre lande, herunder EU og Norden, og pege på måder hvorpå en styrkelse af dansk sprogteknologi vil kunne gavne den enkelte borger og bidrage til at skabe vækst og effektivisering i samfundet.

Udvalget består af følgende medlemmer:

  • CTO Klaus Akselsen, MIRSK
  • Linguist, Partner, Head of Research and Innovation Esben Alfort, Ankiro ApS
  • Udviklingschef Lars Fremerey, GTS-foreningen
  • Computational Linguist Anna Katrine Jørgensen, Google
  • Sekretariatschef Jens Kellerup, Ballerup Kommune/OS2 – (Offentligt digitaliseringsfællesskab)
  • Direktør Sabine Kirchmeier, Dansk Sprognævn (formand for udvalget)
  • Direktør Jens Otto Kjærum, Dictus
  • Professor Bodil Nistrup Madsen, CBS – Copenhagen Business School
  • Seniorredaktør Sanni Nimb, Det Danske Sprog- og Litteraturselskab
  • Professor Bolette Sandford Petersen, Center for Sprogteknologi, Københavns Universitet
  • Forsknings- og Innovationsdirektør Anders Quitzau, IBM Research – Watson Advocate
  • Founder, Chief Visionary Officer Mads Rydahl, Unsilo
  • Kontorchef Jens Krieger Røyen, Digitaliseringsstyrelsen
  • Chefkonsulent Carl Østergaard, Odense Kommune

FAKTA:

  • Dansk Sprognævn er vært for udvalget
  • Arbejdet skal være afsluttet medio 2019
  • Bloggen sprogtek2018.dk er udvalgets centrale informations- og debatforum

KONTAKT:

Direktør Sabine Kirchmeier, Dansk Sprognævn, 26846370, sabine@dsn.dk

Hvad er sprogteknologi?

Af Peter Juel Henrichsen

Sprogteknologi er en type af IT-værktøj der styrker kommunikationen mellem sprogbrugere. Stavetjekkerne og korrekturprogrammerne i vores tekstbehandlingssystemer var nogle af de første praktisk anvendelige sprogteknologier, men i de senere år har de fået selskab af langt mere sofistikerede former for sprogstøtte. Et velkendt eksempel er den automatiske oversætter, som sætter to mennesker i stand til at skrive eller tale sammen hen over en sprogbarriere. Verdens mest benyttede automatiske oversætter er Google Translate.

Et andet eksempel på højteknologisk sprogstøtte er den kunstige stemme, også kendt som talesyntesen. Især syns- og talehandikappede har haft enorm nytte af talesyntese, som har bragt bøger, artikler og tidsskrifter inden for den blindes hørevidde og givet den multihandikappede en talestemme. Steven Hawking, kaldet vor tids Einstein, var en verdenskendt fortaler for teknologien og brugte den som sin kommunikative livline til og med sin egen dødsdag den 14. marts i år.

Talesyntesen er generelt blevet mødt med en vis skepsis. Mange syntes at de tidlige stemmer lød kunstigt. Hvem har ikke smilet af stednavne udtalt forvredent af syntesestemmer i GPS’er og i busser og tog? De seneste par år har kvaliteten dog taget et spring fremad, ikke mindst med skiftet til algoritmer baseret på neurale net. Nu er synteserne, for dansk og mange andre sprog, blevet så gode at man – i kortere forløb – ofte ikke kan afgøre om stemmen tilhører et menneske eller en computer.

Den, for tiden, absolut mest populære og omtalte sprogteknologi er talegenkenderen. Hospitalssektoren har brugt talegenkendelse i årevis, særligt inden for områder som patologi og kirurgi, hvor det er af stor værdi for personalet at slippe tasterne. Læger og assistenter kan i stedet diktere direkte ind i sygejournalen, og før patienten vågner, er journalen opdateret med operationens forløb. Derved mindskes både tidsforbruget og risikoen for fejl, som ellers var en alvorlig faktor den gang diktater måtte aflyttes og nedskrives af en lægesekretær.

Der er mange flere former for sprogteknologi, og alle har det til fælles at de bygger på en struktureret viden om sproget som det bruges af mennesker. At udvikle sprogteknologi består altså i at kombinere data om selve sproget (såsom ordbøger og grammatikker) med modeller af praktiske brugssituationer. I sprogværktøj til professionelle brugere indgår der ofte en model af et fagområde med en bestemt terminologi og en række betegnelser på produkter, steder, personer eller sagsforhold. Hvis værktøjet er udviklet til at støtte kontakten mellem en funktionær og en klient (lærer/elev, behandler/patient, politimand/afhørt osv.), skal der tilføjes viden om de vedtægter og handlinger som kendetegner situationen. Men først og sidst er det de sproglige komponenter som er hjertet i sprogteknologierne. Disse komponenter kan derfor i høj grad genbruges hen over det brede udvalg af sprogteknologier som vi allerede kender, og som vi aner bag horisonten.

Sprogteknologien vil snart gribe lige så dybt ind i vores hverdag som computeren og internettet gjorde. Fra at være et værktøj for specialister er sprogteknologien marcheret direkte ind i vores privatliv. Mange danskere begynder at varetage deres daglige planlægning uden at røre et tastatur: “Siri, skriv til min tandlæge, og aflys min tid i morgen!” Om få år kan enhver tale til sit hjem, sin bil eller sin bageovn og få et talesvar tilbage. De traditionelle sprogteknologier er i færd med at samle sig i en komplet AI-støttet helhed, en humanoid, eller robotassistent med kognitive evner og små ansatser til menneskelige egenskaber som humor og empati. Mange føler en uro ved dette scenarie. Vores sprog er noget af det mest private og personlige vi har. Det er måske grunden til at vi ser så mange nye scifi-film der kredser omkring automaten, ikke bare som assistent, men som ligeværdig partner. Tænk bare på fremragende og tankevækkende film som “Her” (2013) og “Ex Machina” (2014) der begge lader en talende maskine spille den ene rolle i et ømt parforhold.

At vi føler lidt fremtidsangst, er let at forstå, men der er al mulig grund til at møde udviklingen med åben pande og gribe de økonomiske og sociale muligheder som sprogteknologien også giver, særlig for et sprogområde der er stort nok til en ballet.

Dansk Sprognævn skal kortlægge sprogteknologi

Dansk Sprognævn har fået til opgave at lede det sprogteknologiske udvalg som er nedsat af kulturministeren. Udvalget skal undersøge hvordan det står til med dansk sprogteknologi – den del af kunstig intelligens der kan oversætte til og fra dansk, der kan kan få robotter og biler til at tale dansk og meget mere.

Her på siden kan du følge med i udvalgsarbejdet.

Alle er velkomne til at bidrage med  synspunkter og ideer. Hvilken rolle skal det danske sprog spille efterhånden som vores verden bliver mere og mere digital, og kunstig intelligens dukker op i vores stuer og på vores arbejdspladser? Hvad kan vi gøre for at støtte dansk sprogteknologi? Skriv en kommentar!