Till startsida

Svensk morfologisk databas (SMDB)

Svensk morfologisk databas (SMDB) tar sin utgångspunkt i 12:e upplagan av SAOL (1998). De c:a 120 000 ingående orden indelades i böjningsgrupper i syfte att generera samtliga böjningsformer och därmed skapa en fullformsdatabas. Vid genereringen försågs samtliga former med grammatisk märkning (s.k. taggning). Formerna presenteras i databasen såväl med som utan ordledsmarkeringar.

Den 13:e upplagan av ordlistan skapades på basis av den 12:e. Samkörningen av fullformsdatabasen med Språkbankens textdatabas gav ett viktigt underlag för bedömningen av vilka ord som kunde tas bort (resultatet blev ca 5 000) men samtidigt vilka ord som kunde tillföras (ca 10 000). Den nya upplagan (2006) kom sålunda att innehålla ca 125 000 ord.

SMDB härbärgerar alltså idag innehållet i SAOL 13 (som nu i sin tur bildar underlag för en kommande 14:e upplaga). Man kan i databasen nå varje ord och dess böjningsformer och dessutom få aktuella frekvenser från Språkbankens material som idag omfattar ca 240 miljoner ord. Sifferuppgifterna begränsas tills vidare av homografiproblemet (korrektheten för frekvensen för substantivet tiger blir lägre än den för substantivet häst eftersom den obestämda formen tiger också fungerar som presensform till verbet tiga).

När man söker fram ett ord vid den s.k. uppblåsningen i SMDB får man också reda på den gruppbeteckning som ordet i fråga har. Via ett annat program kan man sedan söka på denna, varvid samtliga ord listas som hör till gruppen i fråga. Via ett tredje program kan man, eftersom alla ordformerna är taggade, söka fram frekvenser för speciella former, t.ex. obestämd genitiv singularis.

När Svensk ordbok utgiven av Svenska Akademien (SO) kommer ut hösten 2009 finns där ett antal ord som saknas i SAOL 13. Också dessa kommer inom kort att tillföras SMDB.

Vid samkörningen av Språkbanksmaterialet mot fullformsdatabasen erhålls dessutom alla ord och ordformer som saknas i SAOL 13. Även detta material är sökbart via ett särskilt program i SMDB.

Kontaktinformation

Anna Hannesdóttir, Lexikaliska institutet

Box 200, 405 30 Göteborg

Besöksadress:
Lennart Torstenssonsgatan 6

Telefon:
+46 (0)31 786 44 66

Till sidans topp

© Göteborgs universitet, Box 100 , 405 30 Göteborg
Tel. 031-786 0000, Kontakta oss

Om webbplatsen | Karta