Á degi íslenskrar tungu sem haldinn var þann 16. nóvember síðastliðinn var m.a. opnaður aðgangur að nýrri útgáfu gagnagrunns sem nefnist “Beygingarlýsing íslensks nútímamáls“. Í Beygingarlýsingunni er í dag að finna fullkomin beygingardæmi yfir 250 þúsund íslenskra orða!
Gögnin í þessum grunni eru unnin af Kristínu Bjarnadóttur málfræðisnillingi á Orðabók Háskólans í samvinnu við fleira gott fólk þar, en sjálfur forritaði ég kerfið sem heldur utan um beygingarnar, nýskráningar orða o.s.frv.
Þetta hefur verið í rólegri vinnslu hjá okkur í næstum 2 ár. Afar fróðlegt ferli og ég hef m.a. lært ótrúlegustu hluti um uppbyggingu og flækjustig íslenskunnar.
Nokkrir áhugaverðir punktar varðandi þetta allt saman:
- Fræðilega eru til allt að 272 beygingarmyndir af sagnorðum! Að vísu er engin sögn sem hefur allar þessar myndir, en það eru allnokkur orð sem hafa meira en 200 myndir. Þetta vex svo enn ef til eru afbrigði af beygingunni, þ.e. ef sögnin beygist á fleiri en einn veg.
- Nafnorð geta ekki haft fleiri en 16 beygingarmyndir, en lýsingarorð hafa allt að 120.
- Nokkur orð deila toppsætinu sem “flóknustu” orð íslenskrar tungu, þ.e. hafa flestar beygingarmyndir eða 227. Þetta eru allt lýsingarorð sem enda á “-ull” eins og “sannsögull” og “seinförull“, en óvenjumargar beygingarmyndir þessara hafa afbrigði.
- Þau 256.618 orð sem eru í safninu hafa samtals 5.727.946 beygingarmyndir. Það gerir að meðaltali 22,32 beygingarmyndir af hverju orði. Oft hafa orð þó margar beygingarmyndir sem ritaðar eru á sama hátt (“Hjalli um Hjalla frá Hjalla til Hjalla”). Séu þær taldar frá stendur eftir að orðin í Beygingarlýsingunni hafa ekki NEMA 2.699.158 beygingarmyndir!
Magnað.
Það má nálgast ýmsa tölfræði og frekari upplýsingar um safnið á vef beygingarlýsingarinnar.