Uncategorized

Snúið mál – íslenska

Á degi íslenskrar tungu sem haldinn var þann 16. nóvember síðastliðinn var m.a. opnaður aðgangur að nýrri útgáfu gagnagrunns sem nefnist “Beygingarlýsing íslensks nútímamáls“. Í Beygingarlýsingunni er í dag að finna fullkomin beygingardæmi yfir 250 þúsund íslenskra orða!

Gögnin í þessum grunni eru unnin af Kristínu Bjarnadóttur málfræðisnillingi á Orðabók Háskólans í samvinnu við fleira gott fólk þar, en sjálfur forritaði ég kerfið sem heldur utan um beygingarnar, nýskráningar orða o.s.frv.

Þetta hefur verið í rólegri vinnslu hjá okkur í næstum 2 ár. Afar fróðlegt ferli og ég hef m.a. lært ótrúlegustu hluti um uppbyggingu og flækjustig íslenskunnar.

Nokkrir áhugaverðir punktar varðandi þetta allt saman:

  • Fræðilega eru til allt að 272 beygingarmyndir af sagnorðum! Að vísu er engin sögn sem hefur allar þessar myndir, en það eru allnokkur orð sem hafa meira en 200 myndir. Þetta vex svo enn ef til eru afbrigði af beygingunni, þ.e. ef sögnin beygist á fleiri en einn veg.
  • Nafnorð geta ekki haft fleiri en 16 beygingarmyndir, en lýsingarorð hafa allt að 120.
  • Nokkur orð deila toppsætinu sem “flóknustu” orð íslenskrar tungu, þ.e. hafa flestar beygingarmyndir eða 227. Þetta eru allt lýsingarorð sem enda á “-ull” eins og “sannsögull” og “seinförull“, en óvenjumargar beygingarmyndir þessara hafa afbrigði.
  • Þau 256.618 orð sem eru í safninu hafa samtals 5.727.946 beygingarmyndir. Það gerir að meðaltali 22,32 beygingarmyndir af hverju orði. Oft hafa orð þó margar beygingarmyndir sem ritaðar eru á sama hátt (“Hjalli um Hjalla frá Hjalla til Hjalla”). Séu þær taldar frá stendur eftir að orðin í Beygingarlýsingunni hafa ekki NEMA 2.699.158 beygingarmyndir!

Magnað.

Það má nálgast ýmsa tölfræði og frekari upplýsingar um safnið á vef beygingarlýsingarinnar.

“Leiðrétt” stig í Scrabble

Ég get ekki neitað því að ég er nörd. Ein af annars ótal ótvíræðum sönnunum þess fylgir hér með.

Okkur hjónin hefur stundum grunað þegar við erum að spila Scrabble að stigin sem valin hafa verið þegar íslensk útgáfa spilsins var gerð endurspegli ekki endilega tíðni þeirra í íslensku máli.

Bara ein leið til að komast að því. Taflan hér að neðan er niðurstaða stafatalningar úr stórum íslenskum orðalista. Hún ætti því að endurspegla nokkuð vel tíðni þeirra í orðum sem löglega er hægt að setja fram í Scrabble.

Scrabble-fólki til ánægju ættu E-in – miðað við þessar niðurstöður – að vera einu færri og gefa tvö stig í stað eins. Þorn-ið ætti líka að gefa 8 stig í stað 4 og fleira, en þetta má allt sjá í eftirfarandi töflu.

Núverandi útgáfa “Leiðrétt” útgáfa
Stafur Staftíðni Stig Fjöldi Stig Fjöldi
a 216.728 1 10 1 10
n 208.844 1 8 1 8
r 200.548 1 7 1 8
i 168.023 1 8 1 7
s 145.558 1 6 1 6
u 128.589 1 6 1 6
l 126.598 2 3 1 6
t 112.659 1 5 1 5
e 91.175 1 6 2 5
g 88.555 2 4 2 4
k 82.294 2 3 2 3
m 77.741 2 3 2 3
ð 75.067 2 5 2 3
f 64.970 3 3 3 3
d 45.105 4 2 3 3
v 37.539 3 2 3 2
h 34.907 3 2 3 2
ó 33.795 6 1 4 2
j 32.632 5 1 4 2
b 29.558 6 1 4 2
á 27.931 4 2 4 1
o 27.027 3 3 5 1
p 25.064 8 1 5 1
ö 24.741 7 1 6 1
æ 23.151 5 1 6 1
y 21.647 7 1 6 1
í 20.030 4 2 7 1
ú 14.753 8 1 7 1
þ 9.123 4 1 8 1
ý 7.031 9 1 8 1
é 6.574 6 1 9 1
x 1.325 10 1 10 1

Stórleikur Apple

Hæpmaskína Apple fór á fullt um helgina og í dag kynntu þeir nokkrar nýjungar.

Sjálfur var ég nokkurnveginn viss um að þeir ætluðu að kynna iPod-farsímann sem er klárlega í undirbúningi. Það má meðal annars má lesa úr splunkunýju einkaleyfi sem þeir fengu í fyrir helgina.

Ég varð því fyrir hálfgerðum vonbrigðum með fyrstu fréttir af atburðinum. Nýjar útgáfur af helstu iPod-línunum, kvikmyndir í iTunes búðina (að vísu “bara” Disney og tengd stúdíó til að byrja með, s.s. Pixar, Miramax og Touchstone) sem var nokkuð fyrirsjáanlegt og svo set-top box sem kveikti að vísu í mér. Græjan gengur undir nafninu iTV og er má lýsa sem sjónvarpsviðmóti á iTunes búðina og þá auðvitað með áherslu á myndirnar frekar en tónlistina. Jafnframt munu þeir bjóða upp á eitthvað af live efni, og gerðu þar mest úr beinum útsendingum frá öllum NFL leikjum í vetur. iTV mun verða formlega kynnt á Macworld í janúar næstkomandi.

En stóru tíðindin fyrir okkur voru í smáa letrinu. iTunes kvikmyndaverslunin verður ALÞJÓÐLEG á næsta ári. Þetta þýðir það að við – hérna í litlu Evrópu – sem svo oft er litið framhjá, munum geta keypt Disney-myndir á iTunes á næsta ári. Ég held svei mér þá að Steve Jobs hafi fengið upp í háls af réttindamafíunni og ákveðið að breyta heiminum einu sinni enn.

Jobs hefur fyrnasterka stöðu í Disney fyrirtækinu (stjórnarmaður þar og sterkur hluthafi) og hefur vafalaust notað þá stöðu til að “liðka fyrir” samningi milli Disney og iTunes um dreifingu á heimsvísu, án allrar region-vitleysu og sérsamninga við RIAA, STEF og hvað þau heita nú öll þessi rétthafabatterí í hverju landi. Þetta á án efa eftir að skila sér ríkulega til Disney, en á sama tíma skera á nokkra liði í virðiskeðjunni sem munu auðvitað – að venju – berjast hart á móti þessuari þróun. Fordæmið mun hins vegar ryðja brautina fyrir önnur kvikmyndastúdíó og svo jafnvel tónlistarútgefendur líka inn í sama módel, bæði á iTunes og annarsstaðar.

Kominn tími til að einhver gerði eitthvað í þessu, enda er núverandi staða á birtingar- og dreifingarrétti fullkomlega úrelt. Áfram Jobs!