tölvur & tækni

Aðgangur að opinberum gögnum

Uppfært: Viðtalið er hér á Vísi.is

Ég hélt á dögunum fyrirlestur á málþingi Tungutækniseturs og Íslenskrar málnefndar. Yfirskrift málþingsins var “Á íslenska sér framtíð innan upplýsingatækninnar?” og fjallaði að mestu um tungutækni annars vegar og hins vegar þýðingar á hugbúnaði.

Mitt erindi fjallaði um mikilvægi aðgengis að góðum gögnum, einkum gagnasöfnum í eigu opinberra aðila fyrir nýsköpun. Þetta tel ég reyndar að eigi ekki bara við í tungutækni, heldur á mörgum öðrum sviðum nýsköpunar og reyndi að færa rök fyrir því. Glærurnar eru aðgengilegar á Slideshare.

Blaðamaður Markaðarins heyrði af þessu erindi (sem annars var haldið í litlum hópi íslensku- og tungutækinörda) og birti í dag viðtal við mig um málið (síða 13).

Textinn viðtalsins fylgir líka hér:

„Þjóðhagslegur ávinningur af því að tryggja opið aðgengi að opinberum gögnum er margfaldur á við mögulegar leyfistekjur og kostnað,“ segir Hjálmar Gíslason, tæknistjóri hjá Já – Upplýsingaveitum.

Hjálmar flutti á dögunum erindi um nýsköpun og mikilvægi aðgengis að opinberum gagnasöfnum.

Hann bendir á að í höndum opinberra aðila sé gríðarlega mikið af gögnum sem megi nýta til ýmiss konar nýsköpunar. Þar megi telja gögn frá Stofnun Árna Magnússonar í Íslenskum fræðum (einkum Orðabók Háskólans), Ríkisútvarpinu, Hagstofunni, Landmælingum, Seðlabankanum, Veðurstofunni, Alþingi, Þjóðskjalasafninu og mörgum fleirum.

Aðgengi að þessum gögnum sé hins vegar oft á tíðum háð ýmis konar hindrunum. Þau séu ekki til á stafrænu formi, erfitt sé að nálgast gögnin og finna, leyfismál séu óljós, gjöld séu tekin fyrir þau eða stofnanir einfaldlega liggi á þeim, „eins og ormar á gulli“.

„Verst af öllu er þegar gjaldtaka er jafnvel aðeins til málamynda, þá er bara verið að hindra notkun gagnanna – og þar með nýsköpun – án þess að nokkur von sé til þess að hafist upp í kostnaðinn við söfnun þeirra.“

Hjálmar nefnir dæmi af Emblu, íslensku leitarvélinni, og leitarvélum já.is. Þar er til að mynda gert ráð fyrir mismunandi myndum orða, leitarvélin þekkir nöfn þjóðþekktra einstaklinga, bókartitla, íslensk örnefni og jafnvel gert ráð fyrir skammstöfunum. „Þetta hefði ekki verið mögulegt án góðra gagna,“ segir Hjálmar. Sum þessarra gagna hafi fengist að kostnaðarlausu, önnur með samvinnu við hlutaðeigandi um endurgerð eða aðra nýtingu þessarra gagnasafna. Sem opnast aðgengi skiptir mjög miklu máli þar sem verkefni af þessu tagi séu oftar en ekki unnin af litlum fyrirtækjum, einstaklingum eða nemendum „með lítil fjárráð en mikinn áhuga“. Í þessum tilfellum hafi hins vegar tekist að leysa úr læðingi mikil verðmæti í umræddum gagnasöfnum. „Þá verður að hafa í huga að þegar um opinber gögn er að ræða, þá hefur almenningur þegar greitt fyrir að láta búa þau til,“ segir Hjálmar.

Tölur frá Bretlandi sýni að þjóðahagslegt tap af takmörkuðum aðgangi að opinberum gagnasöfnum, nemi einum milljarði punda á ári í glötuðum þjóðartekjum. „Þetta samsvarar 700 milljónum króna hér á landi ef höfðatölureglunni er beitt. Mér liggur við að segja milljarði. Hluta af þessum fjármunum mætti verja í aukna gagnasöfnun og umfram allt í að bæta aðgengi að gögnum sem þegar eru til – og samt komið út í þjóðhagslegum plús,“ segir Hjálmar Gíslason.

Að kryfja texta…

IBM hefur undanfarin tvö ár eða svo verið að þróa tölfræði-, gagna- og graf-græju sem nefnist ManyEyes.

Í síðustu viku var ég svo heppinn að fá að sjá fyrirlestur frá höfuðpaurnum á bakvið þessa þjónustu. Þar var hann að sýna tiltölulega nýlega viðbót sem eru tól til að grafa í hreinan texta (frekar en töflugögn sem ManyEyes gengur að mestu út á).

Ég var alveg heillaður af þessari græju og ákvað að skjóta þarna inn séríslenskum gögnum til að prófa græjuna.

Hér er fyrsta tilraunin: Texti Egils Sögu greindur í orðatré.

Til að koma ykkur af stað:

  • Stærðin á orðunum sem koma á eftir upphafsorðinu (Egill) er hversu oft það kemur fyrir næst á eftir orðinu Egill í texta Eglu
  • Smellið á eitt af orðunum í tréinu og grafið ykkur þannig niður í textann

Athugið að það er hægt að byrja á hvaða orði sem er, þó orðið “Egill” sé notað sem útgangspunktur þarna. Prófiði t.d. að þurrka “egill” út úr innsláttarreitnum og skrifa eitthvað annað orð úr Eglu í staðinn. Ég ímynda mér að þetta geti verið ómetanlegt rannsóknartól fyrir málfræðinga og reyndar ýmsa aðra til að greina algeng mynstur t.d. í lögfræðitexta eða fjármálaskjölum.

Ég skil það svo eftir sem æfingu fyrir lesendur að setja inn aðra texta. Til þess þurfið þið að skrá ykkur sem notendur að ManyEyes og svo rekið þið ykkur í gegnum “Upload data set” og “Create Visualization”. Að flestu leiti leiti er þetta ágætlega notendavænt, þó það taki vissulega mið af nörda-notendahópnum, en ykkur ætti nú ekki að vera það fjötur um fót.

Þarna eru svo líka nokkur önnur svipuð textarannsóknartól sem eru líka býsna merkileg.

Skemmtið ykkur!

Tæknispá 2008

Fyrir tveimur árum, þegar ég var með vikulega pistla á NFS um tölvur og tækni skrifaði ég Tæknispá fyrir árið 2006 – um átta hluti sem myndu gerast það ár. Árangurinn verður hver að meta fyrir sig, en hér er a.m.k. samskonar spá fyrir komandi ár.

7 hlutir sem munu gerast 2008:

  • Hægir á ráðningum í tölvugeiranum: Bankarnir hafa sogað til sín mikið af tölvutalent undanfarin 3-4 ár. Önnur fyrirtæki hafa átt fullt í fangi við að ná í og halda fólki. Fæstir hafa getað yfirboðið þau launakjör sem bankarnir hafa boðið, helst að aðrir hafi kannski getað boðið áhugaverðari verkefni og náð til sín fólki þannig.
    Með “kólnandi hagkerfi” er þetta að breytast hratt og sumar af tölvudeildum bankanna hafa þegar ákveðið að standa ekki í frekari nýráðningum að sinni. Reyndar hlýtur í sjálfu sér talsvert starf að vera óunnið ennþá í að byggja upp skilvirkar einingar úr þessum mikla fjölda nýrra starfsmanna þannig að kannski kemur þetta sér bara vel fyrir þá. Ég ætla ekki að ganga svo langt að spá því að bankarnir muni fara í uppsagnir í tölvudeildunum, en gæti þó trúað því að eitthvað af verktökum og lausafólki í verkefnum – sem þeir hafa nýtt sér umtalsvert – muni verða fækkað. Til þess er jú leikurinn að hluta til gerður að verktökum er hægt að fækka mun hraðar og einfaldar en venjulegu launafólki. Eins er líklegt að bankarnir muni prófa sig í frekara mæli áfram með úthýsingu verkefna – einkum til Austur-Evrópu.

  • Ár “Netsins í símanum”: Gagnaumferð og notkun á netinu í farsíma mun springa út hér á landi á komandi ári. Tilkoma þriðju kynslóðarneta hjá öllum símafyrirtækjunum, aukið efnis- og þjónustuframboð og eðlilegri gjaldheimta fyrir þessa notkun mun ýta undir þetta. Flöt mánaðargjöld fyrir ótakmarkaða gagnanotkun verða í boði fyrir lok ársins, en einstakir þjónustuþættir (t.d. aðgangur að tónlistarsöfnum, íþróttum eða öðru sérefni) verða gjaldfærðir á einfaldan og sýnilegan hátt.
    Öflugari handtæki munu enn auka á þessa notkun og iPhone mun sem dæmi ná verulegri útbreiðslu hvort sem hann verður formlega seldur hér á landi á árinu eða ekki. Ég spái því reyndar að ólæstir 3G iPhone símar verði fáanlegir í verslunum hér í haust. Aðrir framleiðendur munu líka koma með mjög frambærileg tæki á árinu.

  • Nova og farsímamarkaðurinn: Nýja farsímafyrirtækið Nova mun skipta um markaðsnálgun snemma á árinu og slagorðið “Stærsti skemmtistaður í heimi” verður lagt niður. Fyrirtækið mun þó halda áherslunni á afþreyingu og gagnalausnir (sbr. liðinn hér að ofan). Eftir því sem líður á árið (og reikisamningum þeirra fjölgar) mun Nova einbeita sér meira að fyrirtækjamarkaði og ná allt í allt á bilinu 3-5% markaðshlutdeild á árinu. Þreifingar munu verða uppi um samruna Nova og Vodafone, en ólíklegt að það gangi í gegn á árinu 2008.
  • Bankaútrás á Netinu: Tiltölulega óþekktur armur íslensku bankaútrásarinnar er alþjóðleg starfsemi þeirra á Netinu. Kaupþing rekur sem dæmi nokkuð vinsælan innlánabanka á netinu í Svíþjóð og Finnlandi undir nafninu Kaupthing Edge og Landsbankinn rekur sambærilega þjónustu í Bretlandi undir heitinu Icesave. Búast má við að þessi starfsemi verði útvíkkuð til fleiri landa og heilt á litið eiga íslensku bankarnir mjög mikil sóknarfæri í því að nýta sér þá reynslu og tækni sem þeir hafa aflað sér við þróun íslensku netbankanna í alþjóðlegu samhengi, enda finnst óvíða jafngóð netbankaþjónusta.
  • Vélabú mun rísa:Lagning a.m.k. tveggja nýrra sæstrengja til landsins, annars vegar DanIce strengsins og hins vegar Greenland Connect strengsins sem liggja mun frá Íslandi til Grænlands og þaðan áfram til Nova Scotia (mögulega með séríslenskri hjáleið til að sleppa við krókinn upp til Nuuk sem er á annað þúsund kílómetrar). Þannig verður Ísland á næstu 2 árum orðið vel tengt til bæði Ameríku og Evrópu. Það er jafnvel ekki útséð um lagningu Hibernia á streng til Skotlands Írlands. Að því sögðu er ljóst að á árinu verður hafið að reisa að minnsta kosti eitt stórt vélabú hér á landi á árinu og mögulega tekið í notkun þegar árið 2009.
    Áhugi á ferkari uppbyggingu vélabúa hér mun vaxa ef eitthvað er. Leggst þar á eitt skortur á grænni og hagkvæmri orku og sú þróun að hugbúnaður keyrir í síauknum mæli á Netinu, jafnvel í sveigjanlegu keyrsluumhverfi eins og gagnagrunns-, reikni- og geymsluþjónustum Amazon og Force.com. Möguleikinn á, og hagkvæmnin við slíkar lausnir fæst einmitt af því að þau eru rekin í gríðarstórum vélabúum sem þjóna meira eða minna öllum heiminum frá einum stað.

  • Decodeme og 23andme: Decode mun fara í samstarf með fyrirtækinu 23andme á sviði persónulegra erfðaprófa. Eftirspurn er þegar eftir slíkum prófum og hún mun fara vaxandi. 23andme er stofnað af Anne Wojcicki, eiginkonu Sergey Brin sem er annar af stofnendum Google, og fær sitt fjármagn að mestu þaðan. Athyglin sem það hefur vakið hefur gefið 23andme verulegt forskot á Decodeme í þessari glænýju grein (sjá gróflega bloggathygli og umferðartölur). Decode er aftur á móti í frumrannsóknum og hefur að líkindum mun sterkari vísindalegan bakgrunn en 23andme. Með peninga og markaðsafl Google á bakvið 23andme og vísindalega getu og þekkingu Decode er þetta gríðarlegt tækifæri fyrir báða aðila.
  • CCP ungar út: Nú þegar leikjaframleiðandinn CCP er orðið stórt og öflugt fyrirtæki eftir aðdáunarverða þrautseigju í hartnær áratug er ljóst að fleiri horfa til leikjamarkaðarins. Þetta er markaður í örum vexti, íslenskir fjárfestar hafa orðið skilning á tækifærunum sem í honum felast og góð þekking er orðin til í þessum hópi á þeirri tækni, nálgun og aðferðafræði sem gerir góðan fjölspilunarleik. Fyrirtæki með svipaðar hugmyndir munu spretta upp og byggja á þessari reynslu og aðstæðum – og ekkert nema gott um það að segja. Við megum búast við að sjá allar stærðir og gerðir af slíkum pælingum – allt frá veflægum “kaffipásu”-útgáfum sem notast etv. við Flash yfir í stóra og flókna þrívíddarleiki sem ganga lengra en EVE Online í stærð, umfangi og flækjustigi.

Er ég að gleyma einhverju? 😉

Ný vinna – en samt ekki

Ég er kominn í nýtt djobb, svona að hluta til.

Ég ber nú þann fróma titil “Tæknistjóri” hjá og ber sem slíkur ábyrgð á þróun og stefnu vefmála hjá fyrirtækinu, auk tækniumhverfis fyrirtækisins í stærra samhengi hlutanna.

Ég hef auðvitað verið viðloðandi fyrirtækið allt frá því að það keypti Spurl á sínum tíma, en ekki haft þar skilgreint hlutverk eða ábyrgðir þar sem ég fluttist beint inn til Símans við kaupin. Núna hefur þetta verið skilgreint og er formlega 30% staða á móti 70% áfram í viðskiptaþróun hjá Símanum.

Það verður gaman að láta verkin tala þarna, enda eru tækifærin óþrjótandi ekki síst með Já.is. Þar erum við að afgreiða næstum milljón leitarfyrirspurnir á viku og varla til sá Íslendingur sem ekki notar þjónustuna vikulega – og flestir hafa skoðun á honum. Það er hægt að bæta þjónustuna þarna enn frekar og margir hlutir, stórir og smáir sem hægt er að bæta við og laga. Þar að auki er fyrirtækið virkilega vel rekið og skemmtilegt, þannig að þetta verður “bara gaman”.

Ég er svona þessa dagana að ná utan um helstu spottana og svo fer maður að toga í þá þegar maður er búinn að átta sig á því í hvað þeir eru festir 🙂

Snúið mál – íslenska

Á degi íslenskrar tungu sem haldinn var þann 16. nóvember síðastliðinn var m.a. opnaður aðgangur að nýrri útgáfu gagnagrunns sem nefnist “Beygingarlýsing íslensks nútímamáls“. Í Beygingarlýsingunni er í dag að finna fullkomin beygingardæmi yfir 250 þúsund íslenskra orða!

Gögnin í þessum grunni eru unnin af Kristínu Bjarnadóttur málfræðisnillingi á Orðabók Háskólans í samvinnu við fleira gott fólk þar, en sjálfur forritaði ég kerfið sem heldur utan um beygingarnar, nýskráningar orða o.s.frv.

Þetta hefur verið í rólegri vinnslu hjá okkur í næstum 2 ár. Afar fróðlegt ferli og ég hef m.a. lært ótrúlegustu hluti um uppbyggingu og flækjustig íslenskunnar.

Nokkrir áhugaverðir punktar varðandi þetta allt saman:

  • Fræðilega eru til allt að 272 beygingarmyndir af sagnorðum! Að vísu er engin sögn sem hefur allar þessar myndir, en það eru allnokkur orð sem hafa meira en 200 myndir. Þetta vex svo enn ef til eru afbrigði af beygingunni, þ.e. ef sögnin beygist á fleiri en einn veg.
  • Nafnorð geta ekki haft fleiri en 16 beygingarmyndir, en lýsingarorð hafa allt að 120.
  • Nokkur orð deila toppsætinu sem “flóknustu” orð íslenskrar tungu, þ.e. hafa flestar beygingarmyndir eða 227. Þetta eru allt lýsingarorð sem enda á “-ull” eins og “sannsögull” og “seinförull“, en óvenjumargar beygingarmyndir þessara hafa afbrigði.
  • Þau 256.618 orð sem eru í safninu hafa samtals 5.727.946 beygingarmyndir. Það gerir að meðaltali 22,32 beygingarmyndir af hverju orði. Oft hafa orð þó margar beygingarmyndir sem ritaðar eru á sama hátt (“Hjalli um Hjalla frá Hjalla til Hjalla”). Séu þær taldar frá stendur eftir að orðin í Beygingarlýsingunni hafa ekki NEMA 2.699.158 beygingarmyndir!

Magnað.

Það má nálgast ýmsa tölfræði og frekari upplýsingar um safnið á vef beygingarlýsingarinnar.

Snilldar vídeó um Vefinn 2.0

Michael Wesch er aðstoðarprófessor í mannfræði við Kansas State Háskólann.

Vídeóið hér að neðan er eftir hann og var sýnt á opnun Web 2.0 Expo sem ég fór á í San Francisco í vor. Þetta er listræn en um leið mjög flott leið til að sýna hvernig allir hlutir hanga saman á Vefnum, ekki síst í hinum nýju “Web 2.0” þjónustum.

Web 2.0 Summit hófst svo í fyrradag (ég er ekki þar) og var opnað á öðru álíka flottu myndbandi eftir Wesch. Flott og hugmyndarík vídeó bæði tvö.

iPhone tekinn til kostanna

Eins og flestum sem þekkja mig er líklega ljóst hef ég um skeið haft nokkrar væntingar til iPhone símans frá Apple.

Við frúin komum höndum yfir græjuna í morgun og fengum að leika okkur með hana í hálftíma eða svo. Til að gera langa sögu stutta stóð síminn undir væntingum og gott betur. Eins og ég hef áður sagt hefur hann s.s. ekki fleiri fídusa en finnast í betri high-end símum, en upplifunin af að nota græjuna er ljósárum á undan öllu sem ég hef séð, prófað eða heyrt af hjá keppinautunum.

Vafrinn er frábær og smáatriðin í notendaviðmótinu eru ótrúleg og flest til þess gerð að maður veit sjálfkrafa hvað maður á að gera á hverjum tíma.

Síminn er til sýnis hjá Apple búðinni á Laugavegi í dag frá 13-18 og svo um helgina í búðinni í Kringlunni. Endilega fara og kíkja.