leitarvélar

Hlutverk upplýsingatækni í rannsókn bankahrunsins

detectiveNú eru a.m.k. fjögur embætti að rannsaka ýmsa þætti bankahrunsins:

Talsvert hefur verið talað um verkaskiptingu þessarra embætta, hæfi þeirra og aðra umgjörð, en eitt af því sem hefur komið mér á óvart er hversu lítið hefur verið rætt um sjálfar rannsóknaraðferðirnar.

Í mínum huga er það alveg skýrt að eitt af lykilatriðunum í því að árangur náist í þessum rannsóknum er mikil og vönduð beiting upplýsingatækni. Þetta snýr bæði að því að skilja stóru mynd þeirrar atburðarásar sem átti sér stað hér á undanförnum árum sem og að finna og upplýsa einstök mál. Ég óttast hins vegar að of fáir skilji hversu mikilvægt þetta atriði er og hef flugufregnir fyrir því að a.m.k. sum þessarra embætta átti sig engan veginn á þeim verkefnum sem þau standa frammi fyrir hvað þetta varðar.

Hér eru nokkrir punktar sem etv. hjálpa til við að skilja stöðuna:

  • Allar fjármálaaðgerðir fara fram með einum eða öðrum hætti í tölvukerfum. Hjá íslensku bönkunum einum erum við að tala um hundruð þúsunda, jafnvel milljónir færslna á hverjum einasta degi í tugum ef ekki hundruðum mismunandi kerfa. Allar þessar aðgerðir eru skráðar með einhverjum hætti.
  • Auk þessarra færslna eru tölvupóstar og önnur tölvusamskipti skráð, auk þess sem öll símtöl manna á milli eru skráð og í mörgum tilfellum tekin upp skv. lögum. Um þau símtöl og tölvupóstar sem ekki eru skráð hjá bönkunum sjálfum eru til skráningar hjá fjarskiptafyrirtækjum og netveitum. Um símtölin er að lágmarki skráð að þau hafi átt sér stað og tölvupóstar og efni þeirra liggja alltaf fyrir a.m.k. í einhvern tíma hjá netveitum.
  • Afrit eru tekin af öllum gögnum bankanna – bæði úr fjármálakerfum og öðrum (t.d. skráakerfum allra vinnustöðva, póstkerfum, netþjónum o.s.fr.) – a.m.k. einu sinni á dag og þau geymd með ýmsum, öruggum hætti bæði innan og utan starfsstöðva bankanna í lengri og skemmri tíma. Sum þessarra gagna eru m.a.s. geymd í vörslu eftirlitsaðila lögum samkvæmt.
  • Ég hef nokkuð öruggar heimildir fyrir því að meðal allra fyrstu aðgerða stjórnvalda eftir hrun bankanna hafi verið að tryggja að afrit ýmissa tölvugagna kæmust í örugga vörslu þannig að ekki væri hægt að eiga við þau.
  • Mikið af þessum gögnum eru á sértæku sniði sem eiga við einstök, rándýr kerfi sem í notkun voru (og eru enn mörg hver) í bönkunum. Þessi gögn er mjög erfitt að lesa og túlka nema með notkun þessarra kerfa.
  • Allt í allt erum við hér að tala um gríðarlegt magn af gögnum – ég leyfi mér að giska á einhver hundruð terabæta fyrir þau ykkar sem sú tala segir eitthvað. Fyrir ykkur hin erum við að tala um jafngildi margra, stórra, þéttskipaðra vöruskemma ef gögnum ef prenta ætti ósköpin út.

Ef einhver hélt að svona rannsókn færi fram með aðferðafræði Matlock lögmanns með því að blaða í útprentum og afritum af pappírsskjölum, fingrafararannsókn og snjöllum yfirheyrslum á lykilvitnum, þá ættu ofangreindir punktar að sýna nokkuð glögglega að svo er ekki.

Ef ætlunin er að sanna – nú eða afsanna – kerfisbundið misferli, misræmi í afstemmingum, vísbendingar um óeðlileg verðbréfaviðskipti, samskipti aðila í tengslum við tiltekna atburði o.s.frv., þá verður það aðeins gert með býsna flókinni og sérhæfðri upplýsingatæknivinnu, mynsturgreiningum á stórum gagnasöfnum, leitarmöguleikum í hverskyns textagögnum og síðast en ekki síst þekkingu á þeim kerfum, aðferðum og starfsháttum sem viðgengust í bönkunum.

Til að taka af allan vafa um það, þá þykist ég alls ekki hafa þá þekkingu sem til þarf. Hana hefur reyndar varla nokkur einn maður. Við erum að tala um stórar og óhjákvæmilega dýrar aðgerðir, en án þeirra verður aldrei nema örlítið brot þessarar starfsemi rannsakað.

Ég vona að ofantaldir rannsóknaraðilar átti sig á þessu.

Að lokum eru hér örfá atriði sem mætti byrja á að skoða:

  • Fá a.m.k. einn stjórnanda eða millistjórnanda sem hafði með upplýsingatæknimál í hverjum banka með í rannsóknina. Ef með þarf má bjóða sektar og-/eða skuldaniðurfellingu gegnt samstarfi. Þannig fæst nauðsynleg þekking á innviðum og samhengi kerfanna, dýrmætur tími og miklir peningar sparast og líklega opnast möguleikar sem utanaðkomandi rannsakendur hefðu hreinlega ekki tök á að gera.
  • Fyrst mætti skoða afritasögu. Þar sést fljótt hvort nokkur gögn hafa horfið, átt hefur verið við skrár eftir á eða með öðrum hætti verið reynt að fela einhverjar slóðir. Þetta kynni vel að hafa verið reynt í einhverju óðagoti á ögurstundu, en er sennilega það “versta” sem einhver hefði getað gert þar sem það beinir grun beint að viðkomandi atriðum. Nær ómögulegt er að eiga þannig við gögn og afrit að slíkar slóðir sjáist ekki tiltölulega auðveldlega. Þannig er miklu líklegara að “ósnert” sönnunargögn týnist í öllu gagnaflóðinu en að tilraunir til yfirhylmingar skili árangri.
  • Greina samskiptasögu í öllum tiltækum gögnum. Hengja símanúmer og tölvupóstföng á persónur og beina sjónum að þeim sem eiga í samskiptum í kringum einstök viðskipti eða aðra atburði sem eru til rannsóknar. Eins má leita uppi öll gögn sem viðkoma tilteknum málum eða einstaklingum og rekja sig þannig í “hina áttina” frá áberandi miklum eða óvenjulegum samskiptum til viðskipta eða atburða sem eiga sér stað á svipuðum tíma. Slík greining myndi líka koma upp um samskipti milli aðila sem – ef allt væri með felldu – ættu alls ekki að eiga í samskiptum, annaðhvort vegna reglna um aðskilnað í starfsemi innan bankanna eða milli samkeppnisaðila, viðskiptablokka eða annarra.
  • Greina ýmsar lykiltölur í fjárflæði milli einstakra fyrirtækja, milli útibúa og milli landa og leita eftir skyndilegum breytingum á umfangi eða mynstrum í þessum viðskiptum.

Bara nokkrar hugmyndir – fleiri vel þegnar.

Ný vinna – en samt ekki

Ég er kominn í nýtt djobb, svona að hluta til.

Ég ber nú þann fróma titil “Tæknistjóri” hjá og ber sem slíkur ábyrgð á þróun og stefnu vefmála hjá fyrirtækinu, auk tækniumhverfis fyrirtækisins í stærra samhengi hlutanna.

Ég hef auðvitað verið viðloðandi fyrirtækið allt frá því að það keypti Spurl á sínum tíma, en ekki haft þar skilgreint hlutverk eða ábyrgðir þar sem ég fluttist beint inn til Símans við kaupin. Núna hefur þetta verið skilgreint og er formlega 30% staða á móti 70% áfram í viðskiptaþróun hjá Símanum.

Það verður gaman að láta verkin tala þarna, enda eru tækifærin óþrjótandi ekki síst með Já.is. Þar erum við að afgreiða næstum milljón leitarfyrirspurnir á viku og varla til sá Íslendingur sem ekki notar þjónustuna vikulega – og flestir hafa skoðun á honum. Það er hægt að bæta þjónustuna þarna enn frekar og margir hlutir, stórir og smáir sem hægt er að bæta við og laga. Þar að auki er fyrirtækið virkilega vel rekið og skemmtilegt, þannig að þetta verður “bara gaman”.

Ég er svona þessa dagana að ná utan um helstu spottana og svo fer maður að toga í þá þegar maður er búinn að átta sig á því í hvað þeir eru festir 🙂

Snúið mál – íslenska

Á degi íslenskrar tungu sem haldinn var þann 16. nóvember síðastliðinn var m.a. opnaður aðgangur að nýrri útgáfu gagnagrunns sem nefnist “Beygingarlýsing íslensks nútímamáls“. Í Beygingarlýsingunni er í dag að finna fullkomin beygingardæmi yfir 250 þúsund íslenskra orða!

Gögnin í þessum grunni eru unnin af Kristínu Bjarnadóttur málfræðisnillingi á Orðabók Háskólans í samvinnu við fleira gott fólk þar, en sjálfur forritaði ég kerfið sem heldur utan um beygingarnar, nýskráningar orða o.s.frv.

Þetta hefur verið í rólegri vinnslu hjá okkur í næstum 2 ár. Afar fróðlegt ferli og ég hef m.a. lært ótrúlegustu hluti um uppbyggingu og flækjustig íslenskunnar.

Nokkrir áhugaverðir punktar varðandi þetta allt saman:

  • Fræðilega eru til allt að 272 beygingarmyndir af sagnorðum! Að vísu er engin sögn sem hefur allar þessar myndir, en það eru allnokkur orð sem hafa meira en 200 myndir. Þetta vex svo enn ef til eru afbrigði af beygingunni, þ.e. ef sögnin beygist á fleiri en einn veg.
  • Nafnorð geta ekki haft fleiri en 16 beygingarmyndir, en lýsingarorð hafa allt að 120.
  • Nokkur orð deila toppsætinu sem “flóknustu” orð íslenskrar tungu, þ.e. hafa flestar beygingarmyndir eða 227. Þetta eru allt lýsingarorð sem enda á “-ull” eins og “sannsögull” og “seinförull“, en óvenjumargar beygingarmyndir þessara hafa afbrigði.
  • Þau 256.618 orð sem eru í safninu hafa samtals 5.727.946 beygingarmyndir. Það gerir að meðaltali 22,32 beygingarmyndir af hverju orði. Oft hafa orð þó margar beygingarmyndir sem ritaðar eru á sama hátt (“Hjalli um Hjalla frá Hjalla til Hjalla”). Séu þær taldar frá stendur eftir að orðin í Beygingarlýsingunni hafa ekki NEMA 2.699.158 beygingarmyndir!

Magnað.

Það má nálgast ýmsa tölfræði og frekari upplýsingar um safnið á vef beygingarlýsingarinnar.

Já – já – já – jájájájájá – já er tilbúinn…

Eins og glöggir netverjar hafa ef til vill tekið eftir er kominn upp nýr og breyttur vefur hjá Símaskránni.

Við Spurl menn komum að þessu eins og flestum leitarverkefnum landsins þessa dagana – bráðum getiði ekki einu sinni leitað að bíllyklunum ykkar án þess að við komum þar við sögu.

Eins og á Emblu notum við beygingar leitarorða, þannig að ekki þarf lengur að slá inn heimilisföng í þágufalli (eða ákveðin föll annarra orða) eins og í gömlu símaskránni.

Eins lögðum við talsvert uppúr því að koma allri leitinni í einn einfaldan leitarreit þannig að hægt sé að slá inn hluti eins og [tölvur selfossi], [veitingahús 101] eða [hjálmar laugavegi] í stað þess að nota “ítarlega leit” með mörgum og illskiljanlegum leitarboxum.

Af öðrum nýjum möguleikum sem snerta leitina má nefna:

  • Leitarniðurstöður birtast í stafrófsröð (já, merkilegt nokk var það ekki þannig)
  • Fellivalblað (AutoComplete) stingur upp á leitarstrengjum þegar slegið er inn (byrjið að slá inn nafnið ykkar og tölvan les hug ykkar :))
  • Leitin á gulu síðunum hefur verið stórbætt. Fyrirtæki geta skráð ítarlegri upplýsingar um sig og keypt leitarorð sem gerir það að verkum að þau birtast þegar leitað er að þeim orðum. Prófið t.d. [adsl], [veislur], [fermingar]. Við birtum svo “tengd leitarorð” sem geta hjálpað til við að leiða fólk áfram í leit að þjónustu. Þessi hluti á eftir að verða gríðarlega skemmtilegur eftir því sem skráningunum fjölgar.
  • Við birtum stafsetningarleiðréttingar þegar ekkert finnst (ef þú slærð óvart inn [Sigurðurr] eða [fermyngar])

Einna stoltastur er ég samt að hraðanum. Leitin er yfirleitt að taka innan við 0,1 sekúndu og svörin virðast í raun birtast “samstundis” þrátt fyrir að verið sé að gera allt ofantalið. Sama gildir um fellivalblaðið, sem er “arfahratt”. Umferðin á þennan vef er gríðarlega mikil, en eftir smá hiksta fyrstu tvo dagana (á mánudag og þriðjudag í síðustu viku), hefur leitarvélin ekki einu sinni svitnað þrátt fyrir að þurfa stundum að afgreiða all-mörg hundruð fyrirspurnir á mínútu.

Af öðrum endurbótum á vefnum (sem ekki snúa að Spurl) ber hæst ný og stórbætt kort í boði Gagarín og Hnit – sem ég hef reyndar aðeins nefnt áður. Viðmótið er hannað af Reyni snilling hjá Hugsmiðjunni og svo öllu púslað saman af Origo sem forrituðu vefinn utan kortanna og leitarinnar.

Skemmtilegt verkefni sem tók á, á köflum – en útkoman stórfín. Við erum að safna saman athugasemdum (merkilegt nokk er þetta þrátt fyrir allt ekki gallalaust), þannig að það er vel þegið að fá ábendingar um betrumbætur eða galla annað hvort í comment hér eða beint í tölvupósti.

Kíkiði allavegana á gripinn.

Zniff leitar á Vísindavefnum

Gaman að segja frá því að leitartæknin okkar Spurl-manna – Zniff – er komin í gagnið á Vísindavefnum. Það munar umtalsverðu að geta leitað í þessu stórgóða efni með “orðmyndaleit”, en það er jú eitt af því sem leitin okkar er svo góð í.

Zniff knýr að sama skapi leitina á leitarvélinni Emblu og hjá VISA, auk þess sem einir tíu aðilar eru rétt að fara í loftið – bæði stórir aðilar hérna heima og slatti af erlendum vefjum.

Meira um það þegar þar að kemur.

Fjöllin og fræga fólkið á Emblu

Fyrir stuttu skrifaði ég um nokkur sæt Emblu trikk sem við erum búnir að vera að kóða inn í Embluna. Ég sagði að það væri meira á leiðinni og nú eru dottin inn tvö ný trikk.

  • Nöfn þekktra einstaklinga: t.d. Jón Arnar Magnússon. Birtir stuttan texta um viðkomandi og tengil á færslu um hann eða hana í bókinni Samtíðarmenn, frá Eddu. Alls eru þetta um 1700 einstaklingar.
  • Örnefni og staðir: t.d. Hólmavík. Þarna eru inni um það bil 9000 örnefni og með því að smella á tengilinn fæst kort af svæðinu úr Kortabók Íslands þar sem staðurinn er. Viðmótið á kortunum mætti vera betra (það þarf að skima kortið í leit að nafninu), en engu að síður er þetta mjög hjálplegt. Vonandi tökum við þetta lengra fljótlega.

Svo er von á fleiru svipuðu. Þið bíðið bara spennt á meðan 🙂

Nokkur sæt Emblu trikk

Við Spurl-menn erum búnir að vera að kenna leitarvélinni okkar, sem meðal annars knýr Emblu hjá mbl.is, nokkur ný og sniðug trikk síðustu vikurnar og kannski ekki vitlaust að vekja smá athygli á þeim.

Hugmyndin er sem sagt sú að reyna að veita notendum meiri þjónustu en bara hráa textaleit í þeim tilfellum þegar hægt er að þekkja leitarstrenginn sem eitthvað ákveðið eins og nöfn á fólki, símanúmer eða bókaheiti, svo dæmi séu tekin.

Meðal þess sem er komið inn er eftirfarandi. Endilega smellið á tenglana með hverju dæmi til að sjá hvernig hvert dæmi fyrir sif er afgreitt:

  • Mannanöfn: t.d. Jón Jónsson. Ef leitarstrengurinn þekkist sem nafn, birtum við tengla á uppflettingu í símaskrám Já.is og Og Vodafone eftir sama nafni. Nú þarf bara að slá nafnið á nýjasta skotinu inn á einum stað þegar verið er að leita að upplýsingum um viðkomandi 🙂
  • Símanúmer: t.d. 4404000. Hver var að hringja? Embla birtir tengla á símaskráruppflettingu.
  • Heimilisföng: t.d. Efstaleiti 1. Enn og aftur símaskrár-uppfletting, en líka tengill í uppflettingu á bestu leið þangað með strætó.
  • Nöfn rithöfunda: t.d. Arnaldur Indriðason. Smá upplýsingar um höfundinn og tengill yfir á nánari upplýsingar hjá útgefanda (enn sem komið er bara fyrir Eddu-útgáfu – u.þ.b. 200 höfundar)
  • Bókartitlar: t.d. Íslandsatlas. Smá upplýsingar um bókina og tengill á nánari upplýsingar hjá bóksöluvefjum (enn sem komið er Edda og Bækur.is – u.þ.b. 1800 bókatitlar)
  • Netföng: t.d. hjalli@hjalli.com. Uppfletting í símaskrá og tengill til að senda póst á viðkomandi addressu.

Við erum með langan lista af svipuðum tilfellum sem við ætlum að þekkja og veita viðbótarupplýsingar um. Eins og sjá má af sumum dæmanna að ofan, þá eru þau gerð í samvinnu við fyrirtæki, þ.e. eins konar auglýsingar. Hugmyndafræðin á bak við þetta er engu að síður sú að gagnsemin fyrir notandann sé alltaf í fyrsta sæti. Þessar “sérstöku leitarniðurstöður” eiga alltaf að vera upplýsingar og tenglar sem eru líklegar til að koma notandanum til góða miðað við þau leitarorð sem hann eða hún sló inn. Ef hægt er að samtvinna það við einhverjar tekjuleiðir fyrir okkur eða samstarfsaðila okkar, þá er það svo bara kostur.

Notandinn fær gagnlegar upplýsingar, samstarfsaðilinn góða augýsingu og við nýja tekjustrauma. Allir vinna 🙂

Ég verð að monta mig pínulítið af beygingartækninni okkar sem nýtur sín vel þegar leitað er að nöfnum (t.d. leit að Hjálmar Gíslason) og sýnir nöfnin í réttri beygingu. Þetta er þjónusta frá okkur, byggð á gögnum frá Orðabók Háskólans. Ef einhver hefur áhuga þá er hægt að fá aðgang að þessum möguleikum sem einfaldri vefþjónustu gegn vægu gjaldi.

Ef þið eruð með hugmyndir að fleiri tegundum “sérstakra leitarniðurstaðna” hvort sem er frá sjónarhóli notanda eða samstarfsaðila, þá endilega setjiði ykkur í samband við mig (hjalli@spurl.net) eða skiljið eftir komment hér að neðan.

P.S. Hér er nýrri færsla um fleiri Emblu-trikk

Stofnfundur samtaka vefiðnaðarins (SVEF)

Stofnfundur Samtaka Vefiðnaðarins var haldinn í gær, en samtökin eru samtök áhugafólks um vefmál.

Nánar um það á SVEF.is

Undirritaður var með kynningu um þróun Emblunnar, en hópurinn sem stóð að stofnun samtakanna er einmitt sami hópur og hefur borið veg og vanda af Íslensku vefverðlaununum undanfarin ár og mbl.is hlaut einmitt í ár fyrir Emblu.

Glærurnar úr fyrirlestrinum eru hér: