Adrian Holovaty om Everyblock.com

Adrian Holovaty står bak Everyblock.com, som er er en nyhetsside for hyperlokal journalistikk. Dette var en veldig interessant presentasjon, og Holovaty er både morsom, pedagogisk og en god forkjemper for den teknologiske tilnærmingen til journalistikk (skjermskraping og lignende). Her er det som vanlig trykkfeil, blant annet er han kalt Holowati og ikke Holovaty i halve blogpostne. Bilder og linker kommer etterhvert!

Det første Holovaty gjorde var å Han gjorde det til og med mulig å lage den løypen du tok til jobben for eksempel, og vise frem den type kriminalitet som skjedde på veien din til jobben.

Men viktigere var at man kunne vise all kriminaliteten som skjedde på i en viss gate. Det er omtrent på så lavt nivå man kan gå.

I det han gjorde dette, så kom han på at, det skjer jo mye mer en kriminalitet på dete nivået. Hvorfor kan vi ikke lage et grundig, geografisk filter for hva som skjer på hyperlokalt nivå, og ikke bare i Chicago.

Med en block så mener han det segmentet som er mellom to gater – på godt norsk det vi kaller et kvartal. Hver slikt segment fikk sin egen side.

Long tail anvendt på nyheter

Du kan ikke ha en journalist på hvert eneste kvartal.

Når man bruker long tail-konseptet på nyheter, så vil du i den ekstreme enden få krigen i Irak eller månelandinger. Men det er først det første segmentet som avisene vil dekke, på grunn av de begrensede ressursene. Men Holovaty mener at det området forbi dette punktet er mye mer interessant, fordi arealet under grafen er egentlig mye større.

Men hvordan får vi tak i disse nyhetene, hvis vi nå har etablert at vi ikke kan ha en journalist på hvert kvartal? Løsningen er å ha anskaffe så magne datasett som mulig:

  • kriminalitet
  • byggetillatelser
  • resturantinspeksjoner
  • rett og slett: så mye data som du klarer

..og plasserer det med geotagging på et kart.

En gjennomgang av Everyblock

Han ønsker at dette skal kunne utvides til så mange byer som mulig. Man kan endre radiusen selv. Utgangspunktet er 8 kvartaler unna der du bor, men du kan stille det inn selv på hvor nært nivå du vil gå.

Det første du ser er locations in the media. De crawler så mange lokale sider som mulig, slik som blogger og aviser, og finner ut hvilke artikler som nevner hvilke områder og adresser. Dette skjer automatisk. Og tanken her er å vise deg ting i media som du kanskje ikke ville sett ellers, men fordi de har gjort arbeidet med å indeksere det for deg, så viser de det som er relevant for deg.

En annen ting man kan se er eiendommer. Men de indekserer også bilder som er geotagget på Flickr og andre nettsider som lar folk dele bilder. De bruker APIen til Flickr for å gjøre dette. Man aner ikke hva som kan dukke opp der, selv har han oppdaget et bilde av huset hans! Han ville aldri tenkt på å sjekke det selv.På kartet så viser de også om noen har søkt om tillatelse til å åpne et spisested for eksempel i nærheten av der du bor. Og dermed får du vite om det svært tidlig – kanskje til og med før butikken har dukket opp enn gang!

Tanken er serendipity – et lykketreff – her er alt som skjer i nærheten av huset ditt. De gir også mulighet for å få oppdateringer på mail, hvis du selv kan definere hva du vi bli oppdatert om. De har nylig også lansert en iPhone-applikasjon. Det magiske heren knappen «select my location» – så viser den statistikken der du er nå.

Avisene skriver aldri om inspeksjoner på restauranter og spisesteder når det går bra. De skriver bare om det dårlige. For det har ikke nyhetsverdi at det er OK å spise et sted. Men det er relevant for deg, fordi det er i nabolaget ditt.

De har også en hittegodsseksjon. De crawler Craigslist og viser ting som er blitt mistet og funnet i ditt nabolag. Og dette synes Craigslist er bra, fordi det genererer mer trafikk inn på deres side.

Mye av denne informasjonen er kun linker til andre nettsider. Bildene fra Flickr går til Flickr, hittegodssegmentene til Craiglist, avisartikelr til avisen også videre. Men noe av informasjonen skaffer de selv, og denen kan utforsker på mange måter. For eksempel om man titter på en restaurantinspeksjon, så får du all informasjon.

Filosofi og kjepphester

Everything that can be linked, should be linked

Filosfien bak dette er at man kan ikke vite hvorfor de er inne og ser på denne informasjonen. Gi brukerne muligheter til å fortsette sin utforskningen av dataene. De kan klikke seg videre på datoer, steder, kategorier. Det gjør at folk blir lenger på siden, og det jgør det mer engasjerende.

Han har snakket med mange aviser som sier de gjerne kan geotagge avisartiklene sine selv. Men det er noen problemer med det. Fordi nyheter handler ikke om punkter. For eksempel kan en artikkel handle om en hel gate. Dette er en av Holiwatis kjepphester. Artiklene redegjør ikke for flere lokasjoner.

Hva kreves?

  1. Den første kilden til informasjon er alle sidene de crawler for informasjon, slik som aviser.
  2. Den andre kilder er alle mulige nettsider hvor de kan hente inn data fra, slik som Valpak, Flickr, Craigslist, yelp og trulia. Kriteriene er at elementet må ha en dato og en lokasjon.
  3. Men den tredje, største og viktigste kilden er myndighetene. De kontakter for eksempel bygningsetaten, og etterspør alle byggetillatelser.

Det foregår gjerne slik:

– Can we have every bulding permit, everyday?

– Who are you?

– And we continue and negotiate with them

Nye roller i journalistikken

New role #1 – People person

De har oppdaget en ny form for journalistikk. De trenger en people person som kan snakke med de menneskene som sitter på data. USA har sitt svar på offentlighetsloven, men den dekker kun engangsforespørsler om enkelttilfeller. Men de vil ha ferske data, som oppdateres automatisk og løpende i løpet av dagen. Ikke bare må de overbevise de som sitter på dataene, men det er også et teknisk spørsmål. De er i utgangspunktet ikke lagt opp for å dele disse dataene.

New role #2 – Screen scraper as reporter

Om de ikke får tak i dataene fra myndighetene, så må de ty til skjermskraping. Dette har vi også sett eksempler på i Norge, blant annet med arbeidet til Espen Andersen. LINK!!

Han ser på det som journalistikk, fordi det handler om å få informasjon. Men i stedet for en person som kilde, så er det et nettsted eller en datafil. Og i stedet for å stille spørsmål, så koder man. Selv om det ikke er tradisjonell rapportering, så er det grunnleggende sett journliastikk. Man får tak i informasjon.

New role #3 – Data desrciber

I stedet for å si R36, så sier de «De fant rotter på kjøkkenet». For at det har skjedd en «D36» er nærmest ubrukelig informasjon for meningmann. Så man trenger det journalistiske aspektet for å forklare hva dette egentlig betyr.

«This is not journalism»

Dette handler om en grunnleggende svakhet ved journalistikken. De kaster ut 90 prosent av informasjonen sin. Om du er en helt vanlig jorunalist som skriver om kriminaliteten, så går du kanskje til politiet og spør «hva har skjedd nå nettopp?» og politiet svarer joda, der og der så ble det og det stjålet.

Beatiful, clean data compressed into a blob

Forskjellen er at strukturert data kan brukes på en annen måte. Man kan gi forespørsler, for eksempel hva som har skjedd en hvis dag, eller en hvis type kriminalitet. Men det kan man ikek jgøre med en blob. Google forholder seg til blobs, og det er derfor du kan få ganske dårlige treff på Google selv om du vet akkurat hva du er ute etter, for eksempel kriminalitet i ditt område.

Og det forskes mye på hvordan man skal klare å strukturere disse blobene og Holiwata tror det kommer til å ta minst et tiår før man får til det, den semantiske weben.

Men targedien, mener Holiwati er at nyhetsjournalistene har infrastrukturen til å strukturere disse dataene, men vi har ikke benyttiget oss av det. Vi tar data og omvandler dette til en blob som datamaskinene ikke kan bruke til noe. Vi må begynne å linke alt som kan linkes. Om en adresse omtales, en person, en sted, en gjenstand i en avisartikler, bør linkes til alt annet som er skrevet om disse. Han sammenligner med Wikipedia og spør hvorfor vi ikke bruker linking på samme måte i journalistikken?

Men hvorfor får vi ikke til det? Holiwati mener det handler om kultur, en manglende forståelse for teknologi, og en manglende ønske om å lære seg teknologi. Dette er koblet opp mot en purisme om at rådata ikke er journalistikk, et misforstått vern om språk og «kvalitetsjournalistikk». Holiwati mener det er det samme hva vi kaller det, poenget er at vi lager noe som er nyttig for folk.

Dette typet arbeid har nylig fått en Pulitzer, og Holovaty mener at denne måten å tenke på journalistikk

Hva er journalistikk?

En journalist gjør tre ting

  1. Samle informasjon
  2. Destillere og prioritere informasjon
  3. Presentere informasjon

Der en tradisjonell journalist ringer rundt, vil nerden (eller geeken som Holovaty kaller ham) heller bruke en database eller en skjermskrape. Begge deler er å hente informasjon.

Spørsmål fra salen

Nå er Everyblock.com finansiert av en stiftelse, men de vil finne en forretningsmodell, for eksempel med lokal reklame, lisensiere teknologien også videre.

De arkiverer dataene. Og folk bruker også siden til å gjøre research. Men det går bare tilbake til desember 2007.


En kommentar om “Adrian Holovaty om Everyblock.com

Legg igjen en kommentar

Fyll inn i feltene under, eller klikk på et ikon for å logge inn:

WordPress.com-logo

Du kommenterer med bruk av din WordPress.com konto. Logg ut / Endre )

Twitter-bilde

Du kommenterer med bruk av din Twitter konto. Logg ut / Endre )

Facebookbilde

Du kommenterer med bruk av din Facebook konto. Logg ut / Endre )

Google+-bilde

Du kommenterer med bruk av din Google+ konto. Logg ut / Endre )

Kobler til %s