Webbarvet

2003-12-16 · 506 ord · 3 minut(er) att läsa

Idag finns det tillgång till långt större mängder information och tack vare Google och dess likar har vi numer tillgång till det mycket snabbare. Istället blir en stor del av informationen flyktigare. Begränsat diskutrymme, tekniska fel, rensningsiver, nyutformningar, nya tekniska system, slarv eller en personlig önskan att ta bort det man gjort – det finns många anledningar till att information på webben försvinner.

Den information som finns i diskussionsfora, auktions och köp- och säljplatser försvinner efter ett tag. Därmed försvinner samtidigt indikatorer på samhället under tidigt tjugohundratal. Visst, lite kommer att finnas kvar men kommer det att ge en rättvis bild? Möjligheterna till att jämföra olika data inom en kategori, ett begränsat geografiskt område eller på individnivå försvinner också.

Vad arbetade de som bodde i kvarteret Konstantinopel år 2003 med? Vad hade de för intressen? Hur såg deras inredning ut? Vart åkte de på semester och vad de tyckte de om den? Den första frågan går att få svar på antar jag (så länge de arbetade vitt) men den övriga informationen lär nog endast ha lämnats muntligen till bekanta eller skriftligen på webben och i e-post.

Det försvinner dagligen information från webben för att det faller för åldersstrecket i publiceringssystemet. Arkiveringsrobotrna ( archive.org och Kulturarw3) hinner antagligen inte återkomma tillräckligt ofta (om de nu överhuvudtaget arkiverar denna typ av webbplatser). Vad kan man göra åt det? Inrätta pliktexemplar även för webbplatser? Kräva att det ska finns färdiga filer för KB att ladda ner (krypterade om webbplatsinnehavaren nu skulle vilja det).

Jag undvek medvetet att skriva om de negativa följderna med datainsamlingen innan. Sammanställningen av materialet kan även stavas samkörning och visst kan det snabbt innebära ett hot mot den personliga integriteten. Det kan vara skönt för mig som person att viss information vittrar bort ganska snabbt. Det finns ju de som blev ganska sura när Google lyckades fiska fram en ansenlig mängd gamla Usenetpostningar som författarna själva hade hoppats försvunnit.

Kanske går det att lösa med restriktioner på tillgång till materialet under de första hundra åren. Endast forskare som förbinder sig att anonymisera resultaten, såvida man inte har personernas samtycke, får tillgång till materialet. (Här gäller det förstås att göra det möjligt för andra forskare att försöka återupprepa resultaten.) När de hundra eller så åren passerat skulle alla kunna få tillgång till materialet, för släktforskning eller vad man nu håller på med. Och vad händer förresten med den information som finns i andra system än WWW och Usenet? Vad händer med BBS-system och e-postlistor utan webbarkiv? Och allt lösenordsskyddat material på webben? Det är en kamp mot klockan och klockan vinner ett antal bitar för varje tick.

I sinom tid kanske problemet löser av sig själv: om det tillgängliga lagringsutrymmet ökar fortare än vi orkar med att producera. Då kan var och en indexera webben för att sedan kunna söka i. Fast det känns som att vi då skulle få se gigapixel-videokameror med 192 kanalers surround-ljud bara för att man har utrymme att fylla upp. Och innan dess har vi ändå förlorat en ovärderlig mängd data.