Deel dit artikel
-

KB wil dit jaar nog gearchiveerde sites ontsluiten

De Koninklijke Bibliotheek (KB) wil in de eerste helft van 2010 via een zoekscherm een klein deel van de Nederlandse internetsites in archiefvorm aanbieden.

Het project om Nederlandse sites te archiveren ging van start in 2005. Twee jaar later is een lijst opgesteld van 3.000 websites die gearchiveerd zijn. In 2013 moet de teller op 10.000 staan.

De KB is al druk bezig met het digitaliseren van de eigen collectie, alle in Nederland uitgegeven boeken, kranten en tijdschriften. Hiermee wordt het culturele erfgoed bewaard. Sinds enkele jaren horen hier ook websites bij.

De eerste 3.000 sites zijn inmiddels binnengehaald nadat hiervoor toestemming is gevraagd. “Alles wordt gemiddeld drie keer per jaar binnengehaald”, aldus Caroline van Wijk, die verantwoordelijk was voor dit project bij de KB. Ze vervolgt: “Per thema worden sites aangemerkt. Een site kan ook aangemeld worden. Je hebt een enorme keuze, dus het selectieproces is lastig te doorgronden.”

Twee juristen hebben gekeken naar de implicaties voor het project wanneer het op auteursrecht en de Wet Bescherming Persoonsgegevens aankomt. “Er is een aantal opties uitgezocht die het minste risico of een aanvaardbaar risico hebben. En we zijn uitgekomen bij de opt out-aanpak.”

De eigenaar van een site die op de lijst staat van te archiveren websites, krijgt een bericht van de KB. Voor het binnenhalen, opslaan en weer ontsluiten van de content op de site moet toestemming gevraagd worden. De auteursrechtkwesties blijven liggen bij de eigenaar van de website.

De vraag hoe om te gaan met het auteursrecht met websites en bijbehorende reacties van bijvoorbeeld lezers, net als bij gearchiveerde kranten waarin soms ook persoonlijke advertenties staan, lastig. “Het is voor ons nog even uitzoeken wat beste procedure is. Voor nu hebben we besloten dat wanneer iemand toestemming geeft, dat we er dan van uit gaan dat de rechten kloppen.” Blijkt dit achteraf niet zo te zijn, dan kan er alsnog iets uit het archief worden gehaald. Al ziet Van Wijk dat liever niet gebeuren. “Dat zou jammer zijn. Het doel is een overzicht te geven van historische websites dat voor iedereen te gebruiken is. Daarom willen we vooraf ook niet een optie geven om het uit het archief te halen.”

De KB gebruikt de crawler van Internet Archive, bekend van de Wayback Machine, die een poging doet het internet te archiveren. Van Wijk: “Maar wij pakken het anders aan. Zij zijn meer gericht op het hele web en wij willen een selectie van de Nederlandse site. Bij de Wayback Machine is het vooral in breedte, vaak eerste twee drie lagen en dan stopt het. Wij gaan meer de diepte in bij de sites die we archiveren.”

De techniek van de crawler, zo stelt Van Wijk, loopt wel net wat achter de techniek van de websites aan. Er blijven nog genoeg uitdagingen over. “Met name video. En bijvoorbeeld het gebruik van YouTube, dat neemt in de toekomst alleen maar toe. Streaming media is ook lastig om binnen te halen.”

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond