Deel dit artikel
-

Common Crawl verwijdert 2 miljoen artikelen

Common Crawl, bron van trainingsmateriaal voor AI diensten, verwijdert op verzoek van Stichting BREIN ruim 2 miljoen nieuwsartikelen uit haar databank.

Common Crawl is een Amerikaanse non-profitorganisatie die het internet kopieert (scraping) en haar databank gratis ter beschikking stelt aan consumenten en bedrijven waaronder generatieve AI diensten die deze datasets gebruiken om hun AI modellen op te trainen. Het webarchief van Common Crawl bestaat uit petabytes aan veelal auteursrechtelijk beschermde werken waaronder veel nieuwsartikelen die Common Crawl sinds 2008 verzamelt. Common Crawl vult haar data archief maandelijks aan met nieuw op het internet gepubliceerd materiaal.

Dit artikel is voor premium abonnees . Log in of meld je aan!