Nieuws - 5 november 2025 - 08:10

Common Crawl verwijdert 2 miljoen artikelen

Common Crawl, bron van trainingsmateriaal voor AI diensten, verwijdert op verzoek van Stichting BREIN ruim 2 miljoen nieuwsartikelen uit haar databank.

Common Crawl is een Amerikaanse non-profitorganisatie die het internet kopieert (scraping) en haar databank gratis ter beschikking stelt aan consumenten en bedrijven waaronder generatieve AI diensten die deze datasets gebruiken om hun AI modellen op te trainen. Het webarchief van Common Crawl bestaat uit petabytes aan veelal auteursrechtelijk beschermde werken waaronder veel nieuwsartikelen die Common Crawl sinds 2008 verzamelt. Common Crawl vult haar data archief maandelijks aan met nieuw op het internet gepubliceerd materiaal.

Dit artikel is voor premium abonnees . Log in of meld je aan!

Premium Account

Neem een Premium abonnement en krijg onbeperkt toegang tot premium artikelen en vele andere voordelen.

Alles van Emerce Account
Toegang tot alle Premium nieuws artikelen
Gratis ticket voor E-commerce Live of Digital Marketing Live

Kies voor Premium

Heb je al een Emerce account? Log in met jouw gegevens om verder te gaan.

E-mailadres *

Wachtwoord *

Wachtwoord vergeten?

Redactie

Emerce

Channel

Artificial Intelligence

Common Crawl verwijdert 2 miljoen artikelen

Common Crawl verwijdert 2 miljoen artikelen

Gerelateerde items

EDAY: Soeverein GPT-NL volgend jaar beschikbaar

Perplexity wordt aangeklaagd door Britannica en Merriam-Webster

Duitse Hoge Raad: clouddiensten hoeven geen auteursvergoedingen te betalen