Deel dit artikel
-

TikTok, Amazon, Claude, OpenAI gretigste AI-webgrazers

Het moederbedrijf van TikTok heeft de allergretigste bot die het web afgraast om zijn AI-modellen mee te trainen. Naast usual suspects OpenAI en Anthropic is Amazon een opvallende verschijning in het lijstje.

Nieuwe cijfers van techbedrijf Cloudflare laten zien hoe intensief AI-bedrijven op dit moment het web afgrazen om hun LLM’s, de modellen achter AI’s, te voeden. Bytedance is met afstand de nummer één in dat lijstje.

Het is niet duidelijk aan welk product de Chinezen werken voor buiten hun thuismarkt. Daar ontwikkelen ze ChatGPT-variant Doubao.

Amazon wil logischerwijs zijn digitale assistent Alexa naar een volgend niveau tillen.

Cloudflare ontwikkelde een systeem waarmee zijn klanten AI-crawlers buiten de deur kunnen houden. Meer dan tachtig procent van hen gebruikt die gratis optie. Aan de techbedrijven moet dat een signaal zijn dat het overgrote merendeel van de online gemeenschap niet wil dat zijn kopij wordt gebruikt om AI-modellen mee te trainen.

Een deel van deze sitebeheerders geeft dat zelfs expliciet aan. Daarvoor voegen ze een paar regels tekst toe aan het zogeheten robots.txt-bestand. Het is gebruikelijk dat crawlers die eerst lezen om te zien wat ze wel en niet mogen doen op iemands server. GPTBot (OpenAI), CCBot (Common Crawl) en Google worden daar het vaakst aangesproken. Sitebeheerders vergeten Bytespider en ClaudeBot. Die krijgen dan ook alle ruimte om tekst, beeld en geluid op te slurpen.

Het is nog niet goed duidelijk hoe vaak bots over de schreef gaan en toch crawlen als dat niet gewenst is.

Er zijn uitgevers als Reddit, Axel Springer en News Corp. die licentiedeals sluiten met AI-bedrijven. Aan de andere kant zijn er foto-archieven en uitgevers als de NY Times die de techbedrijven juist voor de rechter dagen vanwege schending van hun intellectueel eigendom.

Foto: No Revisions, Unsplash

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond