6 min read

Je kunt er nu voor zorgen dat GPT niet langer wordt getraind op jouw artikelen

OpenAI en ook de concurrentie hebben allang voldoende data verzameld voor het trainen van hun taalmodellen.
Je kunt er nu voor zorgen dat GPT niet langer wordt getraind op jouw artikelen
Foto: Alina Grubnyak / Unsplash

In deze nieuwsbrief wil ik het met je hebben over:

  • Wil je dat je artikelen niet worden gebruikt om AI te trainen? Dan is het eigenlijk te laat
  • Journalisten moeten de uitspraken van Elon Musk niet blind tot nieuws bombarderen

1. Wil je dat je artikelen niet worden gebruikt om AI te trainen? Dan is het eigenlijk te laat

De belangrijkste redenen dat de ontwikkelingen van kunstmatige intelligentie zo snel gaan is niet alleen dat er veel betere algoritmes worden ontwikkeld en er meer rekenkracht beschikbaar is, maar ook dat er meer grote sets trainingsdata beschikbaar zijn dan in het verleden. Dat is overigens geen ontwikkeling van het afgelopen jaar, maar van de afgelopen tien tot vijftien jaar en is ook veel breder dan de generatieve AI waar we het tegenwoordig zoveel over hebben.

Data was altijd al geld waard, maar nu er steeds complexere AI-modellen worden getraind is het alleen maar waardevoller geworden. Het is niet voor niets dat er zoveel discussie is over het feit dat voor het trainen van taalmodellen, zoals GPT en PaLM, het hele internet wordt gebruikt. Uitgevers willen geld zien voor het gebruik van content als trainingsdata.

Tot nu toe was het niet mogelijk om websites uit te sluiten. Sterker nog: de bots die data verzamelen omzeilen (over het algemeen) betaalmuren, dus zelfs artikelen achter een paywall worden massaal gebruikt als trainingsdata. Afgelopen week kwam OpenAI echter met de aankondiging dat het mogelijk wordt om op een simpele manier aan te geven dat je site niet mag worden gebruikt bij het trainen van GPT. Dit is een beetje vergelijkbaar met aangeven dat Google je site niet mag indexeren.

Het punt is natuurlijk dat OpenAI en ook de concurrentie allang voldoende data heeft verzameld. Natuurlijk wil je taalmodellen actueel houden met nieuwe kennis of veranderingen in taalgebruik, maar dat lukt ook wel met een kleinere dataset. Sterker nog: zoals ik ruim een maand geleden al schreef wordt het internet steeds minder geschikt als dataset omdat het vol staat met content die door taalmodellen is gegenereerd en die wil je niet gebruiken als trainingdata.

Nu zijn taalmodellen slechts een toepassing van AI, voor andere toepassingen is andere data nodig. Zo kwam videovergaderdienst Zoom afgelopen week in het nieuws omdat de gebruiksvoorwaarden waren aangepast. Het bedrijf wilde gebruikersdata gaan gebruiken voor het trainen van AI. Na de ophef die ontstond legde Zoom uit dat het hierbij niet gaat over de inhoud van gesprekken, wat veel mensen dachten, en werden de gebruiksvoorwaarden verduidelijkt.

Dit neemt niet weg dat techbedrijven gebruikersdata inzetten voor het trainen van AI. Dat is niets nieuws en dat deden bedrijven als Facebook en Google altijd al. We worden ons hier alleen een stuk bewuster van, omdat de toepassingen van AI revolutionairder zijn en tastbaarder worden.


2. Journalisten moeten de uitspraken van Elon Musk niet blind tot nieuws bombarderen

In mijn nieuwsbrief schreef ik vorige week bij het lijstje van artikelen dat ik had gelezen:

Alle onzin die Elon Musk roeptoetert over Twitter X wordt de afgelopen maanden nieuws bij de NOS, zo ook het bericht dat hij de juridische kosten zou gaan betalen van mensen die een arbeidsconflict hebben vanwege posts op Twitter X. Dat gaat hij natuurlijk never nooit niet doen in de praktijk.

De volgende dag kwam Casey Newton in zijn nieuwsbrief met het betoog dat journalisten op een andere manier om zouden moeten gaan met berichtgeving over Elon Musk. Via Twitter gooit deze man al jaren van alles de wereld in, maar de praktijk leert dat hij het grootste deel van wat hij roept nooit waarmaakt. Sterker nog: er is een site die alle beloftes van Musk bijhoudt en daarop zie je in één oogopslag dat de beste man vooral veel roept en weinig waarmaakt.

En voordat ik nu allemaal boze reacties krijg van Musk-fans: met bedrijven als Tesla en SpaceX heeft hij echt fantastisch vooruitstrevend werk gedaan, maar dat neemt niet weg dat hij heel veel roept en belooft dat hij nooit waarmaakt. In zijn Tesla-tijd deed hij dat al, maar sinds hij eigenaar is van Twitter X is hij alleen maar erger geworden.

Een concreet voorbeeld: eind april beloofde hij dat uitgevers in mei de mogelijkheid zouden krijgen om micropayments voor artikelen aan te bieden aan lezers. Een functie die tot op heden nog door geen uitgever gebruikt wordt. De reden? De functie is er drie maanden nadat hij er zou komen nog steeds niet.

Casey Newton schreef vorige week in zijn betoog:

Given the hold he has on the popular imagination, these “Musk says” posts aren’t likely to disappear anytime soon. (In fact, once generative AI can credibly spit out 300 words of context underneath anything he might say, I imagine we’ll see more of them.) But if “Musk says” posts are going to exist, they ought to be much more skeptical than the ones we’ve seen lately. For starters, assume that anything he says about a prospective fight with Zuckerberg isn’t true unless Zuckerberg or Meta confirm it.

Nu had ik me voorgenomen om die onzin van het kooigevecht tussen Elon Musk en Mark Zucker compleet te negeren, maar in deze context wil ik het toch even aanhalen, omdat het ook weer zo'n fantastisch voorbeeld is. Al twee maanden gaat het over dit gevecht, nadat Musk Zuckerberg openlijk uitdaagde en media smulden ervan.

Dit weekend plaatste Mark Zuckerberg op Threads:

I think we can all agree Elon isn't serious and it's time to move on. I offered a real date. Dana White offered to make this a legit competition for charity. Elon won't confirm a date, then says he needs surgery, and now asks to do a practice round in my backyard instead. If Elon ever gets serious about a real date and official event, he knows how to reach me. Otherwise, time to move on. I'm going to focus on competing with people who take the sport seriously.

Dat kooigevecht gaat er, zoals we eigenlijk allemaal al wel hadden kunnen zien aankomen, niet komen.

Casey Newton gaat in zijn betoog zover dat hij een vergelijking maakt tussen Elon Musk en Donald Trump:

Before Musk, the person setting the day’s news agenda on Twitter was Donald Trump. As it became clear during his first campaign that Trump mostly did not tell the truth, the press corps gradually brought more scrutiny to the candidate’s statements. In some cases, cable networks stopped carrying his public appearances live, since they could not be fact-checked effectively in real time. Musk’s broken promises have yet to reach anything near the volume of lies that Trump told as president. But given his recent track record, it’s well past time for the press to grant him an equal measure of skepticism.

Van beiden weten we dat ze te veel tijd doorbrachten op Twitter zich te veel laten beïnvloeden door de replies die ze binnenkregen...

Ik wil in ieder geval het podium van mijn nieuwsbrief gebruiken om voor alle journalisten die dit lezen de oproep van Casey Newton te herhalen: het is tijd om met een stuk meer scepsis te berichten over de uitspraken en beloftes van Elon Musk en ze misschien soms ook gewoon te negeren als ze nergens op slaan. Ik weet dat er massaal op wordt geklikt, maar dat is in mijn ogen niet genoeg reden om alle onzin die deze man roeptoetert tot nieuws te maken.

En mocht je je afvragen waarom Elon Musk eigenlijk zo is? PJ Vogt maakte er onlangs een aflevering van zijn podcast Search Engine over, waarin hij een goede poging doet te duiden wat er eigenlijk met Elon Musk aan de hand is.


3. Dit heb ik de afgelopen week gelezen