14 aug. 2023 6 min read

Je kunt er nu voor zorgen dat GPT niet langer wordt getraind op jouw artikelen

OpenAI en ook de concurrentie hebben allang voldoende data verzameld voor het trainen van hun taalmodellen.

In deze nieuwsbrief wil ik het met je hebben over:

Wil je dat je artikelen niet worden gebruikt om AI te trainen? Dan is het eigenlijk te laat
Journalisten moeten de uitspraken van Elon Musk niet blind tot nieuws bombarderen

1. Wil je dat je artikelen niet worden gebruikt om AI te trainen? Dan is het eigenlijk te laat

De belangrijkste redenen dat de ontwikkelingen van kunstmatige intelligentie zo snel gaan is niet alleen dat er veel betere algoritmes worden ontwikkeld en er meer rekenkracht beschikbaar is, maar ook dat er meer grote sets trainingsdata beschikbaar zijn dan in het verleden. Dat is overigens geen ontwikkeling van het afgelopen jaar, maar van de afgelopen tien tot vijftien jaar en is ook veel breder dan de generatieve AI waar we het tegenwoordig zoveel over hebben.

Data was altijd al geld waard, maar nu er steeds complexere AI-modellen worden getraind is het alleen maar waardevoller geworden. Het is niet voor niets dat er zoveel discussie is over het feit dat voor het trainen van taalmodellen, zoals GPT en PaLM, het hele internet wordt gebruikt. Uitgevers willen geld zien voor het gebruik van content als trainingsdata.

Tot nu toe was het niet mogelijk om websites uit te sluiten. Sterker nog: de bots die data verzamelen omzeilen (over het algemeen) betaalmuren, dus zelfs artikelen achter een paywall worden massaal gebruikt als trainingsdata. Afgelopen week kwam OpenAI echter met de aankondiging dat het mogelijk wordt om op een simpele manier aan te geven dat je site niet mag worden gebruikt bij het trainen van GPT. Dit is een beetje vergelijkbaar met aangeven dat Google je site niet mag indexeren.

Het punt is natuurlijk dat OpenAI en ook de concurrentie allang voldoende data heeft verzameld. Natuurlijk wil je taalmodellen actueel houden met nieuwe kennis of veranderingen in taalgebruik, maar dat lukt ook wel met een kleinere dataset. Sterker nog: zoals ik ruim een maand geleden al schreef wordt het internet steeds minder geschikt als dataset omdat het vol staat met content die door taalmodellen is gegenereerd en die wil je niet gebruiken als trainingdata.

Nu zijn taalmodellen slechts een toepassing van AI, voor andere toepassingen is andere data nodig. Zo kwam videovergaderdienst Zoom afgelopen week in het nieuws omdat de gebruiksvoorwaarden waren aangepast. Het bedrijf wilde gebruikersdata gaan gebruiken voor het trainen van AI. Na de ophef die ontstond legde Zoom uit dat het hierbij niet gaat over de inhoud van gesprekken, wat veel mensen dachten, en werden de gebruiksvoorwaarden verduidelijkt.

Dit neemt niet weg dat techbedrijven gebruikersdata inzetten voor het trainen van AI. Dat is niets nieuws en dat deden bedrijven als Facebook en Google altijd al. We worden ons hier alleen een stuk bewuster van, omdat de toepassingen van AI revolutionairder zijn en tastbaarder worden.

In mijn nieuwsbrief schreef ik vorige week bij het lijstje van artikelen dat ik had gelezen:

Alle onzin die Elon Musk roeptoetert over ~~Twitter~~ X wordt de afgelopen maanden nieuws bij de NOS, zo ook het bericht dat hij de juridische kosten zou gaan betalen van mensen die een arbeidsconflict hebben vanwege posts op ~~Twitter~~ X. Dat gaat hij natuurlijk never nooit niet doen in de praktijk.

De volgende dag kwam Casey Newton in zijn nieuwsbrief met het betoog dat journalisten op een andere manier om zouden moeten gaan met berichtgeving over Elon Musk. Via Twitter gooit deze man al jaren van alles de wereld in, maar de praktijk leert dat hij het grootste deel van wat hij roept nooit waarmaakt. Sterker nog: er is een site die alle beloftes van Musk bijhoudt en daarop zie je in één oogopslag dat de beste man vooral veel roept en weinig waarmaakt.

En voordat ik nu allemaal boze reacties krijg van Musk-fans: met bedrijven als Tesla en SpaceX heeft hij echt fantastisch vooruitstrevend werk gedaan, maar dat neemt niet weg dat hij heel veel roept en belooft dat hij nooit waarmaakt. In zijn Tesla-tijd deed hij dat al, maar sinds hij eigenaar is van ~~Twitter~~ X is hij alleen maar erger geworden.

Een concreet voorbeeld: eind april beloofde hij dat uitgevers in mei de mogelijkheid zouden krijgen om micropayments voor artikelen aan te bieden aan lezers. Een functie die tot op heden nog door geen uitgever gebruikt wordt. De reden? De functie is er drie maanden nadat hij er zou komen nog steeds niet.

Rolling out next month, this platform will allow media publishers to charge users on a per article basis with one click.

This enables users who would not sign up for a monthly subscription to pay a higher per article price for when they want to read an occasional article.…
— Elon Musk (@elonmusk) April 29, 2023

Casey Newton schreef vorige week in zijn betoog:

Given the hold he has on the popular imagination, these “Musk says” posts aren’t likely to disappear anytime soon. (In fact, once generative AI can credibly spit out 300 words of context underneath anything he might say, I imagine we’ll see more of them.) But if “Musk says” posts are going to exist, they ought to be much more skeptical than the ones we’ve seen lately. For starters, assume that anything he says about a prospective fight with Zuckerberg isn’t true unless Zuckerberg or Meta confirm it.

Nu had ik me voorgenomen om die onzin van het kooigevecht tussen Elon Musk en Mark Zucker compleet te negeren, maar in deze context wil ik het toch even aanhalen, omdat het ook weer zo'n fantastisch voorbeeld is. Al twee maanden gaat het over dit gevecht, nadat Musk Zuckerberg openlijk uitdaagde en media smulden ervan.

Dit weekend plaatste Mark Zuckerberg op Threads:

I think we can all agree Elon isn't serious and it's time to move on. I offered a real date. Dana White offered to make this a legit competition for charity. Elon won't confirm a date, then says he needs surgery, and now asks to do a practice round in my backyard instead. If Elon ever gets serious about a real date and official event, he knows how to reach me. Otherwise, time to move on. I'm going to focus on competing with people who take the sport seriously.

Dat kooigevecht gaat er, zoals we eigenlijk allemaal al wel hadden kunnen zien aankomen, niet komen.

Casey Newton gaat in zijn betoog zover dat hij een vergelijking maakt tussen Elon Musk en Donald Trump:

Before Musk, the person setting the day’s news agenda on Twitter was Donald Trump. As it became clear during his first campaign that Trump mostly did not tell the truth, the press corps gradually brought more scrutiny to the candidate’s statements. In some cases, cable networks stopped carrying his public appearances live, since they could not be fact-checked effectively in real time. Musk’s broken promises have yet to reach anything near the volume of lies that Trump told as president. But given his recent track record, it’s well past time for the press to grant him an equal measure of skepticism.

Van beiden weten we dat ze te veel tijd doorbrachten op Twitter zich te veel laten beïnvloeden door de replies die ze binnenkregen...

Ik wil in ieder geval het podium van mijn nieuwsbrief gebruiken om voor alle journalisten die dit lezen de oproep van Casey Newton te herhalen: het is tijd om met een stuk meer scepsis te berichten over de uitspraken en beloftes van Elon Musk en ze misschien soms ook gewoon te negeren als ze nergens op slaan. Ik weet dat er massaal op wordt geklikt, maar dat is in mijn ogen niet genoeg reden om alle onzin die deze man roeptoetert tot nieuws te maken.

En mocht je je afvragen waarom Elon Musk eigenlijk zo is? PJ Vogt maakte er onlangs een aflevering van zijn podcast Search Engine over, waarin hij een goede poging doet te duiden wat er eigenlijk met Elon Musk aan de hand is.

3. Dit heb ik de afgelopen week gelezen

Blendle was nog actief in Duitsland en de VS met de mogelijkheid om losse artikelen te kopen, maar stopt daar nu mee.
Techsite CNET is sinds drie jaar in handen van een bedrijf dat allemaal succesvolle sites heeft gekocht om hoog in Google te komen met advertenties voor allerhande financiële producten. Dat die eigenaar, Red Ventures, niks om journalistiek geeft, blijkt wel uit het feit dat het archief van CNET deels verwijderd is in de hoop dat nieuwe artikelen hoger in Google terechtkomen.
Schrijfster Jan Friedman kwam allemaal boeken onder haar naam tegen op Amazon die ze niet had geschreven, maar die door oplichters zijn gegenereerd met AI. De boeken offline krijgen blijkt onmogelijk.
Bijna de volledige groei van automatisch verkochte advertenties (programmatic ads) komt door video-advertenties.
RTL bundelt in Duitsland zijn complete digitale aanbod in één abonnement: van video tot muziek tot magazines.
Disney+ wil net als Netflix het delen van wachtwoorden gaan aanpakken.
Netflix brengt een gamecontroller op de markt zodat je games op je tv kunt spelen via de streamingdienst.
~~Facebook~~ Meta heeft het veel meer over AI dan over de metaverse, dat een paar jaar geleden werd geschetst als de toekomst van het bedrijf.
YouTube heeft zoveel last van spam in YouTube Shorts, dat je geen links meer mag delen in deze korte verticale video's. Het bedrijf gaat daarnaast gebruikers pushen om kijkhistorie aan te zetten; als je dat niet doet krijg je een lege homepage te zien.
~~Twitter~~ X heeft voor de tweede keer in korte tijd de gebruikersnaam van iemand afgepakt, dit keer van @music. ~~Twitter~~ X geeft adverteerders de mogelijkheid om aan te geven dat hun advertenties naast haatberichten en spam worden weergegeven in ruil voor korting 🤔.

1. Wil je dat je artikelen niet worden gebruikt om AI te trainen? Dan is het eigenlijk te laat

2. Journalisten moeten de uitspraken van Elon Musk niet blind tot nieuws bombarderen

3. Dit heb ik de afgelopen week gelezen