2 mrt. 2024 6 min read

Google betaalt uitgevers om door AI herschreven artikelen te publiceren

Een aantal uitgevers krijgt tienduizenden euro's per jaar om een afgesproken aantal door AI gegenereerde artikelen op basis van andere bronnen te publiceren.

Foto: Mitchell Luo / Unsplash

In deze nieuwsbrief wil ik het met je hebben over:

Google betaalt uitgevers om een tool te gebruiken waarmee ze artikelen kunnen herschrijven.
Is 'meest gelezen' wel het juiste populariteitslijstje voor op je site?

Google betaalt uitgevers om een tool te gebruiken waarmee ze artikelen kunnen herschrijven

Google heeft speciaal voor uitgevers een platform ontwikkeld waarmee ze gebruik kunnen maken van generatieve AI. Dat is niet meteen heel erg schokkend nieuws, maar waar ik toch wel even raar van opkeek is dat Google redacties betaalt om hier gebruik van te maken. Een aantal uitgevers krijgt tienduizenden euro's per jaar om een afgesproken aantal door AI gegenereerde artikelen op basis van andere bronnen te publiceren, schrijft Adweek.

In eerste instantie gingen er geruchten rond dat de tool bedoeld was om artikelen van andere media automatisch te herschrijven, maar dat spreekt Google tegen:

“This speculation about this tool being used to re-publish other outlets’ work is inaccurate,” a Google representative said in a statement. “The experimental tool is being responsibly designed to help small, local publishers produce high quality journalism using factual content from public data sources—like a local government’s public information office or health authority. These tools are not intended to, and cannot, replace the essential role journalists have in reporting, creating and fact-checking their articles.”

Nu snap ik dat Google een dergelijke tool ontwikkelt en test met uitgevers, maar het feit dat de uitgevers betaald worden om de tool te gebruiken en artikelen te publiceren, vind ik opmerkelijk. Deelnemers moeten drie artikelen per dag, een nieuwsbrief per week en een marketingcampagne per maand publiceren met behulp van de tool.

Hoe dat proces precies in zijn werk gaat?

To produce articles, publishers first compile a list of external websites that regularly produce news and reports relevant to their readership. These sources of original material are not asked for their consent to have their content scraped or notified of their participation in the process—a potentially troubling precedent, said Kint.

When any of these indexed websites produce a new article, it appears on the platform dashboard. The publisher can then apply the gen AI tool to summarize the article, altering the language and style of the report to read like a news story.

The resulting copy is underlined in different colors to indicate its potential accuracy: yellow, with language taken almost verbatim from the source material, is the most accurate, followed by blue and then red, with text that is least based on the original report.

A human editor then scans the copy for accuracy before publishing three such stories per day. The program does not require that these AI-assisted articles be labeled.

Ik zie de winst die het gebruik van generatieve AI op dit vlak kan opleveren voor kleine, lokale redacties. Tegelijkertijd kun je je afvragen wat de meerwaarde is om überhaupt dit soort content te produceren, zeker als dit soort tooling straks voor iedereen beschikbaar is.

Het nieuws kwam een paar dagen nadat bekend werd dat de Britse uitgever Reach generatieve AI gebruikt om nieuwsartikelen te herschrijven, zodat ze opnieuw kunnen worden gepubliceerd bij verschillende lokale kranten. In Nederland zou Mediahuis ongeveer hetzelfde kunnen doen om stukken van De Telegraaf bij de regionale kranten te publiceren.

Ook hier speelt echter de vraag wat op termijn de meerwaarde is, als iedereen op deze manier nieuws kan hergebruiken en rondpompen. Dat gebeurt nu natuurlijk al handmatig doordat media massaal berichten van persbureaus of andere media herschrijven, maar nu kost het nog moeite. Als dit volautomatisch kan, is de weg vrij voor een in theorie oneindige stroom aan berichten met dezelfde informatie. Ik vrees dat dat niet de manier is om je toekomst veilig te stellen als uitgever...

Is 'meest gelezen' wel het juiste populariteitslijstje voor op je site?

Om maar meteen met de deur in huis te vallen: ik ben nooit fan geweest van de 'meest gelezen'-lijstjes op nieuwssites. Uitgevers zijn er dol op, want mensen klikken erop en met een beetje geluk openen ze daardoor een extra pagina tijdens een bezoek aan je site en kun je weer wat geld bij elkaar schrappen door de extra advertentieviews die het oplevert. Journalistiek gezien is het echt vreselijk.

Om te beginnen staan in het 'meest gelezen'-lijstje helemaal niet de meest gelezen artikelen. Het is een lijstje van de pagina's met de meeste pageviews. Dat zou gelijk kunnen staan aan dat een artikel goed gelezen, maar kan ook betekenen dat er gewoon een verdomd lekker klikbare kop bovenstaat. Daarnaast is het een soort vicieuze cirkel: als een artikel in de lijst 'meest gelezen' staat, krijgt het daardoor meer aandacht en wordt het - verrassing! - meer gelezen.

Daarnaast leert de praktijk dat met enige regelmaat de lijstjes nep zijn of worden bewerkt. Zo zijn er sites waarbij een deel van de artikelen automatisch of handmatig uit het 'meest gelezen' wordt gefilterd, omdat het anders vol staat met artikelen uit de categorieën opmerkelijk of entertainment. Ook heb ik het meegemaakt dat er helemaal geen koppeling blijkt te zijn gebouwd tussen de statistieken van de website en dit lijstje, waardoor de redactie gewoon handmatig verzint wat er onder het kopje 'meest gelezen' staat.

The Guardian introduceerde afgelopen week iets nieuws. Naast een lijstje 'meest gelezen' artikelen, staat nu een lijstje 'deeply read'. Dit lijstje is een overzicht van artikelen waar lezers relatief gezien het meeste tijd mee doorbrengen. Waarbij de woorden 'relatief gezien' belangrijk zijn, anders komen er alleen heel lange stukken in de lijst terecht.

Not all of these pieces are long. To power the list we created a metric that looks at the attention time from readers compared with the length of the piece. This means that the list is diverse in terms of topic, length and format.

Nu is dit een cijfer wat de meeste redacties al niet meten. Er wordt wel bijgehouden hoeveel tijd lezers gemiddeld op een pagina doorbrengen, maar in de analytics-tools die de meeste redacties gebruiken wordt niet van een artikel bijgehouden uit hoeveel woorden het bestaat. Dan zegt de tijd op een pagina dus niet heel veel over of bezoekers het artikel ook echt lezen.

The Guardian houdt dat wel bij, heeft er een mooi rekensommetje op los gelaten en gebruikt dat nu om weer te geven wat de meest diep gelezen artikelen zijn. Over de reden om dit te doen zegt de krant:

Along with many other sites, the Guardian has for a long time shown readers the pieces other people are clicking on in the form of a “Most viewed” list. But these lists often don’t include wonderful journalism on topics more off the beaten track. The “Deeply read” list uses attention time to surface a wider range of journalism that other readers are spending more time with. It appears on our regionalised home pages and reflects the interests of the region’s audience.

In mijn ogen een voorbeeld voor veel andere sites.

Kort

(Voormalig) medewerkers van WNL, waaronder meerdere presentatrices, hebben zich tegenover het AD uitgesproken over de angstcultuur die wordt veroorzaakt door hoofdredacteur Bert Huisjes. De Raad van Toezicht van de omroep reageerde met een bizarre verklaring, waarin ze vooral het goede werk van Huisjes benadrukten. Na een hele lading kritiek kwam de RvT terug op deze verklaring.
Tientallen Europese mediabedrijven spannen een rechtszaak aan tegen Google vanwege machtsmisbruik op de advertentiemarkt. Ze claimen 2,1 miljard euro schade te hebben geleden. De rechtszaak is aangespannen bij de rechtbank in Amsterdam. Onder meer DPG Media en Mediahuis zijn er bij betrokken.
Een aantal kleinere Amerikaanse media spannen een rechtszaak aan tegen OpenAI en Microsoft vanwege auteursrechtenschending.
- Eerder spande The New York Times al een rechtszaak aan tegen OpenAI. Het AI-bedrijf claimt nu dat de krant ChatGPT heeft misleid met opdrachten die in strijd waren met de gebruikersvoorwaarden om het teksten uit artikelen van de krant te laten reproduceren en daarmee een zaak te beginnen.
Volgens 4o4 Media wil Automattic data, die gebruikers van Tumblr en WordPress.com hebben gepubliceerd, verkopen aan OpenAI en Midjourney, zodat er AI-modellen mee kunnen worden getraind.
Facebook heeft aangekondigd te stoppen met Facebook News in de VS en Australië, nadat het bedrijf dat eerder al deed in enkele Europese landen. Facebook zal ook niet langer uitgevers in die landen betalen voor het gebruik van nieuwsartikelen. In Nederland is Facebook News überhaupt nooit gestart; voor zover ik heb begrepen wilden de grote Nederlandse media niet meewerken.
Google-baas Sundar Pichai noemt de problemen met de afbeeldingen die AI-model Gemini genereerde, waar ik vorige week over schreef, "compleet onacceptabel".
Spotify komt in de VS met een iets goedkoper abonnement waarmee je geen reclamevrije muziek krijgt, maar wel audioboeken kunt luisteren.
Adobe heeft een prototype ontwikkeld van een tool waarmee je via prompts audio kan maken en bewerken. Uiteraard werkt de tool dankzij generatieve AI.
X biedt via Spaces, waarmee je tot nu toe met elkaar kon praten in audio, de mogelijkheid om live video te streamen op het platform. Aangezien er nauwelijks wordt gemodereerd op X, is het wachten tot dit misgaat...
TikTok is al een paar weken in een strijd verwikkeld met platenmaatschappij Universal Music Group over het gebruik van muziek in TikTok-video's. Er werd al heel veel muziek van TikTok verwijderd (ook uit alle video's die er in het verleden gebruik van maakten) en donderdag werd bekend dat er nog meer muziek niet langer op TikTok te gebruiken/horen is.