Il possibile, auspicabile (?) collasso della AI e di Google

Nel maggio 2024, Google ha consigliato a milioni di persone in cerca di consigli di cucina di aggiungere della colla atossica al sugo della pizza. Non è un meme. Non è satira.

È una risposta reale generata dall’IA e presentata come un fatto assoluto. Potrebbe sembrare un divertente errore di sistema, ma non lo è. È qualcosa di peggio. È il sintomo fatale di un “Internet morto”.

In questo momento, quasi il 50% del traffico web è costituito da bot. Google si è silenziosamente trasformato da motore di ricerca a camera di risonanza a circuito chiuso dove l’IA si allena sull’IA. L’Internet con cui siamo cresciuti non c’è più.

Non siamo più i consumatori. Siamo i dati di addestramento.
Ecco perché dobbiamo smettere di usare Google immediatamente.

La ricerca sulla pizza era iniziata come qualcosa di innocente. “Perché il formaggio continua a scivolare via dalla pizza?” E non ci è voluto molto perché Internet trovasse la fonte. Era stata ricavata da un post di un troll di Reddit di 11 anni fa che in qualche modo era stato portato in cima alle metriche di Google. Poi si sono aperte le cateratte. Non ci è voluto molto perché la gente iniziasse a sperimentare con le ricerche per vedere quali altri glitch ci fossero in giro.

E uno rappresentava un rischio maggiore per la salute pubblica. Qualcuno ha cercato su Google “Quanti sassi devo mangiare” e ha ottenuto un risultato secondo cui i geologi dell’Università della California a Berkeley suggerivano di mangiare almeno un piccolo sasso al giorno. Citava un geologo di nome dr. Joseph Granger che descriveva come incorporare i sassolini nella dieta quotidiana. La fonte di tutto questo? Un articolo del 2021 del sito web satirico The Onion. Era chiaro che l’algoritmo di Google era tutt’altro che a posto.

Per prima cosa, questi non sono i risultati di ricerca di Google. Quelli esistono ancora, ma bisogna cercarli. Sono nascosti sotto un riepilogo di risultati che l’algoritmo basato sull’intelligenza artificiale di Google ritiene essere la risposta più adeguata.

C’è solo un problema. Spesso sono tutt’altro che la risposta più adeguata. Questi sono due dei risultati più bizzarri, ma gli utenti hanno segnalato risposte strane estratte da angoli bizzarri di Internet. Questo ha portato molti a dire che Google sta diventando molto più difficile da usare. Perché l’IA non è solo sbagliata… Sta avendo allucinazioni. E non del genere piacevole.

Da quando l’IA ha fatto irruzione sulla scena all’inizio degli anni ’20, le aziende si sono affrettate ad automatizzare e quella decisione si è rivelata controproducente. Un rapporto del 2024 ha mostrato che oltre il 50% del traffico su Internet è ora generato da IA e bot automatizzati che raccolgono, estraggono e interagiscono con i contenuti su vasta scala.

Ciò significa che per ogni persona reale online c’è una macchina che vede esattamente la stessa cosa, non per capirla, ma per manipolarla.

Questo crea un paradosso. Piattaforme come Google sono progettate per filtrare i contenuti su Internet in risultati di ricerca utili. Ora, quei contenuti sono in gran parte progettati dai bot che vengono poi analizzati dai bot e filtrati per gli esseri umani.

La cosa spaventosa è che non si tratta di un caso: Google ha dato il via a tutto questo nel marzo 2024 e nessuno se n’è accorto. Come tutti i principali siti web tecnologici, Google aggiorna periodicamente il proprio software e hardware per perfezionare l’esperienza utente. Ma nessuno era preparato a quanto sarebbe stato significativo l’aggiornamento del marzo 2024.

Google prometteva un’esperienza migliore, che avrebbe dato meno priorità ai contenuti di bassa qualità e reso più facile trovare ciò che si cercava. I punti chiave su cui avrebbe dovuto concentrarsi il cambiamento dell’algoritmo erano i domini scaduti, le pagine generate in massa e i siti di terze parti creati appositamente per migliorare il posizionamento di altri siti web nei risultati di ricerca.

Si trattava di tattiche che gli spammer utilizzavano da anni per manipolare Google. Questa mossa aveva lo scopo di ripulire un Internet già costruito attorno all’algoritmo. Ma le cose non andarono secondo i piani; da un giorno all’altro le tattiche che i siti avevano utilizzato per promuoversi sono diventate peggio che inutili.

Sono diventate attivamente dannose. Anni di posizionamenti elevati sono andati persi in un secondo e i siti si sono ritrovati a dover ricominciare da capo. Mentre utilizzavano i metodi che Google stava ora declassando, altri hanno segnalato che la loro autopromozione organica li stava facendo contrassegnare ingiustamente come spam. A tutti i livelli, l’impatto è stato devastante.

Studi che hanno monitorato siti di nicchia indipendenti hanno rilevato che oltre l’80% di essi ha perso traffico tra dicembre 2023 e agosto 2024. Questo ha colpito come una mazzata siti di recensioni testate da persone reali come HouseFresh, che ha segnalato di aver perso il 91% del proprio traffico proveniente da Google. Per molti piccoli siti, questo è stato l’equivalente digitale dell’arrivo di Walmart in città e dell’installazione di un enorme cartellone pubblicitario proprio davanti alla facciata del negozio di ferramenta locale. Il negozio originale è ancora lì, ma nessuno lo noterà. Ma la mossa non ha nemmeno ottenuto ciò che Google voleva.

Gli esseri umani pensano in fretta ma i computer pensano ancora più in fretta. Quando questo aggiornamento è stato implementato, le principali agenzie di marketing erano già passate a quella che viene chiamata «Parasite SEO».

La maggior parte dei siti che hanno perso visualizzazioni a causa dell’aggiornamento di Google erano piccoli siti indipendenti che avevano costruito la propria autorevolezza nel corso degli anni. Al contrario, la Parasite SEO sfrutta piattaforme affidabili come Medium, LinkedIn e Reddit per posizionarsi più in alto senza impegnarsi realmente.

E Google non sempre distingue tra contenuti buoni e cattivi. Tutto ciò che conta è il posizionamento. Così le aziende hanno iniziato a inondare queste piattaforme con più contenuti possibile. E se state pensando che ciò abbia significato grandi guadagni per gli scrittori, ripensateci. Questo è stato uno dei primi ambiti in cui la scrittura generata dall’intelligenza artificiale ha trovato un punto d’appoggio. Le grandi aziende hanno iniziato a inondare i siti di testi standardizzati che potevano essere generati in pochi minuti. Non dovevano essere buoni, non dovevano essere originali, dovevano solo essere pubblicati nel posto giusto. I bot stavano guadagnando terreno, in più di un senso.

Uno dei maggiori problemi che i siti web devono affrontare oggi è quello che viene chiamato “search heist”. Le reti di bot prendono di mira nomi di dominio scaduti che ritengono di alto valore e di grande autorevolezza. Ne assumono il controllo e li riempiono con quanti più articoli generati dall’IA possibile, facendoli schizzare in cima alle classifiche. Questi domini sono spesso costruiti attorno al principale rivale dell’acquirente, utilizzando lievi variazioni sul loro nome e riempiendoli di contenuti che favoriscono la concorrenza.

Potrebbe non sembrare etico, e molti si chiedono se sia addirittura legale, ma funziona. E ne abbiamo la prova proprio da chi l’ha fatto al meglio. Nel 2023, i contenuti generati dall’IA erano ancora agli albori, ma gli esperti di SEO sono stati tra i primi ad adottarli.

Uno di loro, Jake Ward, voleva vedere fino a che punto potesse spingersi. I risultati sono stati sbalorditivi. Ha usato l’IA per esportare la mappa del sito di un concorrente, poi ha trasformato ciascuno dei loro URL in titoli di articoli separati. Ha messo l’IA al lavoro per creare 1.800 articoli basati su ciascuno dei titoli e li ha caricati. È una vecchia tattica, che di solito richiede un sacco di lavoro manuale di data scraping. Ma ora è istantanea e ha più successo che mai. Il pubblico non è venuto a conoscenza di questo “furto” di domini dalla causa intentata dal concorrente, ne è venuto a conoscenza da Ward, che se ne è vantato con orgoglio su X.

Ha persino fornito ad altri utenti un modello su come sfruttare i domini vuoti e trasformarli in una risorsa. In 18 mesi, Ward è riuscito a sottrarre con successo 3,6 milioni di visite da ricerca organica al suo concorrente, con un picco di 490.000 visite in un mese. Ha mostrato come automatizzare la maggior parte del processo, consentendo alle persone di battere il ferro finché era caldo.

Per molte aziende, le opportunità sono ovunque. La tattica principale consiste nel prendere di mira pagine inattive di bassa qualità che ricevono poco traffico, note anche come pagine zombie. Quando scadono, vengono acquistate e utilizzate per reindirizzare il traffico lontano dalla società madre direttamente verso il concorrente.

Non serve nemmeno che ci sia qualcuno a coordinare questa attività. Le reti di bot ricevono l’ordine di individuare domini disponibili, accaparrarseli e iniziare a sfornare contenuti mentre l’amministratore delegato sta ancora bevendo il suo caffè mattutino. Sempre più siti web finiscono per essere invasi da contenuti generati dall’intelligenza artificiale.

Il che porta molti a chiedersi: ma c’è ancora qualcuno in casa? Sembrerebbe un problema semplice da risolvere. La maggior parte dei contenuti generati dall’IA, anche oggi, è ancora piena di errori ed è piuttosto facile da individuare.

Nonostante ciò, Google non ha intrapreso alcuna azione su scala paragonabile alla sua “epurazione” del marzo 2024 per riparare al danno causato. E non è nemmeno una questione di mancanza di risorse. Il sistema potrebbe funzionare esattamente come previsto. Google non sta venendo meno al proprio compito.

Ti sta intrappolando in un circolo vizioso di contenuti generati dall’IA. E tutto questo per un motivo specifico. In passato, bastava digitare una parola o una domanda in un motore di ricerca per ottenere immediatamente un elenco di link tra cui scegliere. Questi venivano ordinati dall’algoritmo, a partire da quello che riteneva più utile. Era semplice, pratico e offriva agli utenti una lista di opzioni fino a quando non trovavano quella giusta. È così che Google ha iniziato, ma c’è solo un problema.

È utile ma non è redditizio. Google non è più quella piccola e modesta startup di motori di ricerca da cui è partita. È un colosso con un’unica priorità: fare soldi.

Non ci è voluto molto prima che Google Search venisse invaso dalla pubblicità, il che significava che gli utenti dovevano guardare attentamente per assicurarsi che il primo risultato su cui cliccavano fosse un risultato di ricerca organico o un annuncio pubblicitario.

Ma ora, i clic potrebbero essere inutili. Potresti pensare che un motore di ricerca abbia un solo compito, portarti nel posto giusto. Ma cosa succede se il posto giusto non esce mai dal motore di ricerca? Il risultato a zero clic è diventato l’ideale per i motori di ricerca, fornendo traffico a loro e a nessun altro. Questo accade quando l’utente ottiene tutti i dati che stava cercando nella prima pagina su cui atterra. Non c’è bisogno di cliccare su nessun altro link.

Questo fenomeno si è evoluto più volte nel corso degli anni, inizialmente con i rich snippet, che forniscono una breve descrizione testuale per ogni link del sito web.

Poi c’era il Knowledge Panel, che forniva un’analisi visiva e testuale di determinati argomenti tratti dall’interfaccia di ricerca, spesso in collaborazione con siti come Wikipedia. In genere era informativo e manteneva gli utenti su Google. Poi l’intelligenza artificiale ha cambiato tutto.

Ora, la prima cosa che si vede non è affatto il risultato della ricerca. È un riepilogo di Google AI che attinge a diverse fonti autorevoli per creare uno o due paragrafi con testo, link e dati. Sembra utile, ma c’è un grande interrogativo: da dove provengono queste informazioni e ci si può fidare?

Secondo un recente studio di SparkToro, il 58,5% del traffico di ricerca di Google è ora a zero clic. Gli utenti ottengono tutte le informazioni di cui hanno bisogno dalla landing page senza mai cliccare su un link.

Alcuni insegnanti raccontano di studenti della Generazione Z e della Generazione Alpha cresciuti con Google che usano la landing page solo come strumento di domande e risposte. Non sanno come trovare le pagine web da soli. E questo potrebbe essere esattamente ciò che Google vuole: diventare una landing page non solo per le ricerche, ma per tutto.

Ma la gente se n’è accorta e sta trovando un rifugio insolito. La maggior parte dei beneficiari dei cambiamenti di Google sono stati i siti che generano contenuti tramite intelligenza artificiale e Google stesso, ma c’è stata una grande eccezione: Reddit. Questo sito è sempre stato un caso a parte, distinto dal boom dei social media. Solo la homepage è gestita da algoritmi. È principalmente basato sul testo, piuttosto che sui video, e l’IA è limitata solo ad alcuni riassunti. E questo ha portato a un’esplosione inaspettata.

Reddit ha visto il suo traffico organico da Google aumentare in termini assoluti più di qualsiasi altro sito, passando da circa 132 milioni a oltre 500 milioni in un solo anno. Il motivo è semplice. Reddit è uno dei pochi posti su Internet in cui le persone presumono ancora di parlare con altri esseri umani. La combinazione di facilità di pubblicazione e anonimato generale fa sì che le persone siano più disposte a pubblicare apertamente.

Google ha capito subito che Reddit stava diventando una miniera d’oro per i contenuti organici e non ha aspettato molto per concludere un accordo.

Nel febbraio 2024, Google ha offerto 60 milioni di dollari per i dati di Reddit. Questo permette a Google di utilizzare i post di Reddit per addestrare i suoi modelli di intelligenza artificiale e persino influenzare i risultati di ricerca. Probabilmente ha avuto un prezzo elevato, a dimostrazione di quanto Reddit sia diventato prezioso.

Nello stesso anno, Reddit ha registrato il suo primo utile trimestrale come società quotata in borsa, in gran parte grazie a un’impennata del traffico di ricerca. Ma questo potrebbe rivelarsi un’arma a doppio taglio. Gli utenti di Reddit hanno notato un insolito aumento di storie ripetitive, tutte incentrate sugli stessi conflitti e caratterizzate da uno stile di scrittura simile. Gli utenti non esitano a segnalare quelle che sospettano essere storie generate dall’IA e a votare negativamente i post.

Ma è chiaro che potrebbe essere una battaglia in salita. I dati di Reddit sono ora preziosi, il che significa che le stesse reti di bot che lo hanno reso un luogo così comodo per le ricerche ora lo considerano un luogo conveniente da sfruttare. Google pensa di poter risolvere i suoi problemi attingendo ai dati di Reddit.

Ma Internet potrebbe essere ormai troppo compromesso per questo. Per coloro che non credono nella sostenibilità a lungo termine dell’IA, a prescindere dalla volontà degli utenti, è importante considerare che, solo su Google, si sono registrate recenti polemiche a causa della presenza dell’IA non solo nel motore di ricerca, ma anche nei server di posta elettronica.

Gli utenti ricevono riassunti delle proprie email generati dall’IA e persino suggerimenti di possibili frasi da ripetere durante la scrittura. Molti si sono lamentati della difficoltà nel trovare e utilizzare l’opzione per disattivare queste funzionalità.

Questo potrebbe portare a un problema ben più grave. Gli scettici dell’IA mettono in guardia da tempo contro una potenziale crisi chiamata “collasso del modello“. Si tratta di un fenomeno osservato nei modelli di addestramento dell’IA, in cui l’apprendimento automatico finisce per addestrarsi su se stesso.

Elaborando un’enorme quantità di dati, assorbe grandi quantità di informazioni sintetiche non validate. Questi input errati finiscono poi nei risultati di ricerca e gli errori iniziano ad accumularsi all’interno del sistema. Nelle prime fasi del collasso del modello, i dati minoritari che non corrispondono alla maggioranza vengono filtrati, rendendo più difficile ottenere informazioni più specifiche.

Questo è l’inizio della fine. Il collasso del modello in fase avanzata si verifica quando un modello linguistico di grandi dimensioni inizia a perdere la sua utilità. Inizia a ripetere informazioni errate, diventa più difficile da correggere e le sue prestazioni si degradano costantemente.

Alcuni ricercatori lo paragonano alla consanguineità (inbreeding), in cui un difetto genetico viene trasmesso ripetutamente, dando luogo a una versione più pronunciata e spesso dannosa del tratto. In parole semplici, l’IA inizia ad alimentarsi con i propri dati peggiori e lentamente si deteriora.

E Google potrebbe essere il punto di partenza. Google non è solo il più grande motore di ricerca al mondo, ma il suo unico vero concorrente è se stesso.

Google detiene circa il 90% del traffico globale dei motori di ricerca. Il suo unico vero concorrente per volume di query è YouTube, anch’esso di proprietà di Google.

Amazon e Yahoo rappresentano poco più dell’1% del traffico totale. L’enorme volume di query che Google gestisce ogni giorno significa che elabora livelli di dati che nessun altro è in grado di gestire.

Questi dati sono sempre più composti da contenuti generati dall’intelligenza artificiale. Gli errori che hanno causato le bizzarre risposte “colla e pietra” nel 2024 non sono stati risolti. Anzi, stanno solo peggiorando. E questo potrebbe condurci verso una singolarità terrificante.

Man mano che sempre più contenuti generati dall’IA entrano in gioco, diventa sempre più difficile per qualsiasi contenuto creato dall’uomo avere un impatto.

I siti autentici scivolano sempre più in basso nella pagina. I contenuti generati dall’IA diventano più evidenti e gli errori vengono amplificati finché i risultati principali del motore di ricerca non saranno tutti contenuti sintetici progettati per autopromuoversi.

L’IA si addestra su altra IA e le persone non ottengono più da Google ciò che desiderano, ma ciò che Google vuole che ottengano. E in questo caso, che fine farà tutta la conoscenza umana?

L’organizzazione europea per la sicurezza Europol ha lanciato l’allarme, e non si tratta tanto di un allarme preventivo quanto di un ultimo disperato avvertimento. Si dice che entro la fine del 2026 ben il 90% dei contenuti online potrebbe essere generato dall’intelligenza artificiale. Potrebbe sembrare allarmistico e assurdo. Ma c’è una valanga di contenuti generati dall’IA praticamente su ogni social network, spesso progettati per fomentare polemiche e scatenare discussioni. E su milioni di siti web fantasma sparsi per internet, ogni giorno vengono generati articoli dall’IA senza l’intenzione di essere letti.

Non hanno bisogno di essere visualizzati direttamente. Perché Google li sta già tenendo d’occhio. Ed è per questo che alcune persone stanno iniziando a pensare al futuro. Un piccolo gruppo di veterani del web sta iniziando a orientarsi verso nuovi siti che rinunciano all’IA, sebbene con risultati altalenanti.

Negli ultimi anni sono emersi nuovi motori di ricerca, tra cui Kagi e Marginalia sono i due più importanti. Entrambi si vantano di essere motori di ricerca basati esclusivamente sull’intervento umano, che privilegiano i contenuti non commerciali e le ricerche organiche, con un algoritmo basato sull’IA opzionale.

Allo stesso modo, nel mondo dei videogiochi, è emersa una piccola ma fedele schiera di appassionati di console retro, che permette loro di giocare ai vecchi titoli con cui sono cresciuti.

Per la maggior parte delle persone, però, la strada da percorrere è un bivio. Internet si apre a due possibili strade, una molto più difficile dell’altra.

Da un lato, c’è un internet creato dagli umani e per gli umani, guidato da una realtà umana consapevole. Ma questo percorso presenta numerose sfide. Innanzitutto, serviranno designer per costruire questi nuovi siti web. E progettare nuovi siti non è economico, quindi la maggior parte di queste iniziative dovrà basarsi su donazioni o chiedere alle persone di pagare un abbonamento, cosa non sempre facile da accettare. Soprattutto quando l’alternativa è gratuita.

C’è un vecchio detto: “Se qualcosa è gratis, il prodotto sei tu“, e questo non è mai stato più vero che nel caso di Google.

Stanno diventando il centro di un nuovo internet, sempre più generato dall’intelligenza artificiale e plasmato da algoritmi basati sui dati degli utenti. E man mano che Google si integra sempre più in un numero crescente di siti e diffonde la sua intelligenza artificiale Gemini in tutto il suo ecosistema, la sua influenza diventa sempre più difficile da eludere.

A meno che gli utenti non inizino a mettere in discussione ciò che viene loro mostrato a prenderne le distanze e a iniziare a creare qualcosa di nuovo.

Google non è l’unico caso in cui l’IA potrebbe trovarsi in un vicolo cieco.

FONTI

  • https://en.wikipedia.org/wiki/Google
  • https://en.wikipedia.org/wiki/Alphabet_Inc.
  • https://en.wikipedia.org/wiki/Google_Search
  • https://theconversation.com/eat-a-rock-a-day-put-glue-on-your-pizza-how-googles-ai-is-losing-touch-with-reality-230953
  • https://en.wikipedia.org/wiki/AI_Overviews
  • https://www.webfitters.com/what-googles-search-generative-experience-sge-means-for-local-businesses-and-seo/
  • https://rocket.net/blog/google-march-2024-core-update/
  • https://www.cnbc.com/2026/03/26/ai-bots-humans-internet.html
  • https://developers.google.com/search/blog/2024/03/core-update-spam-policies
  • https://www.paulteitelman.com/a-6-month-study-of-the-potential-impact-of-googles-march-2024-helpful-content-update-on-niche-sites/
  • https://go-techsolution.com/googles-march-2024-core-update
  • https://medium.com/better-marketing/the-dark-side-of-seo-grey-black-hat-tactics-that-still-work-in-2025-660bda1182c7
  • https://x.com/jakezward/status/1728032634037567509
  • https://en.wikipedia.org/wiki/Zero-click_result
  • https://www.reuters.com/technology/reddit-ai-content-licensing-deal-with-google-sources-say-2024-02-22/
  • https://en.wikipedia.org/wiki/Model_collapse
  • https://thelivinglib.org/experts-90-of-online-content-will-be-ai-generated-by-2026/

About pensatorescientifico1969

Perchè sono l'Amministratore
This entry was posted in Varie and tagged , , , , , , , , , , , , , , , . Bookmark the permalink.