Cosa è successo la scorsa settimana con AI Overview
Un paio di settimane fa, in occasione di Google I/O, abbiamo annunciato che avremmo reso AI Overview per tutti negli Stati Uniti.
Dai feedback emerge che con AI Overview gli utenti sono più soddisfatti dei risultati di ricerca e sanno di poter porre a Google domande più lunghe e complesse, a cui troveranno così risposta. Le persone utilizzano questi riepiloghi come punto di partenza per navigare sul web, e abbiamo visto che i clic sulle pagine web sono di qualità superiore: è più probabile infatti che le persone rimangano su quella pagina, perché è stato fatto un lavoro migliore per trovare le informazioni giuste e le pagine web utili per loro.
Nell'ultima settimana, alcuni utenti hanno condiviso sui social media dei riepiloghi bizzarri e errati (insieme a un gran numero di screenshot fake). Sappiamo che le persone si fidano del fatto che la Ricerca Google fornisca informazioni accurate e non sono mai state restie nel segnalare stranezze o errori riscontrati, nei nostri ranking o in altre funzioni della ricerca. Ci impegniamo a mantenere uno standard elevato, così come fanno i nostri utenti, quindi ci aspettiamo e apprezziamo il feedback e lo prendiamo molto sul serio.
Data l'attenzione su AI Overview vogliamo spiegare di seguito cosa è successo e i provvedimenti che abbiamo preso.
Come funziona AI Overview
Per molti anni abbiamo sviluppato funzioni all’interno del motore di ricerca che rendono più facile per le persone trovare le informazioni che stanno cercando nel più breve tempo possibile. AI Overview è stato progettato per fare un ulteriore passo avanti, aiutando a rispondere a domande più complesse che in precedenza avrebbero potuto richiedere più ricerche o follow-up, includendo in modo evidente i link per saperne di più.
AI Overview funziona in modo molto diverso dai chatbot e da altri prodotti LLM che gli utenti possono aver utilizzato. Non genera semplicemente un output basato su dati di addestramento. Sebbene sia alimentato da un modello linguistico personalizzato, il modello è integrato con i nostri sistemi di classificazione web di base e progettato per svolgere compiti di “ricerca” tradizionali, come l'identificazione dal nostro indice di risultati pertinenti e di alta qualità. Per questo motivo, non si limita a fornire un output testuale, ma include anche link pertinenti per consentire alle persone di approfondire la ricerca. Poiché l'accuratezza è fondamentale nella ricerca, i riepiloghi sono costruiti in modo da mostrare solo informazioni supportate dai migliori risultati web.
Ciò significa che AI Overview in genere non presenta allucinazioni o sbaglia come potrebbero fare altri prodotti LLM. Quando sbaglia, di solito è per altri motivi: interpretazione errata delle query, interpretazione errata di una sfumatura del linguaggio sul web o mancanza di molte informazioni utili. (Si tratta di problemi che si presentano anche con altre funzioni di ricerca).
Questo approccio è molto efficace. Nel complesso, i nostri test dimostrano che il nostro tasso di accuratezza per AI Overview è pari a quello di un'altra popolare funzione del motore di ricerca, gli snippet in primo piano, che utilizza anch'essa sistemi AI per identificare e mostrare informazioni importanti con link a contenuti web.
A proposito di quei risultati bizzarri
Oltre a progettare AI Overview per ottimizzarne l'accuratezza, abbiamo testato a fondo la funzionalità prima del lancio. Questo ha comportato un grande lavoro di red-team, valutazioni con campioni di query tipiche degli utenti e test su una parte del traffico di ricerca per verificarne le prestazioni. Ma non c'è niente di più utile che avere milioni di persone che utilizzano la funzionalità con ricerche nuove. Abbiamo anche assistito a nuove ricerche prive di senso, apparentemente mirate a produrre risultati errati.
Inoltre, sono stati condivisi numerosi screenshot non autentici. Alcuni di questi risultati fake erano evidenti e assurdi. Altri hanno lasciato intendere che abbiamo restituito risultati pericolosi per argomenti come lasciare i cani in auto, fumare in gravidanza o sulla depressione. Questi riepiloghi non sono mai apparsi. Invitiamo quindi tutti coloro che si imbattono in screenshot di questo tipo a effettuare personalmente una ricerca per verificare le informazioni.
Tuttavia, sono sicuramente apparsi alcuni risultati bizzarri, imprecisi o non utili. Anche se in genere si trattava di query che le persone non eseguono comunemente, sono state evidenziate alcune aree specifiche che dovevano essere migliorate.
Uno degli aspetti che abbiamo identificato è la nostra capacità di interpretare le query insensate e i contenuti satirici. Un esempio: “Quanti sassi dovrei mangiare?”. Prima che questi screenshot diventassero virali, praticamente nessuno poneva a Google questa domanda. Potete vederlo voi stessi su Google Trends.
Non ci sono nemmeno così tanti contenuti web che prendono seriamente in considerazione questa domanda. Si tratta di quello che viene spesso chiamato “vuoto di dati” o “vuoto di informazioni”, quando c'è una quantità limitata di contenuti di alta qualità su un determinato argomento. Tuttavia, in questo caso, esiste un contenuto ironico sull'argomento... che è stato anche ripubblicato sul sito web di un fornitore di software nel campo della geologia. Così, quando qualcuno ha inserito la domanda nel motore di ricerca, è apparsa una panoramica dell'AI che rimandava fedelmente a uno degli unici siti web che affrontavano l’argomento.
In altri casi, abbiamo visto panoramiche dell'AI che presentavano contenuti ironici o contenuti troll provenienti da forum di discussione. I forum sono spesso un'ottima fonte di informazioni autentiche e di prima mano, ma in alcuni casi possono portare a consigli tutt'altro che utili, come usare la colla per far attaccare il formaggio sulla pizza.
In un ristretto numero di casi, abbiamo riscontrato che i riassunti hanno interpretato in modo errato il linguaggio delle pagine web restituendo informazioni inesatte. Abbiamo lavorato rapidamente per risolvere questi problemi, sia attraverso miglioramenti ai nostri algoritmi sia attraverso processi consolidati per rimuovere le risposte non conformi alle nostre policy.
I miglioramenti che abbiamo apportato
Come sempre accade quando apportiamo miglioramenti alla Ricerca Google, non ci limitiamo a “correggere” le query una per una, ma lavoriamo su aggiornamenti che possono aiutare ampi gruppi di query, comprese quelle nuove che non abbiamo ancora incontrato.
Guardando gli esempi delle ultime due settimane, siamo stati in grado di determinare i pattern in cui non ci siamo trovati bene e abbiamo apportato più di una dozzina di miglioramenti tecnici ai nostri sistemi. Ecco un esempio di ciò che abbiamo fatto finora:
- Abbiamo creato meccanismi di rilevamento migliori per le query senza senso che non dovrebbero mostrare un riepilogo e abbiamo limitato l' inserimento di contenuti ironici e satirici.
- Abbiamo aggiornato i nostri sistemi per limitare l'uso di contenuti generati dagli utenti nelle risposte che potrebbero offrire consigli ingannevoli.
- Abbiamo aggiunto restrizioni di attivazione per le query in cui AI Overview non è stato altrettanto utile.
- Per argomenti come l’attualità e la salute, abbiamo già adottato forti misure di protezione. Ad esempio, ci impegniamo a non mostrare panoramiche dell'AI per gli argomenti di attualità per i quali sono importanti tempestività e veridicità. Nel caso degli argomenti relativi alla salute, abbiamo introdotto ulteriori perfezionamenti per migliorare le nostre misure sulla tutela della qualità.
Oltre a questi miglioramenti, abbiamo monitorato con attenzione i feedback e le segnalazioni esterne, intervenendo sul limitato numero di panoramiche dell'AI che violano le policy sui contenuti. Si tratta di informazioni potenzialmente pericolose, indiscrete o che violano in altro modo le nostre norme. Abbiamo riscontrato una violazione delle norme sui contenuti in meno di una query su 7 milioni in cui sono apparsi i riassunti.
Considerando le dimensioni del web, con miliardi di query che arrivano ogni giorno, è inevitabile che si verifichino stranezze ed errori. Negli ultimi 25 anni abbiamo imparato molto su come costruire e mantenere un'esperienza di ricerca di alta qualità, compreso come imparare da questi errori per rendere la ricerca migliore per tutti. Continueremo a migliorare i tempi e i modi in cui mostriamo panoramiche dell'AI e a rafforzare le nostre misure di tutela anche per i casi limite. Infine, siamo veramente grati per il continuo feedback che riceviamo da tutti voi.