Startseite Nachrichten Googles KI-Übersichten liefern weiterhin Millionen falscher Antworten pro Stunde

Googles KI-Übersichten liefern weiterhin Millionen falscher Antworten pro Stunde

Google, AI mode, Search Engine, Browser
Tada Images / Shutterstock.com

Googles KI-Übersichten sind meist korrekt, doch bei Suchmaschinen-Skalierung führt selbst eine geringe Fehlerquote zu Millionen falscher Antworten pro Stunde.

Die KI-generierten Zusammenfassungen in der Google-Suche haben sich verbessert, doch bei der enormen Skalierung von Google Search wird selbst eine vergleichsweise geringe Fehlerquote zu einem erheblichen Problem.

Laut einem Experiment der New York Times, durchgeführt mit dem KI-Startup Oumi, lagen Googles KI-Übersichten in etwa 90 % der Fälle richtig. Das bedeutet zugleich, dass ungefähr jede zehnte Antwort falsch war.

Übertragen auf das Suchvolumen von Google entspricht diese Fehlerquote Millionen falscher KI-generierter Antworten pro Stunde.

Genauigkeit steigt – doch die Skalierung erhöht die Auswirkungen

Die KI-Übersichten nutzen Googles Gemini-Modelle, um kurze Antworten direkt in den Suchergebnissen zu erzeugen.

Das System hat sich Berichten zufolge verbessert: von etwa 85 % Genauigkeit mit Gemini 2.5 auf rund 91 % nach der Umstellung auf Gemini 3.

Doch entscheidend ist nicht nur die Verbesserung. Selbst eine Genauigkeit von 90 % bedeutet bei einer der meistgenutzten Informationsplattformen der Welt weiterhin eine große Zahl falscher Antworten.

Google kritisiert die Methodik

Google weist die Ergebnisse zurück und argumentiert, dass der Test nicht widerspiegele, wie Nutzer die Suche tatsächlich verwenden.

Zudem kritisierte das Unternehmen den im Experiment verwendeten SimpleQA-Benchmark und erklärte, dieser könne Ungenauigkeiten enthalten. Google gibt an, bei eigenen Bewertungen eine strenger überprüfte Version zu nutzen.

Nach Ansicht des Unternehmens überschätzt die Studie das Problem im realen Einsatz.

Geschwindigkeit, Kosten und Genauigkeit im Spannungsfeld

Die KI-Übersichten basieren nicht auf einem einzigen Modell für alle Anfragen.

Google zufolge wählt das System jeweils das Modell aus, das für eine Suchanfrage am relevantesten ist. Leistungsfähigere Modelle liefern oft bessere Ergebnisse, sind jedoch langsamer und teurer im Betrieb auf Suchmaschinen-Niveau.

Damit steht Google vor einem klassischen Zielkonflikt zwischen Genauigkeit, Geschwindigkeit, Kosten und Nutzererlebnis.

Das Vertrauensproblem geht über die Fehlerquote hinaus

Eine Trefferquote von 90 % mag im KI-Kontext hoch erscheinen, doch die Suche unterscheidet sich grundlegend von Chatbots oder internen Tests.

Wenn Google eine KI-Antwort an oberster Stelle anzeigt, nehmen viele Nutzer diese als verlässlich wahr und verzichten darauf, die ursprünglichen Quellen aufzurufen.

Das macht jeden Fehler folgenreicher. Google selbst weist auf dieses Risiko hin und betont, dass KI fehlerhaft sein kann und Informationen überprüft werden sollten.

Das Problem ist nicht, dass KI-Übersichten ständig scheitern — sondern dass sie in einer Größenordnung eingesetzt werden, in der selbst seltene Fehler massive Auswirkungen haben.

Quellen: Experiment der New York Times mit Oumi; Stellungnahmen von Google; Ars Technica