Google AI: Szokujące wyniki testów ujawniają miliony błędów
Daniel Wlaźlakgoogle | fot.https://elements.envato.com/
AI w wyszukiwarce Google podaje miliony kłamstw na godzinę. Wyniki testów szokują
Według najnowszych analiz około 9% wyników prezentowanych w funkcji AI Overviews zawiera treści niezgodne z faktami. Biorąc pod uwagę, że wyszukiwarka Google obsługuje średnio blisko 100 000 zapytań na sekundę, oznacza to nawet kilkadziesiąt milionów potencjalnie mylących odpowiedzi w każdej godzinie. Skala ta wzbudza poważne pytania o wiarygodność generatywnej sztucznej inteligencji w produktach masowego użytku.
Google AI Overviews myli się w co dziesiątym pytaniu
AI Overviews to moduł prezentujący syntetyczne podsumowania w górnej części wyników wyszukiwania. Został udostępniony szerokiej grupie użytkowników wiosną 2024 r., a następnie zintegrowany m.in. z aplikacją Google oraz trybem AI Mode dla Androida. Wewnętrzny model Gemini odpowiada za generowanie tekstów, które łączą informacje z indeksu wyszukiwarki i danych pochodzących z zewnętrznych źródeł.
Testy przeprowadzone przez niezależny startup badawczy z użyciem benchmarku SimpleQA wykazały poprawę trafności z 85% do 91% po aktualizacji systemu do Gemini 3. Mimo wzrostu jakości jeden na jedenaście komunikatów nadal był błędny. Typowymi uchybieniami okazały się niepoprawne daty, mylący kontekst lub twierdzenia, których nie potwierdzały cytowane źródła.
Dlaczego dochodzi do halucynacji? Mechanizm i ograniczenia modeli językowych
Modele generatywne działają predykcyjnie: obliczają najbardziej prawdopodobne kolejne słowa na podstawie danych treningowych. W sytuacji braku wiarygodnej informacji algorytm może wytworzyć pozornie sensowną, lecz nieprawdziwą treść – zjawisko to branża określa mianem „halucynacji”. Ryzyko rośnie, gdy system musi szybko obsłużyć ogromne wolumeny zapytań, a infrastruktura dynamicznie przełącza się między bardziej i mniej zaawansowanymi wariantami modelu, balansując między kosztami obliczeń a jakością odpowiedzi.
Badania przeprowadzone w ostatnich latach przez uniwersytety Stanforda, Cornell i Maryland wykazały, że nawet przy zastosowaniu technik retrieval-augmented generation – czyli dociągania informacji ze sprawdzonych źródeł w czasie rzeczywistym – wskaźnik halucynacji dla złożonych pytań faktograficznych często przekracza 5%. W kontekście komercyjnej wyszukiwarki każdy dodatkowy punkt procentowy ma wymierny wpływ na setki tysięcy użytkowników.
Metodologia testów i ekstrapolacja skali problemu
Benchmark SimpleQA obejmuje kilka tysięcy krótkich pytań sprawdzających pojedyncze fakty – daty wydarzeń, pełne nazwy instytucji czy wyniki historycznych meczów. W eksperymencie zadawano je poprzez interfejs wyszukiwarki w różnych konfiguracjach urządzeń oraz lokalizacji. Wyniki łączono z logami odpowiedzi, a następnie weryfikowano ręcznie przez zespół ekspertów.
Przyjmując, że Google obsługuje przeciętnie 8,5 mld wyszukiwań dziennie, a AI Overviews pojawia się w około jednej trzeciej z nich, otrzymujemy blisko 2,8 mld zapytań wspieranych przez generatywną AI. Nawet przy 91% skuteczności daje to ponad 250 mln błędnych odpowiedzi każdego dnia. Choć liczby te mają charakter przybliżony, dobrze ilustrują wagę zagadnienia dla ekosystemu informacji publicznej.
Stanowisko Google i reakcje branży
Przedstawiciele Google kwestionują rzetelność benchmarku, twierdząc, że zawiera on mało reprezentatywne lub jednostronnie sformułowane pytania. Firma podkreśla, że korzysta z własnych, obszerniejszych zestawów testowych obejmujących zapytania typowe dla użytkowników. Równocześnie gigant z Mountain View zaznacza, iż interfejs AI Overviews wyświetla ostrzeżenia o możliwych nieścisłościach oraz ułatwia przejście do źródeł pierwotnych.
Część ekspertów branżowych przyznaje, że krytyka metodologii może być uzasadniona, ale wskazuje, iż mechanizm odpowiedzialności za treści nie może opierać się wyłącznie na edukowaniu odbiorców. W świetle regulacji takich jak unijny Akt o Usługach Cyfrowych oraz rosnącego nadzoru rynkowego, dostawcy systemów AI będą prawdopodobnie zobligowani do bardziej transparentnych procedur ewaluacyjnych i publicznego raportowania wskaźników jakości.
Weryfikowalność informacji – wyzwania i możliwe kierunki zmian
Badacze proponują kilka dróg ograniczenia liczby halucynacji: wzmocnienie warstwy sprawdzania faktów poprzez niezależne bazy wiedzy, podział modeli na wyspecjalizowane domenowo podsystemy czy wreszcie większą ekspozycję źródeł wraz z oceną ich wiarygodności. Pojawiają się także sugestie wprowadzenia jednolitej skali jakościowej – podobnej do etykiet efektywności energetycznej – która w prosty sposób informowałaby internautów o stopniu pewności generowanych treści.
Choć dokładna ścieżka rozwoju pozostaje otwarta, jedno jest pewne: utrzymanie zaufania do wyszukiwarki zależy od konsekwentnego obniżania odsetka błędów oraz transparentnego komunikowania ograniczeń technologii generatywnej. W przeciwnym razie nawet marginalny poziom nieścisłości, przemnożony przez globalną skalę, przełoży się na poważne konsekwencje dla jakości debaty publicznej i dostępu do wiedzy.