Maszyna kontra człowiek! W tym teście AI nie miało szans
ChatGPT-4 Turbo osiągnął 46% punktów w teście wiedzy historycznej i tym samym przegrał z doktorami historii. Wyniki badania Complexity Science Hub pokazują, że sztuczna inteligencja radzi sobie z faktami, ale ma problem z ich interpretacją i analizą. Choć AI dobrze odpowiadała na pytania o historię starożytną, znacznie gorzej wypadała w kontekście nowożytnych wydarzeń.
AI kontra eksperci – test wiedzy historycznej
W styczniu 2025 roku naukowcy z Complexity Science Hub (CSH) w Wiedniu przeprowadzili eksperyment mający na celu ocenę zdolności sztucznej inteligencji do rozumienia i interpretacji historii. W teście uczestniczyły popularne modele AI, takie jak ChatGPT-4 Turbo, Llama i Gemini, które zmierzyły się z międzynarodową grupą doktorów historii. Wyniki? Sztuczna inteligencja daleko w tyle za ludźmi. Najlepszy wynik uzyskał ChatGPT-4 Turbo, który odpowiedział poprawnie na 46% pytań wielokrotnego wyboru. Choć ten wynik jest wyższy niż poziom losowego zgadywania (25%), to wciąż znacząco odbiega od osiągnięć ekspertów, co zdaniem badaczy wskazuje na wyraźne ograniczenia modeli AI w analizie wiedzy humanistycznej.
Historia – zbiór faktów czy pole do interpretacji?
Historia nie jest jedynie zbiorem dat i faktów, co dobitnie pokazuje eksperyment CSH. Sztuczna inteligencja, mimo swojej zdolności do przetwarzania ogromnych ilości danych, ma trudności z interpretacją i analizą informacji w kontekście historycznym. Modele AI, takie jak ChatGPT, wykazały większą dokładność w pytaniach dotyczących historii starożytnej, szczególnie z okresu od 8 tys. do 3 tys. p.n.e. Jednak w przypadku wydarzeń nowożytnych i współczesnych ich wyniki były znacznie słabsze. Okazało się, że największe braki dotyczyły analizy wydarzeń od 1500 roku n.e. do czasów współczesnych, gdzie interpretacja i rozumienie kontekstu są kluczowe.
Dlaczego AI przegrywa w humanistyce?
Profesor Peter Turchin z CSH, autor badania, zwraca uwagę, że sztuczna inteligencja działa specyficznie dla danego obszaru wiedzy. Zauważa, że duże modele językowe osiągnęły sukces w wielu dziedzinach, takich jak prawo, ale w ocenie złożonych cech dawnych społeczeństw wciąż mają poważne ograniczenia. To, co działa w dziedzinach technicznych, takich jak analiza danych czy generowanie tekstu, niekoniecznie sprawdza się w naukach humanistycznych. Modele AI nie tylko mają problemy z rozumieniem wielowarstwowych procesów historycznych, ale także z uwzględnianiem różnorodności źródeł i ich interpretacji. Wynik ChatGPT-4 Turbo – 46% – podkreśla, że AI potrzebuje jeszcze wiele pracy, aby zbliżyć się do poziomu ekspertów.
Przyszłość sztucznej inteligencji w historii
Choć wyniki badania mogą wydawać się rozczarowujące, naukowcy widzą potencjał AI w pomocy historykom i archeologom. Chatboty mogą być używane jako narzędzia wspierające w zbieraniu danych, przeszukiwaniu źródeł czy sugerowaniu kierunków badań. Jednak kluczowe decyzje interpretacyjne pozostaną w rękach ludzi. Prof. Turchin podkreśla, że historia to dziedzina, w której kontekst i zrozumienie kulturowe są kluczowe. AI może wspierać nas w organizacji danych, ale nie zastąpi umiejętności człowieka w nadawaniu sensu wydarzeniom. W miarę rozwoju technologii przyszłe modele mogą jednak lepiej radzić sobie z analizą i interpretacją danych, co otworzy nowe możliwości w naukach humanistycznych.
Maszyna nie pokonała człowieka – na razie
Wyniki testu wskazują, że AI wciąż ustępuje ludziom w naukach humanistycznych, takich jak historia. Choć ChatGPT-4 Turbo osiągnął wynik 46%, co jest poprawą względem losowego zgadywania, to nadal znacznie odbiega od poziomu ekspertów. Największym wyzwaniem dla sztucznej inteligencji pozostaje interpretacja i rozumienie faktów w kontekście kulturowym oraz czasowym. Badanie CSH pokazuje, że choć AI ma swoje ograniczenia, może być cennym narzędziem wspierającym badaczy. Jednak w takich dziedzinach jak historia, człowiek wciąż pozostaje niezastąpiony. Przyszłość pokaże, czy modele AI będą w stanie zbliżyć się do ludzkiego poziomu analizy i interpretacji. Na razie maszyna przegrywa z człowiekiem.
Redaktorka, korektorka, copywriterka. Studentka dziennikarstwa i medioznawstwa na Uniwersytecie Warszawskim, absolwentka podyplomowej redakcji językowej tekstu na UW. Miłośniczka motoryzacji, podróży, fotografii oraz literatury.