Nowa funkcja AI w Google: Wyszukiwarka widzi i słyszy więcej!

AI |

Google wprowadza nową funkcję AI. Wyszukiwarka widzi i słyszy więcej niż wcześniej

Google rozpoczęło globalne udostępnianie trybu Live – interaktywnej funkcji wykorzystującej sztuczną inteligencję do prowadzenia konwersacji głosowych oraz analizy obrazu w czasie rzeczywistym. Usługa obejmuje ponad 200 krajów i obsługuje wszystkie języki wspierane dotąd w Trybie AI, otwierając drogę do swobodniejszej, wielozmysłowej komunikacji z wyszukiwarką.

Jak to działa w praktyce

Tryb Live jest dostępny w aplikacji Google dla Androida i iOS. Użytkownik wywołuje go przyciskiem mikrofonu lub ikony aparatu, po czym może zadawać pytania głosowo, a następnie kontynuować rozmowę bez potrzeby każdorazowego powtarzania słów kluczowych. Model analizuje kontekst wcześniejszych wypowiedzi, dzięki czemu odpowiedzi są spójne i logicznie powiązane z całą konwersacją. Dodatkowo interfejs podpowiada powiązane zagadnienia, aby ułatwić pogłębienie danego tematu.

Integracja z kamerą i Obiektywem

Funkcja rozpoznawania obrazu pozwala skierować telefon na dowolny przedmiot lub scenę – od mechanizmu rowerowego po tablicę elektryczną – i zapytać o sposób naprawy, instalacji bądź identyfikacji elementu. Sztuczna inteligencja łączy dane wizualne z wiedzą tekstową, tworząc instrukcje krok po kroku lub podsyłając ilustracje poglądowe. Ten sam mechanizm działa w aplikacji Obiektyw Google, gdzie opcję Live można włączyć bezpośrednio z poziomu kamery, co eliminuje potrzebę przełączania się między aplikacjami.

Technologia stojąca za nowością

Sercem rozwiązania jest model Gemini 3.1 Flash Live, zaprojektowany z myślą o szybkiej analizie mowy i obrazu przy minimalnych opóźnieniach. Inżynierowie Google chwalą się wyższą płynnością dialogu niż we wcześniejszych generacjach, co osiągnięto m.in. przez lepszą synchronizację rozpoznawania języka i generowania odpowiedzi. Model wykorzystuje optymalizacje pamięci oraz dedykowane akceleratory TPU, aby zmniejszyć zużycie energii na urządzeniu mobilnym i skrócić czas między wypowiedzią użytkownika a reakcją systemu.

Aktualna dostępność i dalsze plany

Choć funkcja została włączona globalnie, jej działanie wciąż zależy od lokalnie aktywnego Trybu AI, który nie wszędzie udostępnia te same możliwości. Google zapowiada stopniowe rozszerzanie zasięgu, jednak nie ujawnia konkretnych dat pełnego wdrożenia. Firma przyznaje, że część regionów może otrzymać funkcję później ze względu na różnice w regulacjach prawnych, infrastrukturze sieciowej i potrzebie dostosowania modelu do lokalnych dialektów.

Wyzwania i perspektywy

Rozszerzenie wyszukiwarki o komunikację multimodalną otwiera nowe scenariusze wykorzystania, ale równocześnie stawia pytania o prywatność obrazu i nagrań głosowych. Google deklaruje, że dane z kamery są przetwarzane „w locie” i nie są przechowywane, lecz eksperci zalecają ostrożność w przypadku udostępniania wrażliwych treści wizualnych. Mimo tych zastrzeżeń rynek spodziewa się, że integracja mowy, obrazu i wiedzy encyklopedycznej stanie się w przyszłości standardem, wyznaczając kierunek rozwoju wyszukiwarek oraz aplikacji asystenckich.