Google zapowiada integrację Gemini z systemem adnotacji graficznych, która ma uprościć poprawianie obrazów tworzonych przez silnik NanoBanana. Zamiast tradycyjnego łańcucha eksport–edycja–import, użytkownik będzie mógł wskazać fragment do zmiany bezpośrednio w interfejsie, a następnie doprecyzować instrukcję tekstową. Rozwiązanie wpisuje się w szerszy trend przyspieszania iteracyjnej pracy z generatywną sztuczną inteligencją, obserwowany już w narzędziach pokroju Adobe Firefly czy DALL·E w ChatGPT, ale w wydaniu Google może przynieść wyjątkowo płynne doświadczenie dzięki pełnemu sprzężeniu z modelem językowym Gemini.

Edytowanie obrazów za pomocą zaznaczeń kontekstowych

Zasada działania jest prosta: po wygenerowaniu grafiki pojawi się ikonka ołówka umożliwiająca wejście w tryb adnotacji. Wystarczy przeciągnąć kursor po obszarze, który ma ulec modyfikacji, na przykład zaznaczyć tło lub element garderoby postaci. Po zaakceptowaniu wyboru otworzy się pole do wprowadzenia polecenia, np. „zamień niebo na zachód słońca” lub „dodaj złote logo na kurtce”.

Tym samym jedno kliknięcie kontynuuje rozmowę z modelem Gemini, łącząc opis słowny ze wskazówką wizualną. Eliminuje to ryzyko nieporozumień – algorytm wie, który fragment obrazka ma zmienić, bo użytkownik go precyzyjnie zaznaczył. Podobny mechanizm, nazwany generative fill, zyskał popularność w programach do edycji zdjęć, lecz dopiero teraz trafia do czysto tekstowego interfejsu czatu.

Na razie funkcja pozostaje w fazie dogłębnych testów. Z pierwszych przecieków wynika, że wykorzystuje system warstwowy: model segreguje elementy sceny na oddzielne maski, dzięki czemu obróbka wybranego fragmentu nie degraduje reszty obrazu. To krok w stronę edycji nieniszczącej, znanej z profesjonalnych pakietów graficznych.

Ułatwienie przepływu pracy i oszczędność czasu

Dotychczas poprawianie wygenerowanych grafik wymagało pobrania pliku, przejścia do zewnętrznego edytora i ponownego wgrania obrazu do czatu, co w środowisku produkcyjnym bywało barierą. Dzięki adnotacjom całość odbywa się w jednej sesji, a wersje pośrednie są przechowywane w historii rozmowy, pozwalając wrócić do wcześniejszych iteracji.

Zmniejszenie liczby kliknięć ma realny wpływ na koszty: dla zespołów kreatywnych liczących godziny pracy skrócenie iteracji o kilka minut przy kilkudziesięciu projektach dziennie przekłada się na znaczące oszczędności. Ponadto centralizowanie wszystkich poprawek w ramach jednego narzędzia ułatwia audyt zgodności z wytycznymi marki czy regulacjami dotyczącymi praw autorskich.

Warto dodać, że Gemini generuje podgląd wyniku jeszcze przed finalnym renderem, wykorzystując tzw. lightweight preview. Taki podgląd można odrzucić, doprecyzować prompt lub zaakceptować, co zmniejsza zużycie mocy obliczeniowej i skraca kolejkę zadań na serwerach.

NanoBanana 2 – druga generacja silnika graficznego

Serce całej nowości stanowi NanoBanana 2, czyli unowocześniona wersja modelu generującego obrazy. W stosunku do poprzednika poprawie uległa rozdzielczość – możliwe jest renderowanie scen w natywnym 4K przy zachowaniu szybkości zbliżonej do realtime. W testach wewnętrznych pojedyncze zdjęcie w 3840×2160 pikselach pojawia się na ekranie średnio po trzech sekundach.

Największym skokiem jakościowym okazało się lepsze rozumienie relacji przestrzennych. Model skuteczniej zachowuje proporcje ludzkich sylwetek i precyzyjniej umieszcza drobne rekwizyty, co wcześniej bywało piętą achillesową generatywnego podejścia. Nowy zestaw danych treningowych obejmuje fotografie produktowe w kontrolowanym oświetleniu, dzięki czemu NanoBanana 2 radzi sobie nie tylko z artystycznymi krajobrazami, lecz również z packshotami do e-commerce.

Poprawiono także obsługę czcionek. Silnik rozpoznaje popularne kroje i potrafi wiernie odtworzyć liternictwo w logo czy nagłówku, minimalizując błędy w zapisie. To szczególnie istotne przy tworzeniu materiałów marketingowych, gdzie literówki dyskwalifikują użycie obrazu.

Szanse, ryzyka i miejsce w krajobrazie generatywnego AI

Integracja adnotacji z modelem językowym to kolejny etap rywalizacji branży o dostarczenie najbardziej przyjaznego narzędzia do kreacji wizualnej. DALL·E, Midjourney i Stable Diffusion również eksperymentują z tzw. paintbrush editing, lecz głęboka integracja z czatem konwersacyjnym i warstwową segmentacją może dać Google przewagę w dziedzinie ergonomii.

Nie brak jednak wyzwań. Automatyczne przenoszenie masek na kolejne iteracje naraża system na kumulowanie artefaktów, jeśli użytkownik wielokrotnie zawęża ten sam obszar. Ponadto kwestia praw autorskich do tekstur wykorzystanych w fazie treningu wciąż budzi dyskusję, a uproszczenie edycji może skłonić do masowego wytwarzania treści, co z kolei zwiększa potrzebę narzędzi do weryfikacji autentyczności zdjęć.

Google deklaruje wprowadzenie dodatkowych zabezpieczeń: metadane w standardzie C2PA oznaczą każdy obraz jako syntetyczny, a system filtrów treści zablokuje próby generowania materiałów sprzecznych z lokalnym prawem. Wszystko to ma budować zaufanie zarówno wśród użytkowników indywidualnych, jak i w sektorze enterprise.

Dostępność i dalsze etapy wdrożenia

Obecnie nowa funkcjonalność trafia do ograniczonej grupy testerów w ramach programu Gemini Labs. Firma zapowiada, że po zebraniu feedbacku ruszy stopniowe udostępnianie dla posiadaczy kont korporacyjnych Google Workspace, a następnie dla użytkowników indywidualnych korzystających z abonamentu Advanced AI.

Inżynierowie skupiają się głównie na optymalizacji interfejsu pod urządzenia mobilne, gdzie precyzyjne zaznaczenie obszaru palcem wymaga szczególnej dokładności. W planach jest też rozszerzenie trybu adnotacji o możliwość wgrywania własnego szkicu lub maski, co otworzy drogę do bardziej złożonych kompozycji.

Jeśli harmonogram nie ulegnie zmianie, publiczna wersja beta powinna wystartować jeszcze przed końcem roku, a finalne wydanie – łącznie z pakietem API dla deweloperów – zadebiutuje na konferencji branżowej wiosną przyszłego roku. To oznacza, że twórcy treści powinni już teraz rozważyć dostosowanie swoich przepływów pracy do nadchodzących możliwości.