Google zdecydowało się na cichy debiut nowej mobilnej aplikacji wykorzystującej sztuczną inteligencję do błyskawicznej transkrypcji mowy, która – po pobraniu odpowiednich modeli – funkcjonuje w pełni bez dostępu do sieci. Narzędzie o nazwie Google AI Edge Eloquent pojawiło się najpierw na iPhone’ach i od razu zwróciło uwagę możliwością tworzenia niemal gotowych do publikacji tekstów bez konieczności łączenia się z chmurą.
Od zamiany głosu w tekst do gotowego dokumentu
Podstawową funkcją Eloquent jest rozpoznawanie mowy i zamiana jej na tekst, lecz w odróżnieniu od klasycznych dyktafonów aplikacja automatycznie poprawia interpunkcję, usuwa powtórzenia, przerywniki oraz inne elementy utrudniające lekturę. Po zakończeniu nagrania użytkownik otrzymuje przejrzysty zapis z podziałem na akapity, gotowy do wklejenia do edytora tekstu czy systemu zarządzania treścią. Sercem rozwiązania jest kompaktowy model ASR (Automatic Speech Recognition) zoptymalizowany pod kątem pracy na urządzeniach mobilnych, który korzysta z możliwości nowoczesnych układów Neural Processing Unit znajdujących się w najnowszych iPhone’ach.
Sztuczna inteligencja na brzegu: dlaczego tryb offline ma znaczenie
Umieszczenie całego procesu transkrypcji i wstępnej edycji na urządzeniu to krok wpisujący się w szerszy trend edge AI. Praca offline oznacza nie tylko wyeliminowanie opóźnień wynikających z wysyłania plików audio na serwery, lecz także znaczną poprawę prywatności – nagrania nie muszą opuszczać telefonu, aby zostały przetworzone. Google korzysta tu z doświadczeń zebranych przy funkcjach Live Caption czy rozpoznawaniu poleceń Asystenta bez połączenia z internetem, a analitycy rynku mobilnego zwracają uwagę, że podobne podejście zyskuje popularność również u konkurencji, choćby w zapowiadanym systemie Apple Intelligence i w najnowszych modelach urządzeń opartych na Snapdragonie. W praktyce oznacza to mniejsze zużycie transferu danych, dłuższy czas pracy na baterii oraz mniejszą wrażliwość na zakłócenia sieci.
Więcej niż dyktowanie: edycja, analiza i personalizacja
Eloquent wykracza poza samo zapisywanie słów. Wbudowane funkcje edycyjne pozwalają jednym dotknięciem skrócić lub rozwinąć akapit, zmienić ton wypowiedzi z oficjalnego na bardziej swobodny, a nawet poprosić aplikację o wygenerowanie streszczenia kluczowych punktów. Historia nagrań jest indeksowana, dzięki czemu można wyszukać konkretne frazy z przeszłości i przeanalizować statystyki swojego mówienia, takie jak tempo czy liczba słów na minutę. W trybie chmurowym, aktywowanym opcjonalnie, do gry wchodzi większy model z rodziny Gemini, który potrafi dodatkowo wygładzić składnię, wzbogacić słownictwo i dostosować styl do zadanego kontekstu – np. raportu służbowego czy wpisu na blog.
Kto i kiedy skorzysta z Eloquent
Obecnie program jest udostępniany w ograniczonej grupie użytkowników iPhone’ów w Stanach Zjednoczonych, natomiast Google zapowiada stopniowe rozszerzanie listy języków oraz wejście na platformę Android w kolejnych miesiącach. Firma sonduje również możliwość wbudowania technologii prosto w system operacyjny, co mogłoby ułatwić jej integrację z Dokumentami Google, Gmailem czy pakietami biurowymi partnerów. Dla dziennikarzy, studentów, lekarzy czy twórców podcastów oznacza to szansę na znaczne przyspieszenie pracy z materiałem audio, a dla samego Google – kolejny krok w kierunku udostępniania zaawansowanego portfolio modeli AI bezpośrednio w kieszeni użytkownika.