Krążące od tygodni spekulacje wreszcie znalazły potwierdzenie: odświeżona wersja Siri nie trafi do użytkowników wiosną, jak pierwotnie planowano. Testy wewnętrzne wykazały niestabilność kluczowych modułów odpowiedzialnych za generatywne odpowiedzi i sterowanie aplikacjami, dlatego Apple zdecydowało się przesunąć premierę, aby uniknąć powtórki z głośnych problemów, które w przeszłości towarzyszyły debiutom nie w pełni dopracowanych funkcji.
Dlaczego harmonogram się przesuwa
Według inżynierów uczestniczących w próbach poligonowych największym wyzwaniem okazało się zachowanie spójności wyników w sytuacji ograniczonych zasobów urządzenia. Testowe kompilacje nowego Siri – wykorzystujące lokalny dużych rozmiarów model językowy sprzężony z chmurową instancją Gemini – notowały losowe zawieszanie się przy wielozdaniowych poleceniach oraz błędne interpretowanie intencji w obciążonych scenariuszach. Problemy wykryto również w module prywatności: niektóre zapytania miały opuszczać urządzenie mimo deklarowanego przetwarzania wyłącznie on-device. Z informacji publikowanych przez specjalistyczne media wynika, że dopiero czerwcowa konferencja deweloperska może przynieść kolejny harmonogram, a realna dostępność funkcji nastąpi najwcześniej w letniej aktualizacji systemu lub wraz z nową generacją iPhone’ów jesienią.
Nowe możliwości asystenta
Główna zmiana ma polegać na odejściu od statycznego schematu „pytanie-odpowiedź” na rzecz dialogu podtrzymywanego przez sieć neuronową zdolną do pamiętania kontekstu. Użytkownik poprosi więc Siri o zarezerwowanie stolika, a po chwili doda: „wybierz stolik przy oknie i wyślij potwierdzenie do Kasi” – bez konieczności powtarzania, o której restauracji mowa. Kolejną nowością będą podsumowania powiadomień, możliwość generowania krótkich streszczeń dokumentów i transkrypcji nagrań w czasie rzeczywistym. Kluczowa jest przy tym hybrydowa architektura: żądania niejawnie lokalne mają obsługiwać miniatury modelu Ajax rozwijanego przez Apple, a złożone operacje – chmurowy komponent Gemini, co ma pozwolić pogodzić prywatność z wysoką jakością odpowiedzi.
Przecięcie dróg Apple i Google
Fakt, że Apple sięga po technologię partnera z Mountain View, jest znaczący. Wieloletnie inwestycje w wewnętrzne modele (na czele z Ajaxem i projektem Ferret) nie dały dotąd jakości, jakiej wymaga rynek po eksplozji popularności ChatGPT. Zamiast opóźniać rewolucję, koncern wybrał model kooperacyjny: własne algorytmy odpowiadają za ochronę danych i optymalizację pod kątem sprzętu, natomiast Gemini oferuje zaawansowaną inferencję w chmurze. Porozumienie wpisuje się w szerszy trend aliansów: Microsoft ściśle związał się z OpenAI, a Samsung z kolei integruje na smartfonach elementy modeli Anthropic i Google.
Szanse na wersję polskojęzyczną
Siri formalnie rozumie ponad dwadzieścia języków, lecz bogatsze rynki wyprzedzają Polskę o kilka wersji rozwojowych. Dzięki temu, że Gemini oferuje już publicznie obsługę polszczyzny, eksperci spodziewają się gwałtownego skrócenia procesu lokalizacji – zwłaszcza, że Apple posiada w Krakowie rozbudowany dział R&D zajmujący się przetwarzaniem mowy. Firma konsekwentnie wymaga jednak, by rozpoznawanie głosu spełniało rygorystyczne normy prywatności. Jeśli osiągnie porównywalną dokładność z angielskim, polscy posiadacze iPhone’ów mogą doczekać się natywnej Siri po polsku jeszcze w 2025 r.
Konkurencyjny krajobraz i presja rynku
Przedłużające się prace nad nową Siri stawiają Apple w niełatwej sytuacji. Amazon rozwija tryb „dynamic conversation” dla Alexy, a Google Assistant zyskał wsparcie wielomodalnych modeli językowych już jesienią ubiegłego roku. Do walki o czas i uwagę użytkownika dołączyły też aplikacje niezależnych twórców oparte na technologiach OpenAI czy Anthropic. W efekcie tolerancja rynku na niedopracowane premiery maleje, a jednocześnie oczekiwania rosną: asystent ma płynnie kontrolować inteligentny dom, zaplanować podróż i w ciągu sekund streścić kilkustronicowy raport. W obliczu takiej konkurencji Apple nie może pozwolić sobie na kolejny falstart, co tłumaczy decyzję o przesunięciu terminu wdrożenia.
Pogodzenie innowacji z prywatnością
Od lat znakiem rozpoznawczym Apple jest ochrona danych użytkownika. Równoczesne dążenie do budowy zaawansowanego, elastycznego asystenta wymusza kompromisy: im więcej obliczeń wykonuje się na urządzeniu, tym większe obciążenie procesora, pamięci i baterii. Właśnie dlatego przyszłe iPhone’y mają zyskać rozbudowane jednostki Neural Engine, a iPadOS i macOS – funkcje koprocesorów do przyspieszania modeli językowych. Z perspektywy deweloperów oznacza to konieczność projektowania aplikacji gotowych na wykorzystywanie tych zasobów, a dla użytkowników – obietnicę bardziej dyskretnego, a zarazem potężniejszego partnera w codziennych zadaniach.