W poniedziałek OpenAI zaprezentowało GPT-4o, nowy model sztucznej inteligencji, który wprowadza szereg innowacji. Jedną z najważniejszych jest multimodalność, dostępna dla praktycznie wszystkich.

Jakie nowości czekają na nas w GPT-4o

Model GPT-4o to zaawansowana wersja poprzednich modeli, oferująca:

  • Błyskawiczne odpowiedzi, utrzymując przy tym poziom „inteligencji” GPT-4
  • Obsługę zapytań tekstowych, głosowych i wizualnych, umożliwiając rozmowę poprzez kamerę (multimodalność!)
  • Bezpłatny dostęp dla wszystkich użytkowników, choć z pewnymi ograniczeniami
  • Aplikację desktopową, co stanowi nowość w porównaniu do wersji przeglądarkowej
  • Możliwość komunikacji w 50 językach oraz różnorodność tonów, takich jak sarkazm, radość czy śpiew

Obecnie GPT-4o jest dostępny dla użytkowników ChatGPT Plus i Team, a wkrótce będzie dostępny dla klientów Enterprise. Pełne funkcje wielomodalne będą stopniowo wprowadzane w aplikacjach na komputery i urządzenia mobilne w nadchodzących tygodniach.

No dobra, ile z tego co zapowiedzieli to innowacja?

Niektóre funkcje nowego modelu rzeczywiście wnoszą nową jakość, inne zaś mogą być postrzegane jako elementy marketingowe.

To na czym warto się skupić:

  • Multimodalność: obsługa głosu, tekstu i obrazu w jednym narzędziu
  • Szybkość: znacznie szybsze reakcje, umożliwiające prowadzenie rozmów w czasie rzeczywistym
  • Języki: wsparcie dla 50 różnych języków
  • Dostępność: darmowy dostęp, choć z pewnymi ograniczeniami (limity czasowe)
  • Aplikacje: nowe aplikacje na komputery i urządzenia mobilne, zwiększające użyteczność narzędzia

Mniej ważne, ale równie interesujące zmiany:

  • Różne tony głosu, jak śpiew czy sarkazm, choć ciekawe, mogą nie być kluczowe dla codziennego użytkowania
  • Przesadnie skomplikowane prezentacje nowych funkcji, które w rzeczywistości mogą być mniej imponujące

Najważniejsza zmiana, czyli multimodalność

Najważniejszą nowością w GPT-4o jest jego natywna multimodalność. Model ten potrafi rozumieć i odpowiadać na pytania poprzez głos, tekst oraz obrazy, co jest ogromnym krokiem naprzód. Dzięki temu, zamiast opisywać problem tekstem, można go po prostu pokazać modelowi w czasie rzeczywistym, co przyspiesza i ułatwia komunikację.

No dobra, rzeczy, które naprawdę mi się spodobały i od razu stają się użyteczne

Nowe możliwości w komunikacji głosowej

Model GPT-4o koncentruje się na rozmowach głosowych w czasie rzeczywistym. Odpowiedzi mogą być dostosowywane do tonu głosu użytkownika, a w niektórych sytuacjach można nawet poprosić AI o dodanie więcej dramatyzmu lub zmianę głosu, np. na robotyczny do opowiadania historii przez robota, czy śpiewający na zakończenie bajki.

Interakcje głosowe bez klawiatury

Jeszcze istotniejsze jest to, że można przerwać AI w dowolnym momencie – na przykład, gdy źle interpretuje zapytanie lub gdy chcemy zmienić ton lub głos w trakcie rozmowy. GPT-4o stara się wtedy poprawić, wykorzystując kontekst rozmowy. W demonstracji OpenAI, wszystko to wyglądało bardzo naturalnie.

Niestety, nowe funkcje głosowe będą początkowo dostępne tylko dla subskrybentów ChatGPT Plus, i to w wczesnej wersji alfa przed końcem czerwca.

Tworzenie obrazów z czytelnym tekstem (W KOŃCU!)

Generowanie obrazów z czytelnym tekstem było słabym punktem AI, ale GPT-4o wydaje się być bardziej zdolny w tym zakresie. Tekst nie tylko jest czytelny, ale może być ułożony w kreatywne sposoby, takie jak strony z maszyny do pisania, plakaty filmowe czy poetycka typografia. Model jest również biegły w emulacji pisma ręcznego, do tego stopnia, że niektóre obrazy mogą wyglądać jak prawdziwe ludzkie dzieła.

Lepsze możliwości wizualne i wielojęzyczne wsparcie

Po prostu pokaż zamiast opisywać

GPT-4o potrafi odpowiadać na pytania dotyczące zdjęć i zrzutów ekranu z komputera. Mogą to być pytania podobne do tych, które zadaje się inteligentnym okularom Meta/Ray-Ban czy pinowi Humane AI, np. „Jakiej marki są te spodnie?”, ale mogą być bardziej złożone, takie jak wyjaśnienie fragmentu kodu aplikacji czy tłumaczenie menu restauracji. OpenAI twierdzi, że w przyszłości 4o może być zdolny do jeszcze bardziej skomplikowanych zadań, takich jak oglądanie sportu na żywo i wyjaśnianie zasad. Na razie jednak skupiono się na obrazach statycznych, a nie wideo.

Z funkcjami wizualnymi związane są również ulepszone możliwości wielojęzyczne. GPT-4o wykazuje lepszą wydajność w 50 różnych językach, z API dwa razy szybszym niż w przypadku GPT-4 Turbo.

Wiele nagłówków sugeruje rewolucję, ja patrze na to jak ewolucję i raczej oczekiwane „dopieszczenie” interakcji z człowiekiem, spory krok naprzód z masą przydatnych funkcji, no nic… testujmy! 🙂