Aktualizacja Claude - nowe możliwości AI

Anthropic wprowadza znaczące ulepszenia w rodzinie modeli Claude, kolejny raz umacniając swoją pozycję w świecie sztucznej inteligencji. Najnowsza aktualizacja przynosi nie tylko udoskonalone wersje istniejących modeli, ale także przełomową funkcjonalność obsługi komputera.

Kluczowe nowości

Ulepszony Claude 3.5 Sonnet z znaczącymi usprawnieniami w kodowaniu
Nowy model Claude 3.5 Haiku, łączący wydajność z przystępnością
Wprowadzenie funkcji „computer use” w wersji beta
Zachowanie dotychczasowych cen przy zwiększonej wydajności

Szczegółowy przegląd zmian

Claude 3.5 Sonnet

Najnowsza wersja Sonneta przynosi imponujące usprawnienia w zakresie programowania. Model osiągnął wynik 49% w teście SWE-bench Verified (wzrost z 33.4%), przewyższając wszystkie publicznie dostępne modele, włącznie z OpenAI. Poprawiono również wydajność w TAU-bench, osiągając 69.2% w domenie retail (wzrost z 62.6%) oraz 46% w bardziej wymagającej domenie linii lotniczych (wzrost z 36%).

Claude 3.5 Haiku

Nowy członek rodziny Claude zapewnia wydajność porównywalną z Claude 3 Opus przy zachowaniu szybkości i kosztów poprzedniej generacji Haiku. Model szczególnie wyróżnia się w zadaniach programistycznych, osiągając 40.6% w SWE-bench Verified.

Computer Use

Przełomowa funkcja pozwalająca modelowi na interakcję z interfejsami komputerowymi w sposób zbliżony do ludzkiego. W teście OSWorld, Claude 3.5 Sonnet osiągnął wynik 14.9% w kategorii screenshot-only, znacząco przewyższając konkurencję (7.8%).

Porównanie modeli językowych

Model	Wydajność (SWE-bench)	Obsługa komputera	Główne zastosowanie	Względna szybkość
Claude 3.5 Sonnet	49.0%	Tak (beta)	Zaawansowane kodowanie, złożone zadania	Standardowa
OpenAI o1-preview	41.4%	Nie	Ogólne zastosowanie	Standardowa
Claude 3.5 Haiku	40.6%	Nie	Szybkie zadania, personalizacja	Bardzo wysoka
OpenAI o1-mini	35.8%	Nie	Ogólne zastosowanie	Wysoka
Claude 3 Opus	~35	Nie	Złożone zadania pisemne	Standardowa
Gemini Ultra	~33%	Nie	Zadania multimodalne	Standardowa

Nowe możliwości Claude’a, szczególnie w zakresie obsługi komputera, otwierają nowe perspektywy dla automatyzacji i rozwoju oprogramowania. Firmy takie jak GitLab, Cognition czy The Browser Company już wykorzystują ulepszone możliwości modelu w swoich procesach deweloperskich.

Computer use od Claude

Funkcja Computer Use w Claude 3.5 Sonnet jest obecnie dostępna w wersji beta poprzez API Anthropic dla deweloperów i firm, które mają dostęp do tego modelu. Można z niej korzystać na trzech głównych platformach: bezpośrednio przez API Anthropic, Amazon Bedrock oraz Google Cloud’s Vertex AI. Aby rozpocząć pracę, wystarczy posiadać odpowiedni klucz API oraz przygotować bezpieczne środowisko (najlepiej maszynę wirtualną lub kontener Docker), w którym Claude będzie mógł wykonywać operacje komputerowe.

Samo korzystanie z tej funkcji polega na wysłaniu odpowiedniego zapytania do API, w którym definiujemy dostępne narzędzia (computer, text editor, bash) oraz przekazujemy instrukcje dla modelu. Claude może następnie wykonywać szereg działań na komputerze, takich jak nawigacja po interfejsie, wpisywanie tekstu czy wykonywanie poleceń w terminalu. Co istotne, wszystkie operacje są wykonywane w kontrolowanym środowisku, a model może być wykorzystywany do automatyzacji różnych zadań, od prostego wypełniania formularzy po bardziej złożone procesy deweloperskie. Jednak należy pamiętać, że jako funkcja beta, ma ona pewne ograniczenia i wymaga ostrożnego podejścia do kwestii bezpieczeństwa, szczególnie przy zadaniach związanych z dostępem do wrażliwych danych czy systemów.

Bezpieczeństwo i odpowiedzialność

Anthropic kontynuuje swoją politykę odpowiedzialnego rozwoju AI. Nowe modele przeszły testy w US AI Safety Institute (US AISI) i UK Safety Institute (UK AISI). Wprowadzono również nowe klasyfikatory do monitorowania potencjalnych zagrożeń związanych z funkcją computer use.

Częste pytania

Jakie są główne usprawnienia w modelu Claude 3.5 Sonnet?

Claude 3.5 Sonnet przynosi znaczące usprawnienia w zakresie programowania, osiągając wynik 49% w teście SWE-bench Verified, co stanowi wzrost z 33.4%. Model poprawił również wydajność w TAU-bench, osiągając 69.2% w domenie retail oraz 46% w domenie linii lotniczych.

Co wyróżnia model Claude 3.5 Haiku?

Claude 3.5 Haiku łączy wydajność z przystępnością, osiągając 40.6% w SWE-bench Verified. Model ten jest szczególnie efektywny w zadaniach programistycznych, przy zachowaniu szybkości i kosztów poprzedniej generacji.

Jak działa funkcja Computer Use w Claude 3.5 Sonnet?

Funkcja Computer Use pozwala modelowi interagować z interfejsami komputerowymi w sposób zbliżony do ludzkiego. Użytkownicy mogą wysyłać zapytania do API, definiując dostępne narzędzia i instrukcje dla modelu, co umożliwia wykonywanie różnych działań na komputerze.

Gdzie można korzystać z funkcji Computer Use?

Funkcja Computer Use w Claude 3.5 Sonnet jest dostępna w wersji beta poprzez API Anthropic oraz na platformach takich jak Amazon Bedrock i Google Cloud's Vertex AI. Wymaga to odpowiedniego klucza API oraz przygotowania bezpiecznego środowiska.

Jakie są zasady bezpieczeństwa przy korzystaniu z funkcji Computer Use?

Korzystanie z funkcji Computer Use wymaga ostrożnego podejścia do kwestii bezpieczeństwa, szczególnie przy zadaniach związanych z dostępem do wrażliwych danych. Anthropic wprowadziło nowe klasyfikatory do monitorowania potencjalnych zagrożeń związanych z tą funkcją.