Anthropic wprowadza znaczące ulepszenia w rodzinie modeli Claude, kolejny raz umacniając swoją pozycję w świecie sztucznej inteligencji. Najnowsza aktualizacja przynosi nie tylko udoskonalone wersje istniejących modeli, ale także przełomową funkcjonalność obsługi komputera.
Kluczowe nowości
- Ulepszony Claude 3.5 Sonnet z znaczącymi usprawnieniami w kodowaniu
- Nowy model Claude 3.5 Haiku, łączący wydajność z przystępnością
- Wprowadzenie funkcji „computer use” w wersji beta
- Zachowanie dotychczasowych cen przy zwiększonej wydajności
Szczegółowy przegląd zmian
Claude 3.5 Sonnet
Najnowsza wersja Sonneta przynosi imponujące usprawnienia w zakresie programowania. Model osiągnął wynik 49% w teście SWE-bench Verified (wzrost z 33.4%), przewyższając wszystkie publicznie dostępne modele, włącznie z OpenAI. Poprawiono również wydajność w TAU-bench, osiągając 69.2% w domenie retail (wzrost z 62.6%) oraz 46% w bardziej wymagającej domenie linii lotniczych (wzrost z 36%).
Claude 3.5 Haiku
Nowy członek rodziny Claude zapewnia wydajność porównywalną z Claude 3 Opus przy zachowaniu szybkości i kosztów poprzedniej generacji Haiku. Model szczególnie wyróżnia się w zadaniach programistycznych, osiągając 40.6% w SWE-bench Verified.
Computer Use
Przełomowa funkcja pozwalająca modelowi na interakcję z interfejsami komputerowymi w sposób zbliżony do ludzkiego. W teście OSWorld, Claude 3.5 Sonnet osiągnął wynik 14.9% w kategorii screenshot-only, znacząco przewyższając konkurencję (7.8%).
Porównanie modeli językowych
Model | Wydajność (SWE-bench) | Obsługa komputera | Główne zastosowanie | Względna szybkość |
---|---|---|---|---|
Claude 3.5 Sonnet | 49.0% | Tak (beta) | Zaawansowane kodowanie, złożone zadania | Standardowa |
OpenAI o1-preview | 41.4% | Nie | Ogólne zastosowanie | Standardowa |
Claude 3.5 Haiku | 40.6% | Nie | Szybkie zadania, personalizacja | Bardzo wysoka |
OpenAI o1-mini | 35.8% | Nie | Ogólne zastosowanie | Wysoka |
Claude 3 Opus | ~35 | Nie | Złożone zadania pisemne | Standardowa |
Gemini Ultra | ~33% | Nie | Zadania multimodalne | Standardowa |
Nowe możliwości Claude’a, szczególnie w zakresie obsługi komputera, otwierają nowe perspektywy dla automatyzacji i rozwoju oprogramowania. Firmy takie jak GitLab, Cognition czy The Browser Company już wykorzystują ulepszone możliwości modelu w swoich procesach deweloperskich.
Computer use od Claude
Funkcja Computer Use w Claude 3.5 Sonnet jest obecnie dostępna w wersji beta poprzez API Anthropic dla deweloperów i firm, które mają dostęp do tego modelu. Można z niej korzystać na trzech głównych platformach: bezpośrednio przez API Anthropic, Amazon Bedrock oraz Google Cloud’s Vertex AI. Aby rozpocząć pracę, wystarczy posiadać odpowiedni klucz API oraz przygotować bezpieczne środowisko (najlepiej maszynę wirtualną lub kontener Docker), w którym Claude będzie mógł wykonywać operacje komputerowe.
Samo korzystanie z tej funkcji polega na wysłaniu odpowiedniego zapytania do API, w którym definiujemy dostępne narzędzia (computer, text editor, bash) oraz przekazujemy instrukcje dla modelu. Claude może następnie wykonywać szereg działań na komputerze, takich jak nawigacja po interfejsie, wpisywanie tekstu czy wykonywanie poleceń w terminalu. Co istotne, wszystkie operacje są wykonywane w kontrolowanym środowisku, a model może być wykorzystywany do automatyzacji różnych zadań, od prostego wypełniania formularzy po bardziej złożone procesy deweloperskie. Jednak należy pamiętać, że jako funkcja beta, ma ona pewne ograniczenia i wymaga ostrożnego podejścia do kwestii bezpieczeństwa, szczególnie przy zadaniach związanych z dostępem do wrażliwych danych czy systemów.
Bezpieczeństwo i odpowiedzialność
Anthropic kontynuuje swoją politykę odpowiedzialnego rozwoju AI. Nowe modele przeszły testy w US AI Safety Institute (US AISI) i UK Safety Institute (UK AISI). Wprowadzono również nowe klasyfikatory do monitorowania potencjalnych zagrożeń związanych z funkcją computer use.