Aktualności

Aktualizacja Claude – nowe możliwości AI

Claude 3.5 nowy

Anthropic wprowadza znaczące ulepszenia w rodzinie modeli Claude, kolejny raz umacniając swoją pozycję w świecie sztucznej inteligencji. Najnowsza aktualizacja przynosi nie tylko udoskonalone wersje istniejących modeli, ale także przełomową funkcjonalność obsługi komputera.

Kluczowe nowości

  • Ulepszony Claude 3.5 Sonnet z znaczącymi usprawnieniami w kodowaniu
  • Nowy model Claude 3.5 Haiku, łączący wydajność z przystępnością
  • Wprowadzenie funkcji „computer use” w wersji beta
  • Zachowanie dotychczasowych cen przy zwiększonej wydajności

Szczegółowy przegląd zmian

Claude 3.5 Sonnet

Najnowsza wersja Sonneta przynosi imponujące usprawnienia w zakresie programowania. Model osiągnął wynik 49% w teście SWE-bench Verified (wzrost z 33.4%), przewyższając wszystkie publicznie dostępne modele, włącznie z OpenAI. Poprawiono również wydajność w TAU-bench, osiągając 69.2% w domenie retail (wzrost z 62.6%) oraz 46% w bardziej wymagającej domenie linii lotniczych (wzrost z 36%).

Claude 3.5 Haiku

Nowy członek rodziny Claude zapewnia wydajność porównywalną z Claude 3 Opus przy zachowaniu szybkości i kosztów poprzedniej generacji Haiku. Model szczególnie wyróżnia się w zadaniach programistycznych, osiągając 40.6% w SWE-bench Verified.

Computer Use

Przełomowa funkcja pozwalająca modelowi na interakcję z interfejsami komputerowymi w sposób zbliżony do ludzkiego. W teście OSWorld, Claude 3.5 Sonnet osiągnął wynik 14.9% w kategorii screenshot-only, znacząco przewyższając konkurencję (7.8%).

Porównanie modeli językowych

ModelWydajność (SWE-bench)Obsługa komputeraGłówne zastosowanieWzględna szybkość
Claude 3.5 Sonnet49.0%Tak (beta)Zaawansowane kodowanie, złożone zadaniaStandardowa
OpenAI o1-preview41.4%NieOgólne zastosowanieStandardowa
Claude 3.5 Haiku40.6%NieSzybkie zadania, personalizacjaBardzo wysoka
OpenAI o1-mini35.8%NieOgólne zastosowanieWysoka
Claude 3 Opus~35NieZłożone zadania pisemneStandardowa
Gemini Ultra~33%NieZadania multimodalneStandardowa

Nowe możliwości Claude’a, szczególnie w zakresie obsługi komputera, otwierają nowe perspektywy dla automatyzacji i rozwoju oprogramowania. Firmy takie jak GitLab, Cognition czy The Browser Company już wykorzystują ulepszone możliwości modelu w swoich procesach deweloperskich.

Computer use od Claude

Funkcja Computer Use w Claude 3.5 Sonnet jest obecnie dostępna w wersji beta poprzez API Anthropic dla deweloperów i firm, które mają dostęp do tego modelu. Można z niej korzystać na trzech głównych platformach: bezpośrednio przez API Anthropic, Amazon Bedrock oraz Google Cloud’s Vertex AI. Aby rozpocząć pracę, wystarczy posiadać odpowiedni klucz API oraz przygotować bezpieczne środowisko (najlepiej maszynę wirtualną lub kontener Docker), w którym Claude będzie mógł wykonywać operacje komputerowe.

Samo korzystanie z tej funkcji polega na wysłaniu odpowiedniego zapytania do API, w którym definiujemy dostępne narzędzia (computer, text editor, bash) oraz przekazujemy instrukcje dla modelu. Claude może następnie wykonywać szereg działań na komputerze, takich jak nawigacja po interfejsie, wpisywanie tekstu czy wykonywanie poleceń w terminalu. Co istotne, wszystkie operacje są wykonywane w kontrolowanym środowisku, a model może być wykorzystywany do automatyzacji różnych zadań, od prostego wypełniania formularzy po bardziej złożone procesy deweloperskie. Jednak należy pamiętać, że jako funkcja beta, ma ona pewne ograniczenia i wymaga ostrożnego podejścia do kwestii bezpieczeństwa, szczególnie przy zadaniach związanych z dostępem do wrażliwych danych czy systemów.

Bezpieczeństwo i odpowiedzialność

Anthropic kontynuuje swoją politykę odpowiedzialnego rozwoju AI. Nowe modele przeszły testy w US AI Safety Institute (US AISI) i UK Safety Institute (UK AISI). Wprowadzono również nowe klasyfikatory do monitorowania potencjalnych zagrożeń związanych z funkcją computer use.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *