Firma Anthropic zaprezentowała najnowszą wersję swojego flagowego modelu językowego – Claude Opus 4.8. Premiera, ogłoszona pod koniec maja 2026 roku, miała być przełomem w dziedzinie sztucznej inteligencji. Jednak entuzjazm twórców szybko zderzył się z krytyką ze strony społeczności, która wskazuje na poważne niedociągnięcia nowej wersji.

Benchmarki a rzeczywistość

Według oficjalnych danych Anthropic, Claude Opus 4.8 osiąga imponujące wyniki w standardowych testach porównawczych, przewyższając poprzedników w takich dziedzinach jak rozumowanie wieloetapowe czy generowanie kodu. Niestety, jak zauważają użytkownicy, wyniki te nie zawsze przekładają się na praktyczne zastosowania. W sieci pojawiły się liczne przykłady, w których nowy model radzi sobie gorzej niż Claude Opus 4.5 czy nawet 3.5, szczególnie w zadaniach wymagających precyzyjnego wnioskowania na podstawie długich kontekstów.

„Model wydaje się być przyspieszony kosztem głębi. W wielu testach logicznych, które sami przygotowaliśmy, Opus 4.8 popełnia błędy, których jego poprzednik nie popełniał. To niepokojący trend” – napisał jeden z niezależnych testerów na forum poświęconym AI.

Problem z limitem tokenów

Kolejną bolączką nowego modelu jest szybkie wyczerpywanie się limitu tokenów. Użytkownicy zgłaszają, że Claude Opus 4.8 zużywa przydział znaków nawet o 30% szybciej niż poprzednie wersje przy tych samych zapytaniach. Dla osób korzystających z modelu w ramach subskrypcji oznacza to wyższe koszty lub konieczność częstszego przycinania rozmów. Anthropic jak dotąd nie skomentował tych doniesień, ale spekuluje się, że może to być efektem wprowadzenia bardziej złożonych mechanizmów wewnętrznego przetwarzania.

Kontekst rynkowy i przyszłość

Premiera Claude Opus 4.8 wpisuje się w szerszy trend wyścigu zbrojeń w branży AI. W ostatnich miesiącach swoje modele aktualizowały także OpenAI (GPT-5) oraz Google (Gemini 2.0). Każda z tych firm stara się przekonać użytkowników, że to właśnie jej produkt jest najwydajniejszy. Jednak, jak pokazuje przypadek Anthropic, same deklaracje i wyniki benchmarków nie wystarczą – kluczowe jest realne doświadczenie użytkownika końcowego. Społeczność AI coraz głośniej domaga się większej transparentności w publikowaniu wyników testów i udostępnianiu modeli do niezależnych audytów. Bez tego, jak twierdzą krytycy, kolejne aktualizacje mogą spotkać się z rosnącym sceptycyzmem.

Foto: gry-online.pl