Skip to content
· 10 min czytania

Kimi K2.6: otwarty model frontierowy do kodowania za jedną dziesiątą kosztów

Kimi K2.6 od Moonshot to drugi otwarty chiński model kodowania, który w ciągu czterech miesięcy osiągnął poziom frontier. Dla agencji wdrażających agentów AI dla klientów decyzja o wyborze stosu zmieniła się z dnia na dzień.

AI AgentsAIOpen SourceSelf-Hosted
Udostępnij

Moonshot AI opublikował Kimi K2.6 20 kwietnia 2026 roku. To otwarty model kodowania o 1 bilion parametrów, który dorównuje Claude Opus 4.6 na SWE-Bench Verified przy koszcie API mniej więcej dziesięciokrotnie niższym. Otwarte modele wagowe wyszły w tej generacji poza fazę eksperymentalną dla agencji wdrażających agentów AI u klientów.

To drugi otwarty model z chińskiego laboratorium na tym poziomie w ciągu czterech miesięcy. DeepSeek V3.2 pojawił się w styczniu 2026 roku ze złotymi medalami na IMO 2025, IOI 2025 i ICPC World Final 2025, wyznaczając ówczesny standard otwartego rozumowania. K2.6 pojawił się 20 kwietnia z architekturą długiego horyzontu koordynującą 300 sub-agentów przez 4 000 kroków. Tempo wydań stało się kwartalne, a każda agencja obsługująca klientów agentami AI potrzebuje polityki stosu uwzględniającej nowy frontier co trzy do czterech miesięcy.

Od roku słyszy się, że otwarte modele gonią zamknięte, przez większość tego czasu były to jednak przesadzone zapowiedzi. Ta generacja faktycznie wykazuje mniejszą lukę niż poprzednie cykle, co ma znaczenie dla tego, co dostarcza się klientom. Poniżej: co konkretnie zawiera K2.6, gdzie luka względem Claude Opus 4.7 się domknęła, gdzie nie, i trzy decyzje, które stos AI dostarczany agencyjnie musi podjąć w tym kwartale. Jeśli taka decyzja jest już aktualna dla projektu klienckiego, webvise buduje wdrożenia AI z otwartymi wagami dla agencji.

  • Benchmarki niwelują lukę. K2.6 osiąga 80,2% na SWE-Bench Verified, 0,6 punktu za Claude Opus 4.6, i prowadzi wśród wszystkich modeli frontier na SWE-Bench Pro z wynikiem 58,6%.
  • Ceny radykalnie redukują budżet. $0,60 za milion tokenów wejściowych i $2,50 za milion tokenów wyjściowych. Claude Opus 4.7 kosztuje odpowiednio $5 i $25, czyli od ośmiu do dziesięciu razy więcej za jedno uruchomienie.
  • Licencja dopuszcza użycie komercyjne. Modified MIT z jedną klauzulą atrybucji powyżej progu 100 milionów miesięcznych aktywnych użytkowników lub $20 milionów miesięcznego przychodu. Każdy klient webvise mieści się poniżej tego progu.
  • Self-hosting jest realny. Wagi dostępne na Hugging Face z kwantyzacjami GGUF od społeczności, przygotowanymi przez ubergarm i unsloth. Praktycznym minimum sprzętowym dla poważnych obciążeń jest klasa H100.
  • Mieszane stosy wygrywają. Stosy oparte wyłącznie na zamkniętych modelach wymagają teraz pisemnego uzasadnienia dla każdego obciążenia. Otwarte wagi dla wolumenu, zamknięte dla najtrudniejszego rozumowania frontierowego to uzasadniony standard agencyjny.

Co faktycznie dostarcza Kimi K2.6

K2.6 to model mixture-of-experts o 1 bilion parametrów, z 32 miliardami aktywnych parametrów na token i oknem kontekstowym 262 144 tokenów. Natywnie obsługuje tekst i obraz; dostępny przez Kimi API i Kimi Code od Moonshot, a także przez Hugging Face, OpenRouter i Ollama. Kwantyzacje od ubergarm i unsloth umożliwiły lokalne wdrożenie na sprzęcie klasy H100 w ciągu pierwszych 48 godzin od premiery.

Profil benchmarkowy na tle frontier:

BenchmarkK2.6Claude Opus 4.6Claude Opus 4.7GPT-5.4Gemini 3.1 Pro
SWE-Bench Verified80.2%80.8%87.6%pendingpending
SWE-Bench Pro58.6%53.4%pending57.7%54.2%
Terminal-Bench 2.066.7%pendingpendingpendingpending
HLE-Full (tools)54.0%53.0%pending52.1%51.4%
AIME 202696.4%pendingpendingpendingpending
OSWorld-Verified73.1%pendingpendingpendingpending

Najbardziej wymowna liczba w całym wydaniu to skok na Terminal-Bench 2.0. K2.6 uzyskał o 15,9 punktu więcej niż K2.5 w zakresie niezawodności operacji powłoki i manipulacji plikami, czyli dokładnie tej zdolności, której agencja potrzebuje, gdy model steruje rzeczywistym pipeline'em CI lub agentem naprawiającym incydenty. Liderstwo w benchmarkach nic nie znaczy, gdy agent nadal potyka się na fladze polecenia `cp` w rzeczywistym wdrożeniu.

Kluczowa funkcja leży o warstwę wyżej niż pojedyncze benchmarki. K2.6 koordynuje do 300 sub-agentów przez 4 000 skoordynowanych kroków w jednym uruchomieniu, umożliwiając długohoryzontowe wykonywanie zadań trwających godziny lub dni bez interwencji człowieka. Moonshot opublikował logi wielodniowych sesji inżynieryjnych, w których model samodzielnie zarządzał wysyłką sub-agentów. Claude Opus 4.7 nie publikuje porównywalnego limitu sub-agentów, co oznacza, że po raz pierwszy w istotnej funkcji agentowej otwarte wagi wyprzedzają zamknięty frontier.

Dla agencji prowadzących już stosy agentów praktyczne pytanie nie brzmi dziś: 'czy otwarte wagi są gotowe?'. Brzmi: 'gdzie je zastosować?'. Jeśli mapowanie tego zagadnienia na projekt kliencki jest aktualne w tym kwartale, webvise buduje mieszane stosy AI.

Luka do frontieru to szczegół, z jednym wyjątkiem

Na SWE-Bench Verified K2.6 z wynikiem 80,2% i Claude Opus 4.6 z wynikiem 80,8% są funkcjonalnie remisem. Różnica 0,6 punktu jest mniejsza niż wariancja między kolejnymi uruchomieniami, którą większość agencji obserwuje w ocenach produkcyjnych. K2.6 prowadzi też na SWE-Bench Pro, trudniejszym benchmarku wieloplikowym, o wyraźne 5,2 punktu nad GPT-5.4 i 7,2 punktu nad Opus 4.6.

Wyjątkiem jest Claude Opus 4.7. Najnowszy Opus od Anthropic osiągnął 87,6% na SWE-Bench Verified, co daje realną przewagę 7,4 punktu nad K2.6 w benchmarku naprawy błędów w pojedynczych plikach. Opus 4.7 pojawił się cztery dni przed K2.6, co dobrze ilustruje mechanikę tego wyścigu: kwartalne przeskoki lidera, a przewaga zmienia właściciela zgodnie z harmonogramem.

Dla większości obciążeń agencyjnych wynik 80% na SWE-Bench Verified zawiera więcej sygnału, niż rzeczywiste zadanie potrzebuje. Gdy agent naprawia drobne błędy, migruje moduł między wersjami frameworka lub prowadzi nocny przebieg generowania testów, opublikowane benchmarki sytuują K2.6 w granicach niepewności pomiaru dla wiodących modeli zamkniętych przy istotnie niższym koszcie jednostkowym; na wyniki wpływa też metodologia i dobór zadań testowych.

Przy przeglądzie PR w monorepozytorium liczącym 200 plików, gdzie subtelny kontekst ma znaczenie między modułami, Opus 4.7 nadal wygrywa. Różnica 7,4 punktu jest realna i kumuluje się na najtrudniejszych zadaniach. Czy jest warta dziesięciokrotnie wyższego kosztu uruchomienia to decyzja podejmowana teraz per obciążenie, a nie per dostawca.

Różnica cenowa jest dziesięciokrotna, a Opus 4.7 po cichu ją powiększył

Ceny API za milion tokenów dla obu istotnych opcji frontierowych:

ModelInputOutput
Kimi K2.6 (Moonshot API)$0.60$2.50
Kimi K2.6 (OpenRouter)$0.60$2.80
Claude Opus 4.7$5.00$25.00

Pojedyncze uruchomienie agenta zużywające 20 000 tokenów wejściowych i 8 000 wyjściowych kosztuje około $0,03 na K2.6 i około $0,30 na Claude Opus 4.7. Po przeskalowaniu do agenta klienckiego uruchamianego 1 000 razy dziennie miesięczny rachunek wynosi około $8 000 na Opus wobec około $900 na K2.6 dla tego samego wolumenu. Przy portfelu sześciu agentów klienckich roczna różnica przekracza pół miliona dolarów w kosztach własnych, które agencja lub klient aktualnie absorbuje.

Jest ukryty czynnik, który wiele agencji przeocza. Zaktualizowany tokenizer Opus 4.7 generuje więcej tokenów z równoważnego wejścia w niektórych obciążeniach, co wpływa na efektywną marżę per zaangażowanie dla prac rozliczanych przez Opus. Stawki za token pozostały bez zmian, lecz faktyczne koszty per żądanie już nie. Kto podpisał kontrakty z klientami oparte na założeniach cenowych Opus 4.6, powinien sprawdzić, czy ekonomika jednostkowa się nie zmieniła.

Cennik Moonshot jest strukturalnie inny niż w przypadku zamkniętego frontieru. Otwarte wagi oznaczają, że dolną granicą ceny jest własny koszt obliczeniowy, nie marża dostawcy. Samodzielnie hostowany K2.6 może osiągnąć około $0,08 za milion tokenów wyjściowych przy skali; to wyraźnie poniżej cen API zamkniętych modeli frontierowych. Konkretne mnożniki zależą od wolumenu inferencji i ekonomiki infrastruktury. Ta liczba zmienia otwarte wagi z ciekawostki badawczej w decyzję wynikową.

Co faktycznie pozwala licencja Modified MIT

Wagi K2.6 opublikowano na Hugging Face pod adresem `moonshotai/Kimi-K2.6` na licencji Modified MIT. Modyfikacja to jedna klauzula atrybucji: jeśli wdrożenie przekroczy 100 milionów miesięcznych aktywnych użytkowników lub wygeneruje ponad $20 milionów miesięcznego przychodu, w interfejsie produktu wymagane jest widoczne oznaczenie 'Kimi K2.6'.

Dla każdego projektu klienckiego webvise ten próg jest wystarczająco wysoki, by nie ograniczać typowych wdrożeń komercyjnych. Użycie komercyjne poniżej progu jest bezpłatne, redystrybucja kodu źródłowego i wag jest dozwolona, fine-tuning jest dozwolony w dowolnym celu, a praca kliencka zbudowana na K2.6 nie generuje zobowiązań licencyjnych wobec Moonshot przy żadnej skali, którą typowy klient agencyjny osiągnie w pierwszym roku.

Dla porównania: Polityka Użytkowania Anthropic zabrania fine-tuningu wyników Claude w celu budowania konkurencyjnych modeli fundamentowych i wymaga od klientów przyjęcia warunków Anthropic w formie umowy przekazywanej dalej. Dla klienta wdrażającego agenty w sektorach regulowanych, gdzie liczy się rezydencja danych, kontrola nad modelem i suwerenność kontraktowa, różnica licencyjna to nie wygodny dodatek. Dla podmiotów z sektora finansowego, ochrony zdrowia, prawa i unijnego sektora publicznego działających pod wymogami lokalizacji danych GDPR sama licencja często przesądza wybór, zanim w ogóle pojawią się benchmarki.

Wzorzec: dwa wydania otwartych modeli w ciągu czterech miesięcy

Wzorzec wokół Kimi K2.6 powinien zmienić politykę agencji w tym kwartale.

DeepSeek V3.2 pojawił się w styczniu 2026 roku z DeepSeek Sparse Attention, architekturą redukującą złożoność uwagi z O(n²) do O(nk) przy zachowaniu jakości modelu w scenariuszach długiego kontekstu. Wariant V3.2-Speciale zdobył złoto na IMO 2025, IOI 2025, ICPC World Final 2025 i CMO 2025, wyznaczając szczyt otwartego rozumowania. Był to wówczas sufit możliwości.

Cztery miesiące później Moonshot wydał K2.6 z modelem MoE o bilionowym parametrze, kontekstem 256K i architekturą długohoryzontowego roju agentów. Liderstwo benchmarkowe w otwartych wagach przeszło od DeepSeek do Moonshot w jednym kwartale. Agencje, które zaangażowały się wyłącznie w zamkniętych dostawców, odczuwają rosnącą presję cenową w miarę poprawy opcji open-weight.

Rytm, który warto obserwować, to dwa laboratoria wymieniające się liderem otwartego frontieru co trzy do czterech miesięcy, podczas gdy Anthropic wydaje Opus 4.7, a Google Gemini 3.1 Pro na nakładających się harmonogramach. Otwarty frontier to nie jest już wyścig z zamkniętym frontiererem. To stały stan stosu AI, wokół którego agencje muszą budować politykę.

Dla agencji przesuwa to rozmowę zarządczą od pytania 'czy powinniśmy oceniać otwarte wagi?' do pytania 'jaka jest nasza polityka mieszanego stosu, gdy następne wydanie pojawi się w lipcu?'.

Co to zmienia dla agencji dostarczających agentów klientom

Trzy punkty nacisku kształtują matematykę migracji, którą agencja musi teraz przeprowadzić w całym portfelu klienckim.

Presja kosztowa ze strony klienta. Gdy klient zobaczy różnicę kosztów na rzeczywistym obciążeniu, rozmowa przechodzi od 'który model' do 'dlaczego za to płacimy?'. Miesięczny rachunek za agenta wynoszący $5 000 na Claude Opus 4.7 spada do około $500 na K2.6 przy tym samym wolumenie zadań, a jakość obniża się tylko przy najtrudniejszym rozumowaniu wieloplikowym. Działy zakupów prawdopodobnie przeprowadzą to porównanie samodzielnie.

Rezydencja danych jako sprzedawalny tier. Otwarte wagi pozwalają, by dane klienta pozostawały na infrastrukturze klienta, co otwiera kontrakty, na które zamknięte stosy fizycznie nie mogą składać ofert. Dla podmiotów z sektora finansowego, ochrony zdrowia i unijnego sektora publicznego podlegających wymogom lokalizacji danych GDPR samodzielnie hostowany K2.6 eliminuje pytanie 'nasze dane trafiły do chmury Anthropic' z każdego przeglądu zgodności. Sam ten argument przesądza przetargi, gdzie zamknięty stos nie jest w ogóle kwalifikowany.

Ryzyko dostawcy jako pozycja w polityce. Stosy oparte na jednym zamkniętym dostawcy nie zdały realnego testu podczas incydentu z łańcuchem dostaw Vercel, gdzie SDK jednego dostawcy stało się wektorem ataku dla każdego agenta w portfelu. Gdy zasięg awarii skaluje się z koncentracją u dostawcy, mieszane stosy z awaryjnym przełączeniem na otwarte wagi zamieniają pełną awarię w tryb zdegradowany. Ubezpieczyciele i działy zakupów zaczynają pytać o to na etapie RFP.

Kontrargument jest realny i warto go jasno sformułować. Claude Opus 4.7 prowadzi na SWE-Bench Verified o 7,4 punktu nad K2.6. Przy najtrudniejszym wieloplikowym rozumowaniu, przypadkach brzegowych wymagających subtelnego kontekstu między modułami lub przepływach pracy, gdzie latencja i precyzja obsługi narzędzi stanowią o jakości produktu, zamknięty frontier nadal wygrywa jakościowo.

Domyślne podejście webvise dla nowych zaangażowań klienckich to teraz mieszany stos z założenia. Claude Opus 4.7 obsługuje orkiestrację, rozumowanie w warunkach niepewności i krytyczne dla produktu ścieżki obsługi narzędzi, gdzie precyzja ma znaczenie. K2.6 obsługuje pracę wysokoobciążeniową, dobrze zdefiniowaną i wrażliwą na dane, gdzie luka jakościowa jest zaokrągleniem przy 90-procentowej redukcji kosztów. Logika routingu działa na własnej infrastrukturze, co sprawia, że wybór modelu pozostaje decyzją odwracalną zamiast dwuletniej umowy.

Co konkretnie zrobić w tym kwartale

Cztery konkretne kroki dla tych, którzy prowadzą agenty klienckie na zamkniętym stosie.

  • Sprawdź K2.6 na własnym obciążeniu. Skorzystaj z endpointu OpenRouter przez 72 godziny, uruchom istniejący zestaw ewaluacyjny agenta i zmierz regresję względem rzeczywistego rozkładu zadań. Agent działa na danych klienta, nie na leaderboardzie SWE-Bench.
  • Przeprowadź audyt wydatków per obciążenie, nie per dostawca. Zidentyfikuj agenty generujące ponad $300 miesięcznie na Opus 4.7 i oznacz te, których typ zadań mieści się wygodnie w zakresie zdolności K2.6 potwierdzonych 80% na SWE-Bench Verified. Te obciążenia migrują do otwartych wag jako pierwsze.
  • Wycenij rezydencję danych jako tier enterprise. Klienci korporacyjni zapłacą premię za samodzielnie hostowanych agentów, gdy zaoferuje się to jako osobną pozycję w SOW. Otwarte wagi czynią z tego produktyzowalny tier zamiast jednorazowego sprintu inżynieryjnego per kontrakt.
  • Utrzymaj linię przy krytycznym rozumowaniu. Migruj wolumen, nie wrażliwość. Różnica 7,4 punktu na SWE-Bench Verified między K2.6 a Opus 4.7 jest realna przy trudnych zadaniach. Zmierz regresję na najtrudniejszych obciążeniach przed przeniesieniem choćby jednego agenta produkcyjnego.

Moonshot prawie na pewno wyda K2.7 przed końcem roku. DeepSeek V4 jest podobno w zaawansowanej fazie rozwoju. Kluczowe pytanie dla agencji brzmi: jak szybko polityka agencyjna jest w stanie wchłonąć to, co pojawi się w następnym kwartale, nie zakłócając aktywnych projektów klienckich.

Jeśli mapowanie migracji do otwartych wag dla projektu klienckiego wymaga dodatkowej pary oczu przy logice routingu, planie benchmarkowym lub ekonomice self-hostingu, webvise buduje i utrzymuje mieszane stosy AI dla produktów dostarczanych agencyjnie.

Praktyki webvise są zgodne z normami ISO 27001 i ISO 42001.