Kimi K2.6: een open-weight frontier codemodel voor een tiende van de kosten

Moonshot AI heeft Kimi K2.6 op 20 april 2026 uitgebracht. Het betreft een open-weight codemodel met 1 biljoen parameters dat Claude Opus 4.6 op SWE-Bench Verified evenaart voor ruwweg een tiende van de API-kosten. Voor bureaus die AI-agents aan klanten leveren, heeft deze generatie open-weight modellen het experimentele stadium achter zich gelaten.

Dit is het tweede open-weight model van een Chinees laboratorium dat in vier maanden tijd dit niveau bereikt. DeepSeek V3.2 verscheen in januari 2026 met goudmedaillescores op IMO 2025, IOI 2025 en ICPC World Final 2025, en stelde daarmee de open-weight redeneer-baseline vast. K2.6 volgde op 20 april met een langetermijn agentswarm die 300 sub-agents over 4.000 stappen coördineert. Het tempo ligt inmiddels op kwartaalbasis, en elk bureau dat AI-agents bij klanten levert, heeft een stackbeleid nodig dat rekening houdt met een nieuwe frontier-release elke drie tot vier maanden.

Het afgelopen jaar was 'open haalt de achterstand in' veelal hype. Deze generatie laat een kleiner gat zien dan eerdere open-versus-gesloten cycli, en dat heeft gevolgen voor wat u klanten kunt bieden. Hieronder: wat K2.6 daadwerkelijk heeft uitgebracht, waar het gat met Claude Opus 4.7 kleiner is geworden, waar niet, en de drie beslissingen die een agency-AI-stack dit kwartaal moet nemen. Als die beslissing al loopt binnen een klanttraject, bouwt webvise open-weight AI-implementaties voor bureaus.

Benchmarks verkleinen het gat. K2.6 scoort 80,2% op SWE-Bench Verified, 0,6 punt achter Claude Opus 4.6, en leidt alle frontier-modellen op SWE-Bench Pro met 58,6%.
Prijsstelling tienvoudigt het voordeel. $0,60 per miljoen invoertokens en $2,50 per miljoen uitvoertokens. Claude Opus 4.7 rekent $5 en $25, ruwweg 8 tot 10 keer meer per run.
Licentie staat commercieel gebruik toe. Modified MIT met één attributieclausule boven 100 miljoen maandelijks actieve gebruikers of $20 miljoen maandelijkse omzet. Elk webvise-klanttraject valt ruimschoots onder die drempel.
Self-hosting is realistisch. Gewichten staan op Hugging Face met community GGUF-kwantisaties van ubergarm en unsloth. H100-klasse hardware is de praktische ondergrens voor serieuze werklasten.
Gemengde stacks winnen. Pure gesloten-source stacks vereisen nu een schriftelijke onderbouwing per werklast. Open gewichten voor volume, gesloten gewichten voor zware frontier-redenering, is de verdedigbare bureaustandaard.

Wat Kimi K2.6 daadwerkelijk heeft uitgebracht

K2.6 is een mixture-of-experts model met 1 biljoen parameters, 32 miljard actieve parameters per token en een contextvenster van 262.144 tokens. Het model is native multimodaal voor tekst en beeld, en beschikbaar via Moonshots Kimi API, Kimi Code, Hugging Face, OpenRouter en Ollama. Community-kwantisaties van ubergarm en unsloth maakten lokale implementatie op H100-klasse hardware al binnen 48 uur na de release mogelijk.

Het benchmarkprofiel ten opzichte van de frontier:

Benchmark	K2.6	Claude Opus 4.6	Claude Opus 4.7	GPT-5.4	Gemini 3.1 Pro
SWE-Bench Verified	80.2%	80.8%	87.6%	pending	pending
SWE-Bench Pro	58.6%	53.4%	pending	57.7%	54.2%
Terminal-Bench 2.0	66.7%	pending	pending	pending	pending
HLE-Full (tools)	54.0%	53.0%	pending	52.1%	51.4%
AIME 2026	96.4%	pending	pending	pending	pending
OSWorld-Verified	73.1%	pending	pending	pending	pending

De Terminal-Bench 2.0-sprong is het meest veelzeggende getal in deze release. K2.6 boekte 15,9 punt winst ten opzichte van K2.5 op betrouwbaarheid in shell- en bestandsmanipulatie: precies de capability die een bureau nodig heeft wanneer een model een echte CI-pipeline of een on-call remediatie-agent aanstuurt. Benchmarkleiderschap heeft geen waarde als het model in een echte implementatie nog struikelt over een `cp`-vlag.

De meest opvallende functie bevindt zich een niveau boven individuele benchmarks. K2.6 kan tot 300 sub-agents coördineren over 4.000 gecoördineerde stappen in één run, wat langetermijn uitvoering mogelijk maakt die uren of dagen duurt zonder menselijke tussenkomst. Moonshot publiceerde traces van meerdaagse engineering-runs waarbij het model zijn eigen sub-agent-dispatch aanstuurde. Claude Opus 4.7 publiceert geen vergelijkbare sub-agentlimiet; dit is voor het eerst dat een open-weight model een gesloten frontier-model voorbijgaat op een betekenisvolle agentfunctie.

Voor bureaus die al agentsstacks draaien, is de praktische vraag niet langer 'is open weights klaar?' maar 'waar past het?' Wie dat voor een klanttraject dit kwartaal in kaart brengt, kan bij webvise terecht voor gemengde AI-stack implementaties.

Het frontier-gat is een afrondingsfout, op één uitzondering na

Op SWE-Bench Verified liggen K2.6 met 80,2% en Claude Opus 4.6 met 80,8% functioneel gelijk. De delta van 0,6 punt is kleiner dan de run-to-run-variantie die de meeste bureaus in productie-evaluaties zien. K2.6 leidt bovendien SWE-Bench Pro, de zwaardere multi-file benchmark, met een netto 5,2 punt voorsprong op GPT-5.4 en 7,2 punt op Opus 4.6.

De uitzondering is Claude Opus 4.7. Anthropics nieuwste Opus sprong naar 87,6% op SWE-Bench Verified: een reële voorsprong van 7,4 punt op K2.6 voor de single-file bugfix-benchmark. Opus 4.7 verscheen vier dagen vóór K2.6, wat laat zien hoe de race nu verloopt: een kwartaalgewijs wisselend leiderschap waarbij de voorsprong regelmatig van hand wisselt.

Voor de meeste bureau-werklasten levert 80% op SWE-Bench Verified meer signaal dan de taak vereist. Wie een agent inzet voor kleine bugfixes, het migreren van een module tussen frameworkversies of een nachtelijke test-authoring-pass, vindt K2.6 op gepubliceerde benchmarks binnen de onzekerheidsmarge van toonaangevende gesloten modellen, maar dan voor aanzienlijk lagere kosten per run. Methodologie en werklastselectie beïnvloeden de vergelijking.

Bij naald-in-een-hooiberg PR-review over een monorepo van 200 bestanden, waarbij subtiele context over modules heen telt, wint Opus 4.7 nog steeds. Die 7,4-punt voorsprong is reëel en versterkt zich op de zwaarste taken. Of dat 10 keer de kosten per run rechtvaardigt, is een beslissing die u nu per werklast moet nemen, niet per leverancier.

Het prijsverschil is tienvoudig, en Opus 4.7 heeft het stilletjes vergroot

API-prijsstelling, per miljoen tokens voor de twee relevante frontier-opties:

Model	Input	Output
Kimi K2.6 (Moonshot API)	$0.60	$2.50
Kimi K2.6 (OpenRouter)	$0.60	$2.80
Claude Opus 4.7	$5.00	$25.00

Een enkele agent-run met 20.000 invoertokens en 8.000 uitvoertokens kost ruwweg $0,03 op K2.6 en ruwweg $0,30 op Claude Opus 4.7. Schaal dat op naar een klant-agent die 1.000 keer per dag draait en de maandkosten bedragen $8.000 op Opus versus $900 op K2.6 voor dezelfde werklast. Over een portfolio van zes klant-agents bedraagt het jaardelta meer dan een half miljoen dollar aan directe kosten die het bureau of de klant momenteel absorbeert.

Er is een verborgen factor die veel bureaus hebben gemist. De bijgewerkte tokenizer van Opus 4.7 produceert op sommige werklasten meer tokens per equivalente invoer; dit beïnvloedt de effectieve marge per opdracht voor Opus-gefactureerd werk. De tarieven per token bleven gelijk, maar de effectieve kosten per verzoek niet. Wie klantwerk heeft afgesloten op basis van Opus 4.6-factureringsaannames, zal merken dat de unit economics zijn verschoven.

Moonshoots prijsstelling verschilt structureel van gesloten frontier. Open gewichten betekenen dat de prijsvloer uw eigen rekencapaciteit is, niet de marge van een leverancier. Zelf gehoste K2.6-implementatie kan op schaal circa $0,08 per miljoen uitvoertokens bereiken; dat ligt wezenlijk lager dan de API-prijsstelling van gesloten frontier-modellen. Directe vermenigvuldigers hangen af van inferentievolume en infrastructuureconomie. Dit is het getal dat open weights omzet van een onderzoekscuriositeit naar een winst-en-verliesbeslissing.

Wat de Modified MIT-licentie daadwerkelijk toestaat

De K2.6-gewichten zijn gepubliceerd op Hugging Face als `moonshotai/Kimi-K2.6` onder een Modified MIT License. De aanpassing bestaat uit één attributieclausule. Overschrijdt uw implementatie 100 miljoen maandelijks actieve gebruikers of genereert die meer dan $20 miljoen maandelijkse omzet, dan dient u 'Kimi K2.6' zichtbaar te vermelden in de product-UI.

Voor elk webvise-klanttraject is deze drempel hoog genoeg om typische commerciële implementaties niet te beperken. Commercieel gebruik is gratis onder de drempel, herverspreiding van broncode en gewichten is toegestaan, finetuning voor elk doel is toegestaan, en klantwerk gebouwd op K2.6 brengt bij Moonshot geen royaltyverplichtingen met zich mee op elke schaal die een typische bureauklant in jaar één zal bereiken.

Ter vergelijking: Anthropics gebruiksbeleid verbiedt het finetunen van Claude-uitvoer om concurrerende basismodellen te bouwen en verplicht klanten de voorwaarden van Anthropic als pass-through-overeenkomst te accepteren. Voor een klant die agents inzet in gereguleerde sectoren waar data-residency, modelcontrole en contractuele soevereiniteit tellen, is het licentieverschil geen bijkomend voordeel. Voor klanten in financiële dienstverlening, gezondheidszorg, juridische diensten en de EU-publieke sector die onder de GDPR-datalokaliseringsregels werken, is de licentie zelf vaak de beslissende factor, nog voor benchmarks ter sprake komen.

Het patroon: twee open-weight releases in vier maanden

Het patroon rond Kimi K2.6 zou het bureaubeleid dit kwartaal moeten bewegen.

DeepSeek V3.2 verscheen in januari 2026 met DeepSeek Sparse Attention, een architectuur die de aandacht-complexiteit terugbrengt van O(n²) naar O(nk) met behoud van modelprestaties in langetermijn-context. De V3.2-Speciale-variant haalde goud op IMO 2025, IOI 2025, ICPC World Final 2025 en CMO 2025, en vestigde daarmee de open-weight redeneer-hoogtewaterstand. Dat was op dat moment het plafond.

Vier maanden later bracht Moonshot K2.6 uit met een 1-biljoen-parameter MoE, 256K context en een langetermijn agentswarm. Het open-weight benchmarkleiderschap verschoof van DeepSeek naar Moonshot in één kwartaal. Bureaus die zich uitsluitend aan gesloten-source leveranciers hebben verbonden, ondervinden hernieuwde prijsdruk naarmate open-weight opties verbeteren.

Het te volgen tempo: twee laboratoria wisselen het open-weight leiderschap elke drie tot vier maanden, terwijl Anthropic Opus 4.7 en Google Gemini 3.1 Pro op overlappende releaseschema's uitbrengen. De open-weight frontier is niet langer een race tegen de gesloten frontier. Het is een permanente conditie van de AI-stack waarop bureaus op beleidsniveau moeten plannen.

Voor bureaus verschuift dat de directiekamervraag van 'moeten we open weights evalueren?' naar 'wat is ons gemengd-stack-beleid wanneer de volgende release in juli arriveert?'

Wat dit verandert voor bureaus die klant-agents leveren

Drie drukpunten bepalen de migratie-berekening die een bureau nu over zijn klantportfolio moet maken.

Kostdruk vanuit de klant. Zodra een klant de kosten per run op een echte werklast ziet, verschuift het gesprek van 'welk model' naar 'waarom betalen we dit?' Een maandelijkse agent-rekening van $5.000 op Claude Opus 4.7 daalt naar ruwweg $500 op K2.6 voor hetzelfde taakvolume, en het kwaliteitsplafond degradeert alleen op de zwaarste multi-file redeneerwerk. Inkoopteams zullen deze vergelijking zelf maken.

Data-residency als verkoopbaar tier. Open gewichten laten klantdata op klantinfrastructuur blijven, waardoor contracten haalbaar worden waarvoor gesloten-source stacks fysiek niet in aanmerking komen. Voor klanten in financiële dienstverlening, gezondheidszorg en de EU-publieke sector die onder de GDPR-datalokaliseringsvereisten vallen, verwijdert zelf gehoste K2.6 de vraag 'onze data ging naar Anthropics cloud' uit elke compliancereview. Dat alleen al wint inkoopbeslissingen waar de gesloten-source stack niet eens in aanmerking komt.

Leveranciersrisico als beleidspost. Gesloten-source single-provider stacks faalden bij een echte test tijdens het Vercel supply-chain incident, waarbij de SDK van één leverancier een inbreukroute werd voor elke agent in een portfolio. Wanneer de schade meegroeit met leveranciersconcentratie, zorgt een gemengde stack met open-weight fallback ervoor dat een volledige storing wordt teruggebracht tot een gedegradeerde run. Verzekeraars en inkoopteams beginnen hier op RFP-niveau naar te vragen.

Het tegenargument is reëel en verdient een heldere vermelding. Claude Opus 4.7 leidt SWE-Bench Verified met 7,4 punt ten opzichte van K2.6. Voor de zwaarste multi-file redenering, randgevallen waarbij subtiele context over modules telt, of workflows waarbij latentie en tool-use-verfijning het product zijn, wint de gesloten frontier nog steeds op kwaliteit.

De webvise-standaard voor nieuwe klanttrajecten is nu bewust een gemengde stack. Claude Opus 4.7 verzorgt orkestratie, ambigue redenering en productiekritische tool-use-paden waar verfijning telt. K2.6 verwerkt hoge-volume, goed-gedefinieerde en datakritische taken waarbij het kwaliteitsverschil een afrondingsfout is tegenover een kostenbesparing van 90%. De routeringslogica berust in eigen infrastructuur, waardoor modelkeuze een omkeerbare beslissing blijft in plaats van een tweejarig contract.

Wat u dit kwartaal concreet kunt doen

Vier concrete stappen als u vandaag klant-agents draait op een gesloten-source stack.

Benchmark K2.6 op uw eigen werklast. Koppel het OpenRouter-endpoint 72 uur aan, draai uw bestaande agent-evalsuite en meet regressie ten opzichte van uw werkelijke taakdistributie. Uw agent geeft om uw data, niet om SWE-Bench-leaderboards.
Auditeer uitgaven per werklast, niet per leverancier. Identificeer de agents die meer dan $300 per maand verbranden op Opus 4.7 en markeer de taken die comfortabel binnen K2.6's 80%-Verified capability-envelop vallen. Die werklasten migreren als eerste naar open weights.
Prijs data-residency in als enterprise-tier. Enterprise-klanten betalen een premium voor zelf gehoste agents zodra u het als regelpost op de SOW opneemt. Open weights maakt dit een productiseerbare tier in plaats van een maatwerk-engineeringsprint per deal.
Houd de lijn op kritisch redeneerwerk. Migreer volume, niet gevoeligheid. Het 7,4-punt Verified-gat tussen K2.6 en Opus 4.7 is reëel bij zware taken. Meet regressie op uw zwaarste werklasten voordat u ook maar één productie-agent verplaatst.

Moonshot zal vrijwel zeker K2.7 voor het einde van het jaar uitbrengen. DeepSeek V4 bevindt zich naar verluidt in een laat stadium van ontwikkeling. De vraag voor bureaus is hoe snel het bureaubeleid kan absorberen wat het volgende kwartaal verschijnt, zonder lopend klantwerk te verstoren.

Wie de open-weight migratie voor een klanttraject in kaart brengt en een tweede blik wil op de routeringslogica, het benchmarkplan of de self-hosting-economie: webvise bouwt en onderhoudt gemengde AI-stack implementaties voor bureau-geleverde producten.

De werkwijzen van webvise zijn afgestemd op de ISO 27001- en ISO 42001-normen.