AI17 min citire11 iunie 2026

Ce model AI alegi în 2026: prețuri Claude, calcule reale și cum tai costul

Haiku, Sonnet 5, Opus 4.8 sau Fable 5? Ghid de alegere pe prețurile oficiale din iulie 2026, cu un calcul pe bani reali și trei pârghii care taie factura.

Sanda Sorin Catalin

Marketing digital, automatizari si dezvoltare web. Ajut afaceri mici sa creasca online cu strategie, nu cu noroc.

Servicii

Cea mai frecventă greșeală pe care o văd la firmele care încep cu AI nu e că folosesc prea puțin. E că folosesc modelul greșit: cel mai scump model pentru sarcini banale, sau cel mai ieftin pentru sarcini unde calitatea chiar contează.

Întrebarea "ce model AI alegi în 2026" pare tehnică. Nu e. E o decizie de cost lunar, iar răspunsul se vede pe factură.

Între Haiku 4.5 și Claude Fable 5 raportul de preț e de 10x, atât la tokenii de intrare cât și la cei de ieșire. Pe un proces care rulează zilnic, alegerea greșită înseamnă sute de dolari aruncați fără niciun câștig de calitate.

Mai jos ai tabelul actualizat la 22 iulie 2026, calculul pe o automatizare reală de 1.000 de emailuri pe lună, arborele de decizie pe care îl folosesc cu clienții și cele trei pârghii prin care plătești mai puțin fără să schimbi modelul.

Pe scurt

Standardul actual pentru business e Claude Sonnet 5, la 3$ intrare și 15$ ieșire pe milion de tokeni, cu preț introductiv de 2$ și 10$ până pe 31 august 2026.
O automatizare de 1.000 de emailuri pe lună costă 1,50$ pe Haiku 4.5, 3,00$ pe Sonnet 5 la preț introductiv, 7,50$ pe Opus 4.8 și 15,00$ pe Fable 5.
Batch API taie 50% din preț la intrare și la ieșire, iar prompt caching aduce citirile la 0,1x din prețul de intrare. Cele două reduceri se cumulează.
Arhitectura pe două modele, Haiku ca filtru pe tot volumul plus Opus 4.8 doar pe cazurile grele, scade costul de la 7,50$ la 2,25$ pe lună pe același volum.
Începând cu Opus 4.7, tokenizer-ul nou produce cu circa 30% mai mulți tokeni pentru același text, deci o migrare urcă factura chiar și la preț identic pe milion.

Femeie jucând șah, metaforă pentru alegerea strategică a modelului AI

Foto: Pavel Danilyuk pe Pexels

Ce model AI alegi în 2026: harta completă a gamei Claude

Gama activă în iulie 2026 are șase modele. Fable 5 e vârful de inteligență la 10$ și 50$ pe milion de tokeni, Opus 4.8 și 4.7 stau la 5$ și 25$, Sonnet 5 e noul standard de business, iar Haiku 4.5 rămâne cea mai ieftină opțiune pentru volum mare.

Model	ID API	Context	Intrare $/1M	Ieșire $/1M	Punct forte
Claude Fable 5	`claude-fable-5`	1M	10	50	Inteligență maximă, agenți autonomi
Claude Opus 4.8	`claude-opus-4-8`	1M	5	25	Cod agentic complex, muncă enterprise
Claude Opus 4.7	`claude-opus-4-7`	1M	5	25	Generația anterioară, același preț
Claude Sonnet 5	`claude-sonnet-5`	1M	3 (introductiv 2)	15 (introductiv 10)	Cod, analiză de date, conținut, tool use
Claude Sonnet 4.6	`claude-sonnet-4-6`	1M	3	15	Legacy, înlocuit de Sonnet 5
Claude Haiku 4.5	`claude-haiku-4-5`	200K	1	5	Timp real, volum mare, cost minim

Cifrele sunt prețurile oficiale Anthropic pe milion de tokeni. Prima concluzie practică: prețul introductiv de la Sonnet 5 ține până pe 31 august 2026, deci dacă rulezi azi pe Sonnet 4.6 plătești 3$ și 15$ pentru un model mai slab decât unul care, până la finalul lui august, costă 2$ și 10$. Migrarea îți scade și factura, și rata de eroare.

Un token înseamnă aproximativ patru caractere. Pe tokenizer-ul vechi asta revine cam la trei sferturi dintr-un cuvânt, pe cel nou la ceva mai puțin, fiindcă taie textul mai mărunt. Practic, fereastra de 1M acoperă vreo 555.000 de cuvinte pe modelele noi și circa 750.000 pe Sonnet 4.6 și Opus 4.6. Haiku 4.5 stă la 200K, adică vreo 150.000 de cuvinte.

Mai există Claude Mythos 5, identic ca preț cu Fable 5, dar accesibil doar prin invitație în Project Glasswing, deci pentru o firmă mică e irelevant. Despre generația nouă am scris în articolul despre ce aduce Claude Fable 5 și pentru cine are sens.

Alegerea se simte cel mai bine pe un proiect real: pentru un configurator AI care îți arată mașina infoliată înainte de lucrare am combinat astfel de modele, fiecare pe sarcina lui.

Ce înseamnă tokenii pe bani reali

Teoria e una, factura e alta. Un exemplu concret: o automatizare care procesează 1.000 de emailuri pe lună, cu 500 de tokeni la intrare (emailul plus instrucțiunile) și 200 la ieșire (clasificarea sau răspunsul). Adică 0,5 milioane tokeni intrare și 0,2 milioane ieșire.

Model	Calcul	Cost lunar
Haiku 4.5	0,5 × 1$ + 0,2 × 5$	1,50 $
Sonnet 5 (preț introductiv)	0,5 × 2$ + 0,2 × 10$	3,00 $
Sonnet 5 (după 31 august)	0,5 × 3$ + 0,2 × 15$	4,50 $
Opus 4.8	0,5 × 5$ + 0,2 × 25$	7,50 $
Fable 5	0,5 × 10$ + 0,2 × 50$	15,00 $

Pe volumul ăsta toate par accesibile. Scalează la 50.000 de emailuri pe lună și diferența dintre 75$ și 750$ devine o decizie de business, nu un detaliu tehnic.

Anthropic dă și un reper propriu: 10.000 de tichete de suport, cu o medie de circa 3.700 de tokeni pe conversație, procesate cu Haiku 4.5, ajung la vreo 37$ în total.

Important: costul real al unei automatizări nu e doar modelul, e modelul plus arhitectura. Una bine gândită folosește modelul ieftin pentru 90% din volum și îl cheamă pe cel scump doar la cazurile grele. Exact așa construiesc automatizările AI pentru clienți.

Cum reduci costul real fără să schimbi modelul

Sunt trei pârghii documentate oficial, iar majoritatea firmelor nu folosesc niciuna. Batch API taie 50% din preț, prompt caching aduce citirile la 10% din prețul de intrare, iar parametrul effort reduce consumul în același model. Reducerile se cumulează.

Pârghie	Ce face	Efect pe preț
Batch API	Procesare asincronă, în afara timpului real	50% la intrare și la ieșire, pe toate modelele
Prompt caching, citire	Reutilizează contextul deja trimis	0,1x din prețul de intrare
Prompt caching, scriere	Costul de a pune ceva în cache	1,25x la TTL 5 minute, 2x la TTL 1 oră
Parametrul effort	Reglează cât raționează modelul	Reduce tokenii de ieșire fără schimbare de model

Batch API. Trimiți un lot de cereri și primești rezultatele asincron. Majoritatea loturilor se termină în mai puțin de o oră, cu limită maximă de 24. Nu e pentru chat în timp real, dar la orice procesare de volum, clasificări de emailuri, curățare de baze de date, generare de descrieri de produs, e cel mai ușor 50% pe care îl poți tăia. Exemplul de mai sus devine 0,75$ pe Haiku, 1,50$ pe Sonnet 5 și 3,75$ pe Opus 4.8. Detaliile sunt în documentația pentru Batch API, cu 50% reducere la intrare și ieșire.

Prompt caching. Dacă trimiți același bloc mare de context la fiecare cerere, un manual de produs, o listă de prețuri, un set lung de instrucțiuni, plătești pentru el de fiecare dată. Cu caching îl plătești o dată cu suprataxă și apoi la o zecime din preț. Un chatbot care trimite 20.000 de tokeni de context la 1.000 de conversații lunare consumă 20 de milioane de tokeni de intrare, adică 40$ pe Sonnet 5 introductiv. Dacă 90% vine din cache, plătești 3,60$ pentru citiri, la 0,20$ pe milion, plus 5,00$ pentru cele 2 milioane scrise la 2,50$ pe milion. Total 8,60$ în loc de 40$. Cache-ul se amortizează după o singură citire la TTL de 5 minute. Mecanica e în documentația oficială pentru prompt caching.

Parametrul effort. Controlează cât raționează modelul înainte să răspundă. Pe generația nouă are cinci trepte, de la low la max, iar implicit e high. Anthropic spune explicit că reglarea effort e adesea o pârghie mai bună decât schimbarea modelului. E disponibil pe Fable 5, Opus 4.8 și 4.7, Sonnet 5 și Sonnet 4.6, dar nu pe Haiku 4.5. Pe generațiile mai vechi de Opus există mai puține trepte.

Arhitectura pe două modele, calculată pe același exemplu

Structura pe care o pun cel mai des în producție: un model ieftin triază tot volumul, iar cel scump intră doar pe ce nu s-a rezolvat la primul pas.

Haiku 4.5 citește toate cele 1.000 de emailuri și le clasifică: cerere de ofertă, reclamație, întrebare simplă, spam. Costă 1,50$. Din ele, în jur de 100 cer un răspuns nuanțat, cu context din CRM și decizie pe mai mulți pași. Alea 100 merg la Opus 4.8: 0,05 milioane tokeni intrare la 5$ plus 0,02 milioane ieșire la 25$, adică 0,75$.

Total 2,25$ pe lună, față de 7,50$ dacă trimiteai tot pe Opus 4.8. Reducere de 70%, cu calitatea pe cazurile grele neschimbată. Restul socotelii l-am detaliat în articolul despre cât costă de fapt să automatizezi un proces.

Arborele de decizie: ce model AI alegi în 2026

Regula e simplă: pornești de la sarcină, nu de la model. Anthropic recomandă două strategii de start, fie pleci de la Haiku 4.5 și urci doar dacă e nevoie, fie pleci de la Opus 4.8 și cobori pe măsură ce optimizezi. Ambele cer teste pe cazuri reale.

Ce vrei să automatizezi?
│
├── Volum mare, sarcini simple
│   (clasificare, etichetare, extrageri scurte, filtrare)
│        └──> Haiku 4.5, ieftin și rapid, perfect pentru volum
│
├── Conținut, rapoarte, chatbot de suport, procesare documente
│        └──> Sonnet 5, alegerea implicită pentru business
│
├── Cod, agenți cu mai mulți pași, analiză complexă
│        └──> Opus 4.8, când rezultatul trebuie să fie corect
│
└── Proiecte critice, unde o greșeală costă mai mult decât AI-ul
         └──> Fable 5, vârful actual, la preț de vârf

Matricea din ghidul Anthropic de alegere a modelului spune același lucru: Opus 4.8 pentru cod agentic complex, Sonnet 5 pentru generare de cod, analiză de date, conținut și tool use, Haiku 4.5 pentru aplicații în timp real și implementări sensibile la cost.

Anthropic nu publică un tabel de scoruri pe pagina de alegere a modelului, ci o matrice de potrivire între nevoie și model. Merită citită ca atare, pentru că spune mai mult decât un procent:

Ai nevoie de	Modelul recomandat
Cod agentic complex și muncă enterprise	Opus 4.8
Inteligență de vârf la scară, pe cod, agenți și fluxuri de business	Sonnet 5
Performanță aproape de vârf, foarte rapidă, la cel mai mic preț	Haiku 4.5

Observă ce lipsește din tabel: nicio recomandare nu spune „cel mai scump model, pentru orice". Chiar și documentația producătorului îți sugerează să începi de la Haiku și să urci doar dacă testele tale o cer.

Mână bionică pe fundal tehnologic, simbol pentru automatizările cu AI

Foto: Yaroslav Shuraev pe Pexels

Patru scenarii concrete de business

Patru situații acoperă majoritatea cererilor pe care le primesc: chatbot de suport, procesare de documente, agent de research și migrare de cod. Fiecare cere alt model, nu pentru că unul e mai bun în absolut, ci pentru că se schimbă ce contează, viteza, precizia pe cifre sau coerența pe mai mulți pași.

Chatbot de suport pe site. Volum mare, întrebări repetitive, răspunsuri care cer acuratețe pe baza de cunoștințe, nu creativitate. Haiku 4.5 cu prompt caching, eventual Sonnet 5 dacă răspunsurile cer nuanță.

Procesare de documente și rapoarte. Facturi, contracte, oferte de la furnizori, rapoarte lunare generate din date. Sonnet 5 e standardul: destul de precis să nu greșească cifrele, destul de ieftin să ruleze zilnic. Dacă documentele vin în loturi, pui totul pe Batch API și plătești jumătate.

Agent de research sau monitorizare. Un agent care urmărește competiția și scrie o sinteză săptămânală lucrează în mai mulți pași și ia decizii pe drum. Opus 4.8 e alegerea sănătoasă, pentru că o eroare la pasul 2 se propagă în tot raportul.

Agenți vocali și interacțiune în timp real. Latența bate inteligența. Un agent care răspunde la telefon nu are voie să se gândească patru secunde, deci Haiku 4.5 e implicit, cu escaladare la Sonnet 5 doar pe intențiile complicate. Am scris separat despre agenții vocali pe Bland AI și Vapi.

Costurile care nu apar în tabelul pe milion de tokeni

Tabelul de prețuri e doar punctul de plecare. Cinci lucruri urcă factura fără să apară în el, iar cel mai neplăcut e schimbarea de tokenizer, care lovește exact când migrezi pe un model nou și te aștepți la economie.

Costul ascuns	Cât înseamnă	Când te lovește
Tokenizer nou	Circa 30% mai mulți tokeni pentru același text	Pe Opus 4.7 și mai sus, pe Fable 5 și Sonnet 5
Web search	10$ la 1.000 de căutări	Agenți care caută pe internet la fiecare cerere
Code execution	1.550 ore gratuite pe lună per organizație, apoi 0,05$ pe oră per container	Analiză de date, generare de fișiere
Promptul de sistem pentru tool-uri	290 până la 410 tokeni pe Opus 4.8, 354 până la 474 pe Sonnet 5, la fiecare cerere, peste care se adaugă tokenii definițiilor tale	Orice integrare cu tool-uri, la fiecare apel
Procesare doar în SUA	Multiplicator 1,1x pe toate categoriile de tokeni	Când setezi explicit `inference_geo` pe "us"

Tokenizer-ul merită explicat separat. Începând cu Opus 4.7, același text produce cu aproximativ 30% mai mulți tokeni decât pe generațiile vechi. Dacă migrezi de la Sonnet 4.6 la Sonnet 5 după 31 august, când ambele costă 3$ și 15$, factura urcă cu vreo 30%. Până atunci, prețul introductiv acoperă diferența.

Vestea bună: fereastra de 1M tokeni se facturează la preț standard, fără suprataxă de context lung. O cerere de 900.000 de tokeni costă pe token cât una de 9.000.

Ce ai voie să treci prin API din datele clienților

Da, ai voie, dar trebuie să știi cât timp se păstrează datele și pe ce model. Nu toate suportă retenție zero. Fable 5 impune retenție de 30 de zile, iar Batch API păstrează datele 29 de zile, pentru că procesarea asincronă cere stocare.

Concret: dacă ai zero data retention activat și trimiți o cerere către Fable 5 sau Mythos 5, primești eroare 400. La fel, orice trece prin Batch API iese din regimul de retenție zero, adică exact reducerea de 50% pe care ai vrea să o folosești la volum.

Prompt caching, în schimb, e eligibil pentru retenție zero. Prompturile și răspunsurile nu se stochează, rămân în memorie doar reprezentări interne și hash-uri criptografice, pe durata TTL-ului. Pârghia de cost cea mai mare e și cea mai curată pe partea de date.

Partea juridică am detaliat-o în articolul despre ce spune GDPR despre datele clienților trecute printr-un model AI. Regula pe care o aplic: pe procesele cu date personale aleg modelul după retenție, nu doar după preț.

Greșelile pe care le văd cel mai des

Patru greșeli acoperă aproape tot ce văd la firmele care încep cu AI, și toate patru costă bani sau calitate. Prima e cea mai scumpă, pentru că se plătește lunar și nu se vede în niciun raport până nu deschizi factura.

Totul pe modelul cel mai scump, din convingerea că mai scump înseamnă automat mai bine. Pentru clasificări simple, Haiku dă aceleași rezultate la a zecea parte din cost.
Totul pe modelul cel mai ieftin, și apoi dezamăgirea că AI-ul nu e bun de nimic. Sarcina depășea modelul, nu tehnologia.
Niciun test comparativ. Metoda corectă durează o oră: iei 20 de cazuri reale din arhiva ta, le treci prin două modele cu exact același prompt și notezi rezultatele cap la cap, cu un criteriu clar de corect sau greșit. Dacă modelul ieftin trece 18 din 20, ai răspunsul.
Ignorarea ferestrei de context. Haiku 4.5 are 200K tokeni, la fel ca Sonnet 4.5 și Opus 4.5, care încă sunt disponibile. Dacă procesezi documente lungi, limita de context decide înaintea prețului.
Legarea automatizării de un ID de model fără plan de migrare. Opus 4.1 se retrage pe 5 august 2026, iar fast mode pe Opus 4.7 dispare pe 24 iulie 2026. Un workflow cu ID fix în cod se oprește într-o dimineață fără avertisment. Ține ID-ul într-o variabilă de configurare și testează versiunea nouă pe cele 20 de cazuri înainte de comutare.

Tip: notează o lună de zile fiecare sarcină repetitivă care îți consumă peste 15 minute pe zi. Aia e lista ta reală de automatizări, și abia apoi are sens discuția despre modele.

Intrebari frecvente

Cât costă pe lună API-ul Claude pentru o firmă mică?

Sub 10$ pentru majoritatea proceselor cu care încep firmele mici. O automatizare de 1.000 de emailuri pe lună costă 1,50$ pe Haiku 4.5 și 3,00$ pe Sonnet 5 la preț introductiv. Costurile devin serioase abia peste zeci de mii de cereri lunare, unde intervin Batch API și prompt caching.

Care e diferența dintre Claude Sonnet și Claude Opus și când merită să plătesc mai mult?

Opus 4.8 costă 5$ și 25$ pe milion de tokeni, Sonnet 5 costă 3$ și 15$. Diferența se vede pe sarcini cu mai mulți pași: pe SWE-bench Pro, Opus 4.8 face 69,2% față de 63,2% la Sonnet 5. Merită plătit doar acolo unde o eroare la un pas intermediar strică tot rezultatul.

E mai ieftin abonamentul Claude Pro sau API-ul cu plata pe tokeni?

Sunt lucruri diferite. Abonamentul e pentru uz manual, o persoană care lucrează în interfață. API-ul e pentru automatizări care rulează singure și se plătește pe tokeni consumați. Dacă vrei ca un proces să meargă fără tine, ai nevoie de API, indiferent ce abonament ai.

Ce înseamnă prompt caching și cât economisesc concret cu el?

Înseamnă că un bloc de context repetat se plătește o dată cu suprataxă și apoi la 0,1x din prețul de intrare. Un chatbot cu 20.000 de tokeni de context la 1.000 de conversații lunare scade de la 40$ la circa 8,60$ pe Sonnet 5. Cache-ul se amortizează după o singură citire la TTL de 5 minute.

Ce model AI aleg pentru un chatbot de suport pe site-ul firmei?

Haiku 4.5, cu prompt caching pe baza de cunoștințe. E cel mai rapid, costă 1$ și 5$ pe milion de tokeni și acoperă întrebările repetitive fără probleme. Urci la Sonnet 5 doar dacă răspunsurile cer nuanță, interpretare de context sau apeluri către alte sisteme.

Ce se întâmplă cu automatizarea mea dacă modelul pe care îl folosesc este retras?

Se oprește, dacă ai ID-ul modelului scris fix în cod. Opus 4.1 se retrage pe 5 august 2026, iar fast mode pe Opus 4.7 dispare pe 24 iulie 2026. Ține ID-ul într-o variabilă de configurare, urmărește anunțurile de depreciere și testează modelul nou pe cazurile tale înainte de comutare.

Concluzia

Modelul potrivit nu e o religie, e o decizie de cost și calitate, revizuită la fiecare lansare majoră. În iulie 2026, regula practică pentru o afacere mică arată așa: Sonnet 5 ca standard, Haiku 4.5 pentru volum și timp real, Opus 4.8 pentru agenți și cod, Fable 5 doar unde miza justifică dublul de preț.

Dar decizia care contează cel mai mult nu e care model, ci cum îl folosești. Arhitectura pe două modele, plus Batch API, plus prompt caching, taie factura cu 70% până la 80% fără pierdere de calitate. Și mai e fereastra de timp: până pe 31 august 2026, Sonnet 5 costă mai puțin decât Sonnet 4.6 și lucrează mai bine. Dacă ai o automatizare pe generația veche, ăsta e momentul de migrare.

Dacă vrei să afli care procese din firma ta merită automatizate și pe ce model, trimite o cerere și îți răspund cu o evaluare concretă, nu cu generalități.

Citește mai departe

Distribuie articolul

Urmatorul pas

Vrei sa aplicam asta in businessul tau?

Programeaza o discutie de 30 de minute. Analizam situatia ta concreta si iti spun exact ce pasi ai de facut. Gratuit, fara obligatii.

Trimite cerere

Articole similare

Ai voie să pui datele clienților în ChatGPT? Ce spune GDPR pentru o firmă mică

Am voie să lipesc lista de clienți sau un contract în ChatGPT? Răspunsul e da, cu condiții, iar condițiile nu țin de cât de deștept e modelul, ci de contul de pe care lucrezi.

Citeste AI

AI pentru afaceri mici: 7 automatizări care îți economisesc timp în fiecare săptămână

Nu ai nevoie de un departament de IT ca să folosești AI în firmă. Iată 7 automatizări concrete care scot munca repetitivă din mâna ta, cu timpul economisit și costul real pentru fiecare.

Citeste AI

Claude Fable 5 în iulie 2026: prețuri, acces pe abonamente și ce s-a schimbat

Lansat pe 9 iunie, suspendat pe 12, repus în funcțiune pe 1 iulie. Unde a ajuns Claude Fable 5 acum, cât costă și pentru cine are sens într-o firmă mică.

Citeste