- GPT-5-Codex especialitza GPT-5 per a fluxos d'enginyeria agentius: planifica, prova i corregeix fins a lliurar PR verificables.
- Integra CLI, IDE i GitHub, amb raonament dinàmic de segons a hores i estalvi de tokens en torns breus.
- Millora en benchmarks com SWE-bench Verified i aporta controls de seguretat, tot i que requereix revisió humana.
- Accessible en productes Codex/ChatGPT; API “properament”, amb opcions multivendor com CometAPI i eines com Apidog.
A l'ecosistema d'eines de desenvolupament assistides per IA, GPT-5-Codex emergeix com l'aposta d'OpenAI per portar l'ajuda a la codificació a un pla realment agentiu, capaç de planificar, executar, provar i polir canvis de codi dins de fluxos reals.
No es tracta d'un altre autocompletat més: la seva proposta va resoldre tasques completes, encaixar en PR i passar bateries de tests, amb un comportament més proper al d'un company tècnic que al simple assistent conversacional. Aquest és el to d´aquesta nova iteració: més fiable, més pràctica i pensada per a les rutines d´enginyeria del dia a dia.
Què és GPT-5-Codex i per què existeix?
GPT‑5‑Codex és, en essència, una especialització de GPT‑5 centrada en l?enginyeria de programari i en fluxos agentius. En lloc de prioritzar la xerrada general, el seu entrenament i ajustament amb reforç s'enfoquen en cicles de “generar → executar proves → corregir → repetir”, redactar PR i refactoritzar amb criteri, i seguir convencions de projecte. OpenAI el posiciona com a hereu de les iniciatives Codex prèvies, però recolzat en la base de raonament i escalat de GPT‑5 per aprofundir en tasques multiarxiu i processos de diversos passos amb més fiabilitat.
La motivació és pragmàtica: els equips necessiten alguna cosa que vagi més enllà de suggerir un snippet aïllat. La proposta de valor és passar de “t'escric una funció” a “et lliuro una característica amb tests que passen”, amb un model que comprèn l'estructura del repo, aplica pegats, relança proves i deixa una PR llegible i alineada amb les normes de la casa.

Com està dissenyat i entrenat: arquitectura i optimitzacions
En l'àmbit arquitectònic, GPT‑5‑Codex hereta la base transformadora de GPT-5 (propietats d'escalat, millores de raonament) i suma un ajustament específic per a enginyeria. L'entrenament se centra en escenaris reals: refactoritzacions multiarxiu, execució de suites de proves, sessions de depuració i revisió amb senyals de preferència humana, de manera que l'objectiu no és només generar text correcte, sinó maximitzar edicions precises, tests aprovats i feedback de revisió útil.
La capa “agentiva” és clau. El model aprèn a decidir quan invocar eines, com incorporar sortides de proves als passos següents, i com tancar el cicle entre síntesi i verificació. S'entrena en trajectòries en què emet accions (p. ex., “executar prova X”), observa resultats i condiciona la seva generació posterior, cosa que permet un comportament coherent en seqüències llargues.
Entrenament impulsat per execució i RLHF aplicat a codi
A diferència d'un ajustament genèric de xat, el reforç incorpora l'execució real del codi i la validació automàtica. Els bucles de feedback procedeixen tant dels resultats de les proves com de preferències humanes, abordant l'assignació de crèdit temporal en seqüències de diversos passos (crear PR, executar suites, corregir errors). El context escala a mida repositòria, per aprendre dependències, convencions de noms i efectes transversals a la base de codi.
Aquest enfocament amb “entorns instrumentats” permet que el model interioritzi pràctiques d'enginyeria (per exemple, mantenir el comportament en refactoritzacions grans, escriure diferències clares, o seguir l'etiqueta de PR estàndard), cosa que redueix la fricció en integrar-se en equips que ja operen amb CI i revisions formals.
Ús de ferramentes i coordinació amb l'entorn
Històricament, Codex combinava la seva sortida amb un runtime lleuger que podia obrir fitxers o llançar proves. A GPT‑5‑Codex, aquesta coordinació s'intensifica: aprèn quan i com trucar a eines i “llegeix” de tornada els resultats, tancant el cercle entre el pla del llenguatge i la validació programàtica. A la pràctica, això es tradueix en menys intents a cegues i més iteració informada pel feedback del sistema de proves.
Què pot fer: capacitats i “temps de pensament” adaptatiu
Una de les apostes diferencials és la durada de raonament variable: sol·licituds trivials responen ràpid i barat, mentre que una refactorització complexa pot obrir una finestra de “pensament” perllongada per estructurar el canvi, aplicar pegats i reprovar. En torns curts, a més, consumeix molts menys tokens que GPT‑5 general, amb estalvis de fins al 93,7% a tokens en interaccions petites, cosa que ajuda a contenir costos.
Pel que fa a funcions, arrenca projectes amb scaffolding complet (CI, proves, docs), executa cicles de prova-reparació de manera autònoma, aborda refactoritzacions multiarxiu mantenint comportament, redacta descripcions de PR amb canvis ben presentats i raona a través de gràfics de dependències i límits d'API amb més solidesa que un model genèric de xat.
Quan treballa al núvol, admet entrades i sortides visuals: pot rebre captures de pantalles i adjuntar artefactes (per exemple, screenshots de la UI resultant) a les tasques, cosa molt útil en depuració front-end i QA visual. Aquest enllaç visual-codi és especialment pràctic per validar dissenys o verificar que s'ha corregit una regressió gràfica.

Integracions al flux de treball: CLI, IDE i GitHub/Cloud
Codex no es queda al navegador. La Codex CLI s'ha redissenyat al voltant de fluxos agentius, amb adjunts d'imatges, llista de tasques, suport per a eines externes (recerca web, MCP), una interfície de terminal millorada i un mode de permisos simplificat a tres nivells (només lectura, automàtic i accés complet). Tot plegat per fer més fiable la col·laboració amb l'agent des de la terminal.
A l'editor, l'extensió de Codex per a IDE integra l'agent a VS Code (i forks) per previsualitzar diffs locals, moure tasques entre el núvol i l'entorn local conservant el context, i invocar el model amb el fitxer actual a la vista. Veure i manipular resultats al mateix editor redueix canvis de context i accelera iteracions.
Al núvol ia GitHub, les tasques poden revisar PR automàticament, aixecar contenidors efímers i adjuntar logs i captures als fils de revisió. La infraestructura millorada aporta grans retallades en latència gràcies al caixet de contenidors, amb reduccions de temps de l'ordre del 90% en algunes tasques repetitives.
Limitacions i en quins terrenys rendeix millor o pitjor
L'especialització té el preu: en avaluacions no relacionades amb codi, GPT‑5‑Codex pot rendir alguna cosa per sota de GPT‑5 generalista. I el seu comportament agentiu està acoblat a la qualitat del set de proves: en repos amb poca cobertura, la verificació automàtica flaqueja i la supervisió humana torna a ser indispensable.
Destaca a refactoritzacions complexes, scaffolding de projectes grans, escriptura i correcció de tests, seguiment d'expectatives de PR i diagnòstic de fallades multiarxiu. És menys adequat on cal coneixement privat no inclòs al workspace o en àmbits de “zero errors” sense revisió humana (crític en seguretat), on la prudència mana.
Rendiment: benchmarks i resultats reportats
En proves amb enfocament agentiu com SWE-bench Verified, OpenAI reporta que GPT‑5‑Codex supera GPT‑5 en taxa dèxit sobre 500 tasques denginyeria de programari reals. Part del valor és que l'avaluació abasta casos més complets (ja no només 477, sinó 500 tasques probables), i en millores visibles en mètriques de refactorització extretes de repos grans. Se citen salts notables a determinats indicadors d'alta verbositat, si bé s'adverteix de matisos de reproductibilitat i configuració de proves.
La lectura crítica continua sent obligatòria: les diferències de subconjunts, la verbositat i els costos poden esbiaixar comparacions. Tot i així, el patró que es repeteix en ressenyes independents és que el comportament agentiu ha fet un salt, i que les fortaleses en refactorització no sempre es tradueixen a millor precisió “en cru” en totes les tasques.
Accés avui: on utilitzar GPT-5-Codex
OpenAI ha integrat GPT‑5‑Codex en les experiències de producte de Codex: CLI, extensió IDE, núvol i fils de revisió a GitHub, a més de la seva presència a l'app de ChatGPT per a iOS. En paral·lel, la companyia ha assenyalat disponibilitat per a subscriptors Plus, Pro, Business, Edu i Enterprise dins de l'ecosistema Codex/ChatGPT, amb l'accés per API anunciat com a “properament” més enllà dels fluxos nadius de Codex.
Per a qui arrenqui via API, la trucada segueix el patró habitual de SDK. Un exemple bàsic a Python tindria aquest aspecte:
import openai
openai.api_key = "tu-api-key"
resp = openai.ChatCompletion.create(
model="gpt-5-codex",
messages=[{"role":"user","content":"Genera una función en Python para ordenar una lista."}]
)
print(resp.choices[0].message.content)
També s'esmenta la disponibilitat a través de proveïdors compatibles amb l'API d'OpenAI, i que la tarifació segueix un esquema per tokens amb condicions empresarials específiques segons plans. Eines com Apidog ajuden a simular respostes i provar casos extrems sense consum real, facilitant documentació (OpenAPI) i generació de clients.
VS Code mitjançant GitHub Copilot: vista prèvia pública
A Visual Studio Code, l'accés arriba a través de Copilot en vista prèvia pública (requisits de versió i pla apliquen). Els administradors l'activen a nivell d'organització (Business/Enterprise) i usuaris Pro poden seleccionar-ho a Copilot Chat. Els modes agents de Copilot (preguntar, editar, agent) es beneficien de la persistència i autonomia del model per depurar scripts pas a pas i proposar solucions.
Convé recordar que la implementació s'allibera de manera gradual, de manera que no tots els usuaris la veuen alhora. Complementàriament, Apidog proporciona proves d'API des de VS Code, útil per assegurar integracions robustes sense costos ni latències de producció.
Seguretat, controls i salvaguardes
OpenAI emfatitza múltiples capes: entrenament de seguretat per resistir injeccions i impedir conductes de risc, i controls de producte com a execució per defecte en entorns aïllats, accés a xarxa configurable, modes d'aprovació d'ordres, registres de terminal i citacions per a traçabilitat. Aquestes barreres són lògiques quan un agent pot instal·lar dependències o executar processos.
Hi ha, a més, limitacions conegudes que requereixen supervisió humana: no substitueix els revisors, els benchmarks tenen lletra petita, i els LLM poden al·lucinar (URLs inventades, dependències mal interpretades). Validar amb proves i una passada humana continua sent innegociable abans de portar canvis a producció.
Temps de raonament dinàmic: de segons a set hores
Una de les afirmacions més cridaneres és la capacitat dajustar lesforç computacional en temps real: des de contestar en segons per a peticions petites fins a dedicar diverses hores a tasques complexes i fràgils, reintentant proves i corregint errors. A diferència d'un encaminador que decideix a priori, el mateix model pot reassignar recursos minuts després si detecta que la tasca ho exigeix.
Aquest enfocament converteix Codex en un col·laborador més eficaç en treballs llargs i inestables (grans refactoritzacions, integracions de diversos serveis, depuració estesa), cosa que fins ara quedava fora de l'abast dels autocompletats tradicionals.
CometAPI i accés multivendor
Per a equips que volen evitar el bloqueig de proveïdor i moure ràpid, CometAPI ofereix una única interfície per a més de 500 models (OpenAI GPT, Gemini, Claude, Midjourney, Suno i més), unificant autenticació, format i maneig de respostes. La plataforma es compromet a incorporar GPT‑5‑Codex en paral·lel al seu llançament oficial, a més d'exposar GPT‑5, GPT‑5 Nano i GPT‑5 Mini, amb un Pati d'esbarjo i guia d'API per accelerar proves.
Aquest enfocament permet iterar sense refer integracions cada cop que arriba un model nou, controlar costos i mantenir independència. Mentrestant, es convida a explorar altres models al Playground ia revisar la documentació per a una adopció ordenada.
Més novetats de producte: revisions, front-end i CLI
OpenAI indica que GPT‑5‑Codex s'ha entrenat específicament per revisar codi i detectar errors crítics, escanejant el repo, executant el codi i les proves i validant correccions. En avaluacions amb repos populars i experts humans, s'observa menor proporció de comentaris incorrectes o irrellevants, cosa que ajuda a centrar l'atenció.
Al front-end, es reporta un exercici fiable i millores en preferències humanes en la creació de llocs mòbils. En escriptori, podeu generar aplicacions atractives. La CLI de Codex s'ha reconstruït per a fluxos agentius, amb adjunts d'imatges per a decisions de disseny, llista de tasques i millor format de trucades a eines i diffs; a més, integra cerca web i MCP per connectar amb dades/eines externes de forma segura.
Accessibilitat, plans i desplegament gradual
El model està desplegat en terminals, IDE, GitHub i ChatGPT per a usuaris Plus/Pro/Business/Edu/Enterprise, amb l'API planejada per més endavant. No es detallen diferències fines de límits per pla, i l'accés pot aparèixer de forma escalonada, una cosa habitual en vistes prèvies i llançaments per onades.
Pel que fa a costos, els preus segueixen esquemes per tokens i nivells dús; per a empreses, la conversa sol passar per Business/Pro i l'avaluació de sessions i càrregues. Donat el “temps de pensament” variable, convé definir polítiques d'execució i límits clars per evitar sorpreses.
Per a proves i validació, Apidog encaixa bé en simular respostes, importar especificacions OpenAPI i facilitar la generació de clients; i proveïdors com ara OpenRouter ofereixen compatibilitat d'API amb rutes alternatives per cost o redundància.
Mirant tot el conjunt, GPT‑5‑Codex consolida la transició d'“autocompletar” a “lliurar característiques”: un agent que pensa allò just o allò necessari segons la tasca, integrat en les eines diàries, amb seguretat per capes i una orientació clara a resultats verificables en enginyeria. Per a equips de totes les mides, és una oportunitat real de guanyar velocitat sense renunciar a control i qualitat.
Redactor especialitzat en temes de tecnologia i internet amb més de deu anys d'experiència a diferents mitjans digitals. He treballat com a editor i creador de continguts per a empreses de comerç electrònic, comunicació, màrqueting en línia i publicitat. També he escrit a webs d'economia, finances i altres sectors. La meva feina és també la meva passió. Ara, a través dels meus articles a Tecnobits, intento explorar totes les novetats i noves oportunitats que el món de la tecnologia ens ofereix dia a dia per millorar les nostres vides.
