Aquest document, escrit per Arun Shankar (Applied AI, Google), presenta una guia exhaustiva sobre l'aprenentatge per reforç (RL) aplicat a models de llenguatge de gran grandària. El text adopta un enfocament pedagògic únic que presenta cada concepte matemàtic en dos formats paral·lels: notació formal i llenguatge natural, permetent comprensió a diferents nivells de profunditat tècnica. L'autor va dissenyar aquesta guia per eliminar la barrera d'intimidació matemàtica que allunya molts enginyers del RL, demostrant que els conceptes són accessibles quan s'expliquen correctament.
La guia comença establint els fonaments matemàtics necessaris, incloent probabilitat, logaritmes, valor esperat i funcions de pèrdua, explicats de forma intuïtiva amb exemples numèrics detallats. Posteriorment aborda el problema central: per què els models entrenats tradicionalment per predir paraules no són necessàriament útils o segurs, introduint el concepte d'alineació amb preferències humanes.
El nucli del document explora la revolució RLHF (Reinforcement Learning from Human Feedback) que va transformar models com ChatGPT. Descriu detalladament les seves tres etapes: ajust fi supervisat per seguir instruccions, entrenament de models de recompensa basats en comparacions humanes, i optimització mitjançant algoritmes com PPO. Inclou anàlisi matemàtica completa amb exemples pas a pas que il·lustren com els models aprenen a generar respostes preferides per humans.
El text examina alternatives modernes com DPO (Direct Preference Optimization), que simplifica RLHF eliminant la necessitat de models de recompensa explícits, reduint requisits de memòria en un 50%. Analitza l'enfocament revolucionari de DeepSeek-R1 que omet l'ajust supervisat i aplica RL directament, descobrint espontàniament estratègies de raonament pas a pas sense exemples humans explícits.
Cobreix conceptes avançats com test-time compute scaling (invertir més computació durant la inferència per millorar precisió), models de recompensa de procés (PRM) que avaluen cada pas del raonament en lloc de només resultats finals, i algoritmes moderns més enllà de PPO i DPO, incloent GRPO, RLOO, KTO, IPO i ORPO, amb anàlisi comparativa dels seus avantatges.
El document explora aplicacions específiques per domini: generació de codi amb retroalimentació d'execució, matemàtiques amb verificadors formals, ús d'eines amb senyals d'èxit d'APIs, i millora de diàlegs multi-torn. Examina tècniques de generació guiada per verificadors, cerca en arbre amb Monte Carlo Tree Search, i estratègies de descodificació com rejection sampling i self-consistency.
Dirigit a professionals d'IA, investigadors, enginyers i estudiants, el material és accessible per a lectors de secundària interessats en IA fins a experts construint sistemes de producció. Cada concepte es presenta amb intuïcions, analogies del món real, exemples numèrics detallats i advertències sobre dificultats comunes, permetent tres nivells de lectura segons objectius del lector.
18/03/2026
Informe d'Accenture que analitza per què el núvol ha d'evolucionar per sostenir la innovació en IA. A partir de dades de 216 empreses, proposa ...
05/03/2026
Estudi d'Anthropic que proposa una nova manera de mesurar l'impacte real de la IA en el mercat laboral. Combina capacitats teòriques amb dades d'ús ...
27/01/2026
Assaig de Dario Amodei que analitza els principals riscos dels sistemes d'IA cada cop més potents: des de comportaments autònoms imprevisibles fins ...
23/01/2026
Informe de Harvard Business Review Analytic Services basat en 623 enquestats que analitza l'estat actual de la IA agèntica a les organitzacions: ...