Aquest document, escrit per Arun Shankar (Applied AI, Google), presenta una guia exhaustiva sobre l'aprenentatge per reforç (RL) aplicat a models de llenguatge de gran grandària. El text adopta un enfocament pedagògic únic que presenta cada concepte matemàtic en dos formats paral·lels: notació formal i llenguatge natural, permetent comprensió a diferents nivells de profunditat tècnica. L'autor va dissenyar aquesta guia per eliminar la barrera d'intimidació matemàtica que allunya molts enginyers del RL, demostrant que els conceptes són accessibles quan s'expliquen correctament.
La guia comença establint els fonaments matemàtics necessaris, incloent probabilitat, logaritmes, valor esperat i funcions de pèrdua, explicats de forma intuïtiva amb exemples numèrics detallats. Posteriorment aborda el problema central: per què els models entrenats tradicionalment per predir paraules no són necessàriament útils o segurs, introduint el concepte d'alineació amb preferències humanes.
El nucli del document explora la revolució RLHF (Reinforcement Learning from Human Feedback) que va transformar models com ChatGPT. Descriu detalladament les seves tres etapes: ajust fi supervisat per seguir instruccions, entrenament de models de recompensa basats en comparacions humanes, i optimització mitjançant algoritmes com PPO. Inclou anàlisi matemàtica completa amb exemples pas a pas que il·lustren com els models aprenen a generar respostes preferides per humans.
El text examina alternatives modernes com DPO (Direct Preference Optimization), que simplifica RLHF eliminant la necessitat de models de recompensa explícits, reduint requisits de memòria en un 50%. Analitza l'enfocament revolucionari de DeepSeek-R1 que omet l'ajust supervisat i aplica RL directament, descobrint espontàniament estratègies de raonament pas a pas sense exemples humans explícits.
Cobreix conceptes avançats com test-time compute scaling (invertir més computació durant la inferència per millorar precisió), models de recompensa de procés (PRM) que avaluen cada pas del raonament en lloc de només resultats finals, i algoritmes moderns més enllà de PPO i DPO, incloent GRPO, RLOO, KTO, IPO i ORPO, amb anàlisi comparativa dels seus avantatges.
El document explora aplicacions específiques per domini: generació de codi amb retroalimentació d'execució, matemàtiques amb verificadors formals, ús d'eines amb senyals d'èxit d'APIs, i millora de diàlegs multi-torn. Examina tècniques de generació guiada per verificadors, cerca en arbre amb Monte Carlo Tree Search, i estratègies de descodificació com rejection sampling i self-consistency.
Dirigit a professionals d'IA, investigadors, enginyers i estudiants, el material és accessible per a lectors de secundària interessats en IA fins a experts construint sistemes de producció. Cada concepte es presenta amb intuïcions, analogies del món real, exemples numèrics detallats i advertències sobre dificultats comunes, permetent tres nivells de lectura segons objectius del lector.
30/10/2025
Informe sobre IA Sobirana que analitza com països i empreses poden desenvolupar capacitats pròpies d'intel·ligència artificial per garantir ...
30/10/2025
Guia sobre les 5 principals amenaces de seguretat en IA generativa per al 2025, explicant com protegir aplicacions d'IA en entorns cloud mitjançant ...
15/10/2025
Estudi del Pew Research Center sobre com les persones veuen la intel·ligència artificial en 25 països. Examina el coneixement públic sobre la IA, ...
30/09/2025
Informe sobre el retorn d'inversió d'IA en serveis financers basat en enquesta a 556 executius globals, revelant que el 53% ja utilitza agents d'IA ...