ReinforcementLearning | Tolgahan Cakaloglu

Jul 29, 2025	Group Sequence Policy Optimization (GSPO); A Smarter Approach to RL for LLMs and MoE Models
Feb 10, 2025	SFT vs RL ; Generalization Power in Foundation Models 🚀🤖
Nov 25, 2024	Automated Red Teaming ; OpenAI’s Novel Methods for LLM Attack Simulation