Reward Model

August 22, 2025 • 3 months ago • 1 min read

Model trained to score outputs according to preferences or policies, used to guide reinforcement learning or re‑ranking of generations.