DQN

强化学习核心概念与算法解析 (Reinforcement Learning Core Concepts and Algorithms Explained)

系统性梳理强化学习的基础理论、核心概念及关键算法，从马尔可夫决策过程（MDP）到深度Q网络（DQN），为理解并应用RLHF奠定理论基础。