技术博客
文章 标签 分类 关于

DQN

📄

强化学习核心概念与算法解析 (Reinforcement Learning Core Concepts and Algorithms Explained)

Jul 31, 2025
系统性梳理强化学习的基础理论、核心概念及关键算法,从马尔可夫决策过程(MDP)到深度Q网络(DQN),为理解并应用RLHF奠定理论基础。
© 2025 技术博客. All rights reserved.