IoT-driven dynamic replenishment of fresh produce in the presence of seasonal variations: A deep reinforcement learning approach using reward shaping
本研究发表于管理科学领域权威期刊Omega,聚焦于深度强化学习在生鲜农产品供应链动态补货中的应用。我们考虑了生鲜品供需双向季节性波动,其中需求与提前期均呈现时变特征。为了提高动态补货绩效,本研究基于“零库存”管理范式设计了奖励塑形(Reward shaping)函数,通过强化学习算法实现了供应链库存的动态优化控制。
2025年2月12日