Reusing Historical Trajectories in Natural Policy Gradient via Importance Sampling: Convergence and Convergence Rate

Lin, Yifan; Wang, Yuhao; Zhou, Enlu

doi:10.1287/opre.2024.0854

Citation Details

This content will become publicly available on May 14, 2026

Reusing Historical Trajectories in Natural Policy Gradient via Importance Sampling: Convergence and Convergence Rate

Theoretical Findings Validate Historical Data Reuse for Improved Policy Optimization A new study, “Reusing Historical Trajectories in Natural Policy Gradient via Importance Sampling: Convergence and Convergence Rate” by Yifan Lin, Yuhao Wang, and Enlu Zhou, explores an advanced approach to reinforcement learning. The research focuses on improving policy optimization by reusing historical trajectories through importance sampling in natural policy gradient methods. The authors rigorously analyze the convergence properties of this approach and demonstrate that reusing past data enhances convergence rates while maintaining theoretical guarantees. Their findings have practical implications for applications where data collection is costly or limited, such as robotics and autonomous systems. By integrating these insights into policy optimization frameworks, the study provides a valuable contribution to the field of reinforcement learning. more »

Award ID(s):: 2419562

PAR ID:: 10610432

Author(s) / Creator(s):: Lin, Yifan; Wang, Yuhao; Zhou, Enlu

Publisher / Repository:: INFORMS

Date Published:: 2025-05-14

Journal Name:: Operations Research

ISSN:: 0030-364X

Format(s):: Medium: X

Sponsoring Org:: National Science Foundation

Free Publicly Accessible Full Text
This content will become publicly available on May 14, 2026
Journal Article:
https://doi.org/10.1287/opre.2024.0854

More Like this