Variance Optimization for Continuous-Time Markov Decision Processes - Open Journal of Statistics

OJS > Vol.9 No.2, April 2019

Variance Optimization for Continuous-Time Markov Decision Processes ()

HTML XML

Download as PDF (Size: 398KB) PP. 181-195

DOI: 10.4236/ojs.2019.92014 962 Downloads 2,013 Views Citations

Author(s)

Yaqing Fu

Affiliation(s)

School of Economic, Jinan University, Guangzhou, China.

ABSTRACT

This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space. The main purpose of this paper is to find the policy with the minimal variance in the deterministic stationary policy space. Unlike the traditional Markov decision process, the cost function in the variance criterion will be affected by future actions. To this end, we convert the variance minimization problem into a standard (MDP) by introducing a concept called pseudo-variance. Further, by giving the policy iterative algorithm of pseudo-variance optimization problem, the optimal policy of the original variance optimization problem is derived, and a sufficient condition for the variance optimal policy is given. Finally, we use an example to illustrate the conclusion of this paper.

KEYWORDS

Continuous-Time Markov Decision Process, Variance Optimality of Average Reward, Optimal Policy of Variance, Policy Iteration

Share and Cite:

Fu, Y. (2019) Variance Optimization for Continuous-Time Markov Decision Processes. Open Journal of Statistics, 9, 181-195. doi: 10.4236/ojs.2019.92014.

Journals Menu

Follow SCIRP

	+1 323-425-8868
	customer@scirp.org
	+86 18163351462(WhatsApp)
	1655362766

	Paper Publishing WeChat

Journals Menu

Home

About SCIRP

Service

Policies