摘要
在这份报纸,我们在波兰的空格为连续时间的Markov决定过程学习平均样品路径费用(ASPC)问题。就我们的知识而言,这份报纸是第一次尝试与波兰的状态和行动空格在连续时间的MDP上学习ASPC标准。相应转变率被允许无界,并且费用率可以有既不上面也不更低的界限。在一些温和假设下面,我们证明存在(0)-ASPC最佳的静止政策基于二不同approaches:one是optimality方程途径,其它是不平等接近的二optimality。
出版日期
2011年04月14日(中国Betway体育网页登陆平台首次上网日期,不代表论文的发表时间)