¿Qué medida se utiliza comúnmente para evaluar el rendimiento de un agente de aprendizaje por refuerzo?
Tiempo de Ejecución
Recompensa Acumulada
Overlook minor misbehaviors
Impose harsh punishments for any infraction

Inteligencia Artificial y Aprendizaje Automático Los ejercicios se están cargando. ...