En el Aprendizaje por Refuerzo, ¿qué componente proporciona una señal de recompensa al agente?
Política
Modelo
Entorno
Valor

Inteligencia Artificial Los ejercicios se están cargando. ...