Aprendizaje por Refuerzo: Conceptos, Algoritmos y Aplicaciones

Question 1

¿Cuál de las siguientes afirmaciones define con mayor precisión el aprendizaje por refuerzo?

Accepted Answer

Un área de la inteligencia artificial que se enfoca en desarrollar algoritmos que aprenden a tomar decisiones óptimas en entornos desconocidos.

Answer

Una técnica que utiliza recompensas y castigos para mejorar el comportamiento de los agentes.

Question 2

¿En qué escenario sería más apropiado utilizar el aprendizaje por refuerzo?

Accepted Answer

Cuando el entorno es desconocido y no hay datos etiquetados disponibles.

Answer

Cuando hay grandes cantidades de datos etiquetados

Answer

Cuando la solución óptima es conocida de antemano

Question 3

¿Qué factor influye principalmente en la velocidad de convergencia de un algoritmo de aprendizaje por refuerzo?

Accepted Answer

Tamaño del entorno y tasa de exploración

Answer

Solo el tamaño del entorno

Answer

Solo la función de recompensa

Answer

Solo la tasa de exploración

Question 4

¿Qué técnica se utiliza para equilibrar la exploración y la explotación en el aprendizaje por refuerzo?

Accepted Answer

Épsilon-Codicioso

Answer

Retropropagación

Answer

Aprendizaje por Refuerzo Inverso

Answer

Descenso del Gradiente Estocástico

Question 5

¿Qué medida se utiliza comúnmente para evaluar el rendimiento de un agente de aprendizaje por refuerzo?

Accepted Answer

Recompensa Acumulada

Answer

Tiempo de Ejecución

Answer

Precisión

Answer

Pérdida

Question 6

¿Cuál es el objetivo principal del aprendizaje por refuerzo?

Accepted Answer

Entrenar a un agente para que tome decisiones óptimas en un entorno a través de la interacción y la retroalimentación.

Answer

Predecir valores numéricos continuos basados en datos históricos.

Answer

Clasificar datos en diferentes categorías predefinidas.

Question 7

¿Qué elemento NO es un componente fundamental de un sistema de aprendizaje por refuerzo?

Accepted Answer

Conjunto de datos etiquetado

Answer

Entorno

Answer

Agente

Answer

Recompensa

Question 8

En el contexto del aprendizaje por refuerzo, ¿qué significa 'explotación'?

Accepted Answer

Utilizar la acción que se sabe que proporciona la mayor recompensa inmediata.

Answer

Explorar nuevas acciones para descubrir mejores estrategias a largo plazo.

Answer

Ajustar el modelo del entorno en función de las recompensas recibidas.

Question 9

¿Cuál de los siguientes algoritmos NO se utiliza en el aprendizaje por refuerzo?

Accepted Answer

K-Means Clustering

Answer

Deep Q-Network (DQN)

Answer

Q-Learning

Answer

SARSA

Question 10

¿Qué significa 'descuento' en el contexto de la función de recompensa?

Accepted Answer

Dar menos valor a las recompensas futuras en comparación con las recompensas inmediatas.

Answer

Normalizar las recompensas para que estén en un rango específico.

Answer

Ignorar las recompensas negativas y solo considerar las positivas.

Question 11

¿En qué se diferencia Q-learning de SARSA?

Accepted Answer

Q-learning aprende una política off-policy, mientras que SARSA aprende una política on-policy.

Answer

Q-learning utiliza una red neuronal para aproximar la función de valor, mientras que SARSA utiliza una tabla.

Answer

Q-learning solo funciona con espacios de estado discretos, mientras que SARSA puede manejar espacios continuos.

Question 12

¿Cuál es una ventaja clave de utilizar Deep Q-Network (DQN) sobre Q-learning tradicional?

Accepted Answer

DQN puede manejar espacios de estado de alta dimensionalidad y problemas complejos.

Answer

DQN no requiere un paso de exploración, mientras que Q-learning sí lo requiere.

Answer

DQN siempre converge a la solución óptima, mientras que Q-learning puede quedar atrapado en un óptimo local.

Question 13

¿Cuál de las siguientes NO es una aplicación del aprendizaje por refuerzo?

Accepted Answer

Clasificación de imágenes médicas.

Answer

Desarrollo de sistemas de recomendación personalizados.

Answer

Optimización del rendimiento de la cartera de inversión.

Answer

Control de robots en entornos industriales.

Question 14

¿Qué problema se enfrenta al entrenar un agente de aprendizaje por refuerzo con una función de recompensa dispersa?

Accepted Answer

El agente puede tener dificultades para aprender porque recibe pocas recompensas significativas.

Answer

El agente no podrá converger a una política óptima.

Answer

El agente puede aprender demasiado rápido y sobreexplotar las acciones iniciales.