Este projeto implementa um ambiente de simulação para um veículo aéreo controlado por um agente de aprendizado por reforço usando o algoritmo PPO (Proximal Policy Optimization). O ambiente de simulação inclui quatro variáveis de estado (altitude, velocidade, orientação e ângulo de inclinação) e quatro ações possíveis (acelerar, manter velocidade, desacelerar e girar).
Para executar o projeto, você precisa ter o Python e o pacote stable-baselines3 instalados. Você pode instalá-los usando pip:
pip install stable-baselines3
Execute o script main.py para treinar o agente de aprendizado por reforço e visualizar as trajetórias das variáveis de estado ao longo do tempo.
python main.py
- Python 3.x
- stable-baselines3
Dheiver
Este projeto está licenciado sob a Licença MIT - consulte o arquivo LICENSE.md para mais detalhes.