Otimização de Política Proximal
Parte de uma série sobre |
Aprendizado de máquina e mineração de dados |
---|
Problemas
|
Aprendizagem supervisionada (classificação • regressão)
|
|
Redução de dimensionalidade
|
Predição estruturada
|
|
|
Aprendizagem por reforço
|
Teoria
|
Artigos relacionados
|
|
Otimização de Política Proximal (em inglês Proximal Policy Optimization (PPO)) é uma família de algoritmos de aprendizado por reforço sem modelo desenvolvido na OpenAI em 2017. Os algoritmos PPO são métodos de gradiente de política, o que significa que eles pesquisam o espaço de políticas em vez de atribuir valores a pares de estado-ação.
Os algoritmos PPO têm alguns dos benefícios dos algoritmos de otimização de política de região confiável (TRPO), mas são mais simples de implementar, mais gerais e têm uma complexidade de amostra melhor.[1] Isso é feito usando uma função objetivo diferente.[2]
Veja também
- Aprendizagem por reforço
- Aprendizagem por diferença temporal
- Teoria do jogo
Referências
Ligações externas
- Anúncio da Otimização de Política Proximal da OpenAI
- repositório GitHub