Mohammed Terry Jack
No coração de um robô está uma política que lhe diz o que fazer (ou seja, que ação tomar) em qualquer situação. Pode ser uma coleção de regras simples ou uma função matemática complexa. Mas como saber como deveriam ser as regras ou funções matemáticas? Felizmente, existem algoritmos de aprendizagem automática para aproximar a função (por exemplo, máquinas kernel, aprendizagem profunda, etc.) ou inferir automaticamente estas regras (por exemplo, programação lógica indutiva, florestas aleatórias, etc.). No entanto, os algoritmos de aprendizagem supervisionada requerem muitos dados de treino que podem não estar disponíveis. Os métodos evolutivos (por exemplo, algoritmos genéticos) e outros algoritmos de otimização não requerem quaisquer dados de treino para avaliar e pesquisar um espaço de políticas e encontrar as regras ou funções ideais. Em alternativa, equiparando diretamente a política a uma pesquisa (através de um espaço estado/estado de ação), como é feito na aprendizagem por reforço, a melhor ação seguinte pode ser encontrada utilizando uma função de avaliação aprendida (por exemplo, função V ou Q ).