Qual é a diferença entre a aprendizagem por reforço profundo e a aprendizagem por reforço?

Teoricamente, ambos são iguais.

No aprendizado por reforço, queremos maximizar uma função de recompensa encontrando uma ação ideal em qualquer estado específico. Matematicamente, estamos tentando encontrar uma política

[math]\pi(a|s)[/math]

que fornece a probabilidade de uma ação

[math]a[/math]

determinado estado

[math]s[/math]

, ou seja,

[math]\pi(a_t|s_t) = P[a_t | s_t][/math]

Tradicionalmente, no aprendizado por reforço, costumávamos armazenar o mapeamento de ação do estado em uma tabela ou ele é aprendido usando uma função (primeira ordem, segunda ordem etc.) para aproximar o mapeamento com um valor de erro razoável. Porém, no mundo real, a função de estado geralmente é muito grande, limitando os métodos tradicionais de RL em termos de memória ou desempenho (fornecendo erros maiores).

Para esse desafio, o aprendizado profundo vem em socorro. Acredita-se que seja um método de aproximação de função universal e pode lidar com até um espaço de estado muito muito grande. Portanto, quando aproximamos o problema da RL usando o aprendizado profundo, chamamos de aprendizado de reforço profundo. Portanto, teoricamente, ambos são iguais.

Na prática, os resultados podem vir diferentes e isso é devido ao tipo de aproximação.

Espero que ajude.

No aprendizado de máquina, especificamente nas redes neurais, "profundo" simplesmente se refere ao número de camadas ocultas.

Uma camada oculta é uma camada que não é nem a camada de entrada nem a camada de saída final, mas uma camada intermediária que aceita a entrada da camada anterior e envia sua saída para uma nova camada. (eram muitas camadas)

O número exato de "camadas ocultas" necessárias para uma rede ser profunda é levemente contestado. Felizmente, falar o “profundo” em redes neurais profundas é usado principalmente como um termo de marketing semelhante a como “nuvem” é realmente apenas uma palavra sofisticada para o computador de outra pessoa; portanto, depende de você quando você deseja usá-lo.

Em teoria, você poderia ligar para qualquer rede com pelo menos uma camada oculta.

Na prática, qualquer coisa além de 2 a 3 camadas ocultas geralmente é classificada como profunda.

O aprendizado por reforço profundo tem duas formas atuais:

  1. Versões fora da política com q-learning. Isso é chamado de profundidade, já que a função q é aproximada com uma rede neural profunda. essa política é atualizada por meio das atualizações do REFORÇAR que utilizam o gradiente.

O Aprendizado por Reforço Profundo é uma subclasse do Aprendizado por Reforço.

No Aprendizado por reforço, você precisa encontrar uma política que ofereça a melhor recompensa ao longo da vida útil do agente de aprendizagem. No aprendizado tradicional de reforço, os espaços problemáticos eram muito limitados e os estados possíveis em um ambiente eram poucos. Essa foi uma das principais limitações das abordagens tradicionais. Ao longo dos anos, houve algumas abordagens relativamente bem-sucedidas que foram capazes de lidar com espaços de estados maiores, aproximando-se do estado. As redes neurais têm sido usadas para isso pelo menos desde o artigo de Riedmillers 2005, “Neural fit Q iteration”.

Os avanços nos algoritmos para DL trouxeram uma nova onda de aplicativos bem-sucedidos no Reinforcement Learning, porque oferece a oportunidade de trabalhar com eficiência com dados de entrada de alta dimensão (como imagens). Nesse contexto, o NN profundo treinado pode ser visto como um tipo de abordagem RL de ponta a ponta, onde o agente pode aprender uma abstração de estado e uma aproximação de política diretamente de seus dados de entrada.