Qual é a diferença entre um ambiente totalmente observável e um ambiente parcialmente observável na ia?

Em um ambiente totalmente observável, o estado de um sistema é conhecido o tempo todo. O xadrez é um bom exemplo. Se você olhar para um tabuleiro de xadrez, todas as informações necessárias para tomar uma decisão ideal estarão disponíveis. Não importa o que aconteceu no passado.

Em um ambiente parcialmente observável, o estado de um sistema em um determinado momento no tempo nunca é totalmente conhecido. O poker é um exemplo. No poker, você ganha uma vantagem ao saber o que aconteceu no passado. É por isso que contar cartões funciona.

A distinção é importante porque os algoritmos de IA para ambientes parcialmente observáveis ​​precisam ter sistemas de memória interna para funcionar bem.

Em um ambiente totalmente observável, o estado de um sistema é conhecido o tempo todo. O xadrez é um bom exemplo. Se você olhar para um tabuleiro de xadrez, todas as informações necessárias para tomar uma decisão ideal estarão disponíveis. Não importa o que aconteceu no passado.

Em um ambiente parcialmente observável, o estado de um sistema em um determinado momento no tempo nunca é totalmente conhecido. O poker é um exemplo. No poker, você ganha uma vantagem ao saber o que aconteceu no passado. É por isso que contar cartões funciona.

A distinção é importante porque os algoritmos de IA para ambientes parcialmente observáveis ​​precisam ter sistemas de memória interna para funcionar bem.

A resposta anterior é ótima e fornece intuição útil. Se você estava se perguntando, o conceito formal de observabilidade vem da teoria de sistemas dinâmicos.

Observabilidade

Nesse modelo, todo sistema possui um estado interno x que transita de acordo com x '= f (x, u), onde a mudança no estado x' é uma função do estado atual e uma ação u. Suponha que um agente possa apenas observar alguma função desse estado interno y = g (x). A observabilidade caracteriza se é possível raciocinar sobre o estado interno do sistema apenas a partir de y e uma sequência de ações.

Por exemplo, um avião tem latitude e longitude verdadeiras, mas só pode observar esse estado através de um possível sensor GPS barulhento. Você sabe quais ações o avião tomou e a principal questão é se agora você pode descobrir o verdadeiro estado.

Caso determinístico em que g é uma função determinística: Um sistema é considerado (fortemente) observável se forem dadas as observações e qualquer sequência de ações, o verdadeiro estado atual x pode ser determinado exclusivamente.

Caso estocástico em que g tem alguma aleatoriedade: Diz-se que um sistema é estocástico observável se dadas as observações e uma sequência de ações, o valor esperado do estado atual x é determinado exclusivamente, imparcial e tem variação limitada.

Observabilidade parcial é quando essas condições são verdadeiras apenas para um subconjunto de estados internos. Isso pode ser mais complexo do que apenas ocultar alguns estados. Por exemplo, suponha que estamos rastreando um robô com uma única câmera (ou seja, sem uma verdadeira percepção de profundidade) ou se o robô se move atrás de um objeto. Nestes exemplos, a observabilidade pode ser altamente dependente do estado. A intuição sobre por que esses problemas são significativamente mais difíceis do que as observações de estado completo é que, quando existem vários estados internos possíveis de um sistema, qualquer algoritmo "ideal" terá que acompanhar todos eles.