SPONSORS:

Verbete Draft: o que é Reinforcement Learning

- 6 de março de 2019
O Reinforcement Learning pode ser comparado ao adestramento de cães que buscam receber petiscos ou carinho de seus tutores ao atenderem aos seus comandos.

Continuamos a série que explica as principais palavras do vocabulário dos empreendedores da nova economia. São termos e expressões que você precisa saber: seja para conhecer as novas ferramentas que vão impulsionar seus negócios ou para te ajudar a falar a mesma língua de mentores e investidores. O verbete de hoje é…

REINFORCEMENT LEARNING

O que acham que é: O mesmo que Deep Learning.

O que realmente é: Reinforcement Learning (Aprendizado por Reforço), no contexto da Inteligência Artificial, é o tipo de programação de software que treina algoritmos usando um sistema de recompensa e punição, sem a interferência do programador. O Reinforcement Learning é uma área do Machine Learning e inspira-se na psicologia behaviorista (comportamental). Segundo Leonardo Villani, professor de Análise e Desenvolvimento de Sistemas da Faculdade de Tecnologia do Estado (Fatec) Praia Grande, o processo de aquisição de conhecimento do agente (como podem ser chamados os algoritmos aqui) se dá a partir da experimentação direta de suas ações em um ambiente. “Algo no ambiente o informa que a ação realizada foi correta, recompensando-o, ou errada, punindo-o. É análogo ao adestramento de cães que buscam receber petiscos ou carinho de seus tutores ao atenderem aos seus comandos”, afirma.

O Reinforcement Learning está, em grande parte, por trás da vitória do AlphaGo (computador da Alphabet, da Google) sobre um dos melhores jogadores de Go, um jogo de tabuleiro complexo. Esse clássico — tanto de jogada como de exemplo — aconteceu em março de 2016, mas a maioria dos pesquisadores de AI imaginava que pudesse acontecer apenas uma década depois (os princípios do jogo são difíceis de escrever em código). De lá para cá, a tecnologia só melhorou e tem sido largamente utilizada em carros autônomos (mas não só). É que esses veículos têm dificuldades em situações que envolvem a interação com motoristas humanos, como parar e seguir em rotatórias, por exemplo, e o comportamento similarmente humano do Aprendizado por Reforço pode refinar sua performance em relação à tomada de decisões.

Quem inventou: Uma as primeiras invenções é a máquina criada por Marvin Minsky quando ainda estudava em Harvard (mais tarde, ele se tornou professor do MIT e um dos cofundadores de seu laboratório de AI). A máquina de Minsky usava uma forma simples de Aprendizado de Reforço para imitar um rato aprendendo a navegar em um labirinto.

Quando foi inventado: Em 1951.

Para que serve: Games e carros autônomos são duas áreas nas quais o Reinforcement Learning tem sido amplamente utilizado. Outra é o refinamento do movimento de robôs, que podem, cada vez mais, pegar objetos pequenos com precisão. Villani diz que a tecnologia é utilizada também no sistema de filtragem de spam de e-emails — a punição pode ser clicar no botão “Não é spam” quando uma mensagem foi erroneamente parar nessa pasta. “Ele refina os filtros previamente aprendidos e também se adapta às preferências de consumo de cada usuário.”

Quem usa: Google, Uber, Tesla, BMW e Intel são alguns exemplos de companhias que usam ou já testaram a programação em seus produtos.

Efeitos colaterais: Erros de decisões tomadas por carros autônomos, por exemplo, e que podem, inclusive, levar a acidentes.

Quem é contra: Pessoas que acreditam que a Inteligência Artificial, como um todo, pode prejudicar os seres humanos, seja tirando seu empregos ou machucando alguém em acidentes com carros autônomos, o que já aconteceu.

Para saber mais:
1) Leia, no MIT Tecnhology Review, Reinforcement Learning. By experimenting, computers are figuring out how to do things that no programmer could teach them.
2) Leia, no LinkedIn, Explicando Deep Reinforcement Learning com Super Mario ao invés de matemática.
3) Leia, na Forbes, Artificial Intelligence: What’s The Difference Between Deep Learning And Reinforcement Learning?

1304 Total Views 1 Views Today
Veja também:

Verbete Draft: o que é AutoML

- 9 de outubro de 2019

Sem assédio telefônico: por meio de uma plataforma online, a Acordo Certo facilita a quitação de dívidas

- 2 de setembro de 2019

Verbete Draft: o que é Ambient Computing

- 22 de maio de 2019