СЛАВА РОБОТАМ УБИТЬ ВСЕХ ЧЕЛОВЕКОВ

А между тем reinforsment learning достиг новых высот. Уже в Doom рубает (в Altari он начал играть всего пол года назад). Пошёл читать как они это делают. Пока что два главных вопроса: