Q-обучение: роботов научат вести себя этично
Чтобы проверить свой подход, ученые воспользовались искусственным интеллектом под названием «Шахерезада», который способен генерировать истории. Для этого он использует упрощенные тексты, которые запрашивает с краудсорсинговой платформы Amazon Mechanical Turk. Искусственный интеллект группирует предложения из текстов на основе их семантической схожести с использованием кластерных алгоритмов. Каждое предложение представляет собой определенное событие. Далее программа с помощью биноминального распределения оценивает вероятность, в каком хронологическом порядке могут располагаться события, и какие из них являются взаимоисключающими. Таким образом, «Шахерезада» создает дерево историй — множество возможных цепочек событий.
Исследователи построили небольшое дерево историй для простой симуляции, названной Аптечным миром (Pharmacy World). Аптечный мир включал в себя локации, например, аптека, дом, клиника или банк, в которых были возможны те или иные действия, включая кражу. Цель интеллектуального агента — виртуального робота — заключалась в том, чтобы взять из аптеки лекарство, на которое был необходим рецепт, и вернуться домой.
Всего было возможно 213 различных вариантов историй, при этом некоторые события в историях встречались чаще, чем другие. Если интеллектуальный агент выполнял действие, которое соответствовало часто встречающемуся событию, то он получал вознаграждение. Таким образом, осуществлялось Q-обучение агента.
Результаты симуляции показали, что обученный агент никогда не использовал кражу, чтобы быстрее и эффективнее добиться цели. Вместо этого он действовал так, чтобы максимизировать свою награду.
Однако ученые подчеркивают, что такой подход пока неприменим для всех типов искусственного интеллекта. Обучение через краудсорсинговые истории подходит только для простых интеллектуальных агентов, которым необходимо взаимодействовать с людьми для достижения определенных целей. Использование сложных текстов для обучения искусственного интеллекта человеческим ценностям остается открытой проблемой.
Q-обучение — метод обучения интеллектуального агента, при котором происходит вознаграждение определенной стратегии поведения. Учитывая свой опыт своего прошлого взаимодействия с окружающей средой, агент формирует ожидаемую полезность от доступных ему действий и стремится максимизировать выигрыш от своего поведения.
Александр Еникеев