Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате
Форум программистов > Алгоритмы > Поиск по дереву методом Монте-Карло, формула UCB


Автор: serega721 15.7.2020, 11:47
Добрый день.
Для поиска в дереве ходов использую модифицированную формулы UCB:
user posted image
Здесь wi это количество побед i-го узла. ni — количество посещений i-го узла, а n количество посещений всех соседних узлов. c это константа, используемая для установки нужного баланса между шириной и глубиной поиска. Чем она больше, тем более глубокий будет поиск.

Эта формула хорошо работает, когда награда в конце находится в диапазоне от 0 до 1. В моём же случае награда может достигать десятки, сотни, а то и тысячи очков, также в случае проигрыша, игрок теряет очки, соответственно подобрать одинаково С константу для всех случаев нереально. Можно было бы масштабировать максимально возможную оценку (сквошение в [0, 1] диапазоне), но к сожалению у меня нет возможности определить максимально возможный выигрыш для конкретного случая. Подскажите пожалуйста как правильно подобрать награду и С константу для моего случая?  Буду признателен за любые идеи к моей проблеме.

Powered by Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)