Нужно описать кратко принципы работы Decision Tree и Random Forest в совокупности с AdaBoost.
TL;DR: Строится дерево проверок, в самой вершине - та, что наибольшим образом снижает неопределенность класса, далее так же: вопросы подбираются, чтобы быстрее снизить энтропию.
Типичный вариант задачи: есть множество разных ситуаций (большой набор дискретных/дисретизируемых атрибутов), нужно определить класс ситуации, обычно булевый.
За уменьшение энтропии отвечает параметр Gain (прирост информации), выбирая следующий узел, нужно взять (по статистике) вопрос с наибольшим Gain. Может быть проблема: прирост информации выбирает атрибуты, для которых больше всего значений. Нужно использовать Gain Ratio, который делит Gain на поправку, зависящую от количества принимаемых значений.
Оверфитинг - построение слишком подробного дерева, лечится с помощью pruning - обрезания ветвей, со сшиком малым приростом информации.
Достоинства:
TL;DR: Строится куча разных деревьев, обучает деревья на случайно выбранных параметрах, при классификации выбирается средние значения вероятности отнесения к классу.
Пишут, что алгоритм трудно применить неправильно. Out-of-Bag Estimate of Performance - встроенная оценка качества.
Достоинства:
Недостатки:
TL;DR: на основе множества простых классификаторов делает один мощный
Обучаются слабы классификаторы. Минимизируется взвешенная ошибка классификации, результаты слкдаываются в сильный классификатор.
Достоинства:
Недостатки: