Рекомендации по участю к Kaggle

17-08-2014 03:06
  • Опыт участия в соревнованиях Kaggle
    • Обязательно смотреть форум, можно и писать. Полезные вещи можно найти в и обсуждении прошлых конкурсов, например, 0.90 AUC with Logistic Regression или клёвые треды What did you use?. Еще нужно делиться своими решениями, чтобы раньше понять ошибки и идеи по доработке.
    • Bag-of-words в большинстве случаев норм и не только для NLP, но и для классификации изображений, например.
    • Помимо scikit есть еще Vowpal Wabbit на C++.
    • Пишет, что в конкурсе яндекса по персонализированному поиску команда яндекса была очень сильна. Столкнувшись с задачей, всегда стоит поискать тех, кто давно работает над ней.
    • Больше практики, как и в любом деле, многие мелочи превращаются в триггеры, когда ты сталвикаешься с чем-то не в первый раз на практике. Надо бы что-то по психологии почитать, связанное с практикой.
    • Нужно ясно понимать метрику, которой оценивается решение. На кеггле есть страница с популярными метриками Metrics.
    • Полезный модуль scikit sklearn.ensemble
  • Рекомендации от профи на Kaggle
    • Как можно раньше что-нибудь рабочее запостить для leaderboard. Короче важно начинать действовать.
    • Еще тред, кто что использовал
    • Лучше пользоваться простыми моделями, они более гибкие.
    • Тоже рекомендуют использовать комбинации алгоритмов
tags: data-mining kaggle
comments powered by Disqus