Обязательно смотреть форум, можно и писать. Полезные вещи можно найти в и обсуждении прошлых конкурсов, например, 0.90 AUC with Logistic Regression или клёвые треды What did you use?. Еще нужно делиться своими решениями, чтобы раньше понять ошибки и идеи по доработке.
Bag-of-words в большинстве случаев норм и не только для NLP, но и для классификации изображений, например.
Пишет, что в конкурсе яндекса по персонализированному поиску команда яндекса была очень сильна. Столкнувшись с задачей, всегда стоит поискать тех, кто давно работает над ней.
Больше практики, как и в любом деле, многие мелочи превращаются в триггеры, когда ты сталвикаешься с чем-то не в первый раз на практике. Надо бы что-то по психологии почитать, связанное с практикой.
Нужно ясно понимать метрику, которой оценивается решение. На кеггле есть страница с популярными метриками Metrics.