Потратил много времени на эту книжку. Поначалу казалось, много воды, но она передуется с часто непонятными мне математическими выкладками. Не для чтения в метро в общем. В книге куча примеров интересных задач по анализу данных, расписаны шаги, как открыть свое дело связанное с анализом данных, чеклисты, как решать задачи. Под конец еще большой список задач для собеседований. В целом 4-5 главы - это набор статей по конкретным методам. Что мне удалось для себя извлечь из книги:
Часто под data scientist понимают человека, который просто занимается статистиками. Ученый по данным на самом деле разбирается во многом в достаточной мере, чтобы предложить решение задачи, стек технологий и самостоятельно собрать прототип. Предложить решение задачи - самое сложное:)
Важной деталью аналитика является наличие своих проектов (home project). На них можно много всего пробовать. Автор является сооснователем Data Science Central, и у них к рассылке анатиличский подход, который делает ее персонализированной, полезной и неназойливой.
Good tier languages: Python, Perl, R. На перле много готовых скриптов для ETL.
Надо постоянно свершенствовать свои алгоритмы. Построив классификатор на небольшом множестве, дополнять его, если появляются новые данные. Вообще, как и многие советуют, главное начать, потом уже вынужденно втягиваешься и дело затягивает сильнее. Еще рекомендует визуализировать побольше.
Нужно побольше писать и общаться с другими аналитками. Много отсылок к Data Science Central, различным курсам.
Предлагает свой алгоритм Hidden decision trees для больших объемов данных и нелинейно коррелирующих независимых переменных.