Дочитал Agile Data Science

18-08-2014 03:33

Небольшая книжка с кучей кода на Pig. На примере анализа писем с почты рассказывает, как лучше построить инфраструктуру для анализа и в целом про весь цикл разработки проекта.

Использует:

Apache Avro - для сериализации писем и сохранения в HDFS
HDFS чтобы хранить необработанные данные
Apache Pig - для работы скриптов, которые что-нибудь дополнительно вычисляют во время обработки данных и записывают в БД
MongoDB - для хранения данных
Python Flask - для сайта, на котором можно посмотреть данные и результаты анализа
D3 - для визуализации статистики

Процессы, через которые проходят данные:

Events - события (система, из которой берутся данные)
Collectors - агрегаторы событий
Bulk storage - хранилище для данных с параллельным доступом
Distributed document stores - хранилище для структурированных обработанных данных
Application server - веб-сервер для того, чтобы работать с данными
Browser - построенная на этом веб-сервере система непосредственно для просмотра результатов анализа и данных

В книжне не понравилось: слишком много (в том числе повторяющегося) кода, который все равно есть на гитхабе автора, тексты часто просто вода, которой и так в книжке немного.

tags: books data-mining