Дочитал Agile Data Science

18-08-2014 03:33

Небольшая книжка с кучей кода на Pig. На примере анализа писем с почты рассказывает, как лучше построить инфраструктуру для анализа и в целом про весь цикл разработки проекта.

Использует:

  • Apache Avro - для сериализации писем и сохранения в HDFS
  • HDFS чтобы хранить необработанные данные
  • Apache Pig - для работы скриптов, которые что-нибудь дополнительно вычисляют во время обработки данных и записывают в БД
  • MongoDB - для хранения данных
  • Python Flask - для сайта, на котором можно посмотреть данные и результаты анализа
  • D3 - для визуализации статистики

Процессы, через которые проходят данные:

  • Events - события (система, из которой берутся данные)
  • Collectors - агрегаторы событий
  • Bulk storage - хранилище для данных с параллельным доступом
  • Distributed document stores - хранилище для структурированных обработанных данных
  • Application server - веб-сервер для того, чтобы работать с данными
  • Browser - построенная на этом веб-сервере система непосредственно для просмотра результатов анализа и данных

В книжне не понравилось: слишком много (в том числе повторяющегося) кода, который все равно есть на гитхабе автора, тексты часто просто вода, которой и так в книжке немного.

tags: books data-mining
comments powered by Disqus