Разбор ссылок по анализу данных

10-06-2014 05:47

Разбор ссылок с http://habrahabr.ru/post/225589/

Список NoSQL баз данных - полезный список, помимо баз есть еще события (конфы).
Хорошие базы, которые надо иметь ввиду:

  • семейства столбцов: HBase - для хадупа, Cassandra - аналог hbase;
  • док.ориентированные: MongoDB - круто развит, Elasticsearch - для текстовых документов/логов;
  • ключ-значение: DynamoDB - "automatic ultra scalable", Riak - в отличии от Redis есть Multiple Masters, LevelDB - используется в биткоинах, баз ключ-значение дофига.
  • графовые: Neo4J - куча всего, Infinite Graph - тоже.
  • Multimodel Databases - крутые, нужно подробнее разобраться с некоторыми: ArangoDB, AlchemyDB

10 вещей из статистики применимые при анализе больших данных

  1. Если целью является точность, нужно составлять результат из нескольких моделей.
  2. Нужно тестировать много гипотез на множестве тестов.
  3. Есть данные пространственные и временные, нужно из сгладить: loess, Сглаживающий сплайн, Скользящая средняя, Скрытая марковская модель
  4. Перед тем, как анализировать данные, попробовать их отобразить Квартет Энскомба, Bland–Altman plot
  5. ИНтерактивный анализ - лучший способ выяснить, что на самом деле происходит с данными. (Robert Gentleman, Genentech: "make big data as small as possible as quick as is possible")
  6. Нужно знать реальный размер выборки.
  7. Unless you ran a randomized trial, potential confounders should keep you up at night
  8. Определить метрику успеха
  9. Нужно писать код и оформлять данные так, чтобы более опытные аналитики могли проверить результаты
  10. Нужно использовар разные инструменты, а не только тот, который знаешь лучше.

Building Data Science Teams
Нужны:

  • Data evangelist - выясняет потребности клиента, находит применение данным
  • Contextual analyst - работает над качеством продукта, необязательно программист
  • Data visualizer - думает, как представить результаты контекстного аналитика конечному пользователю

Развитие в анализе данных - советы, как развиться в анализе данных

  • Для начала нужно хорошо выучить какой-нибудь язык программирования (Python) и SQL
  • Быть в курсе новых технологий работы с данными.
  • Ходить на встречи, конференции, хакатоны.
  • Практиковаться. Есть большая разница между курсовыми в MOOC и анализом реальных данных.
  • При самостоятельной работе обычно нет четкого момента ее завершения.

BigML - инструмент для анализа данных

Инфографика по языкам анализа данных - 50% победителей Kaggle пользуются R. Им же пользуются Google и Facebook.

Книги, которые нужно прочитать

  • R Cookbook by Paul Teetor
  • Machine Learning for Hackers by Drew Conway & John Myles White
  • R graphics cookbook by Winston Chang
  • Programming Collective Intelligence by Toby Segaran - читал.
  • Python for Data Analysis by Wes McKinney
  • Agile data science by Russell Jurney - клёвое название
  • Natural Language processing with Python by Steven Bird et al
  • Mining the social web by Matthew A. Russell - немного читал, простая, на конкретных примерах(нужно составить список книг, которые хорошо бы прочитать)

Пошаговое руководство по настройке R-Hadoop

Наборы данных - около сотни, есть те, которые были в конкурсах на Kaggle.

Аббревиатуры в анализе данных

tags: data-mining
comments powered by Disqus