Список NoSQL баз данных - полезный список, помимо баз есть еще события (конфы).
Хорошие базы, которые надо иметь ввиду:
семейства столбцов: HBase - для хадупа, Cassandra - аналог hbase;
док.ориентированные: MongoDB - круто развит, Elasticsearch - для текстовых документов/логов;
ключ-значение: DynamoDB - "automatic ultra scalable", Riak - в отличии от Redis есть Multiple Masters, LevelDB - используется в биткоинах, баз ключ-значение дофига.
графовые: Neo4J - куча всего, Infinite Graph - тоже.
Multimodel Databases - крутые, нужно подробнее разобраться с некоторыми: ArangoDB, AlchemyDB
ИНтерактивный анализ - лучший способ выяснить, что на самом деле происходит с данными. (Robert Gentleman, Genentech: "make big data as small as possible as quick as is possible")
Нужно знать реальный размер выборки.
Unless you ran a randomized trial, potential confounders should keep you up at night
Определить метрику успеха
Нужно писать код и оформлять данные так, чтобы более опытные аналитики могли проверить результаты
Нужно использовар разные инструменты, а не только тот, который знаешь лучше.