Разбор ссылок по анализу данных 25.8-1.9
07-09-2014 19:23
Интересное мне из даджеста на хабре :
Поговорим за Hadoop - введение в хадуп, в основном ссылки на другие полезные источники и несколько деньных советов в комментариях.
Лучше всего ставить не апачевский дистр, а сборки CDH или HDP , где уже все связанные инструменты настроены.
В комментариях рекомендуют начать со связки: HDFS + Spark + Impala + Kafka
How to Become a Data Scientist - есть 4 типа аналитиков, о которых пишут в Analyzing the Analyzers (скиллы, которые важны каждому типу на этой картинке ):
Data Businesspeople - занимаются организацией на высоком уровне, типа product manager
Data Creatives - мастера на все руки, могут воспроизвести все этапы анализа, но используя готовые инструменты
Data Developer - занимаются организацией работы с данными на техническом уровне
Data Researchers - занимаются исследовениями, пишут статьи
yCombinator 2014 Data Science Start-ups - попозже нужно будет посмотреть.
33 unusual problems that can be solved with data science . Интересные:
Predicting oil demand, oil reserves, oil price, impact of coal usage
Predicting chances that a container in a port contains a nuclear bomb
Predicting Earthquakes
Predict riots based on tweets
Designing metrics to predict student success, or employee attrition
Predicting racial and religious mix in a population, detecting change point (e.g. when more people speak Spanish than English, in California) to adapt policies accordingly
Bayesian Machine Learning on Apache Spark - туториял по PyMC и Apache Spark.
DataScienceCentral Weekly Digest - еще дайджест по анализу данных
tags:
data-mining
hadoop
spark
Please enable JavaScript to view the comments powered by Disqus.
comments powered by