Разбор ссылок по анализу данных 25.8-1.9

07-09-2014 19:23

Интересное мне из даджеста на хабре:

  • Поговорим за Hadoop - введение в хадуп, в основном ссылки на другие полезные источники и несколько деньных советов в комментариях.
    • Лучше всего ставить не апачевский дистр, а сборки CDH или HDP, где уже все связанные инструменты настроены.
    • В комментариях рекомендуют начать со связки: HDFS + Spark + Impala + Kafka
  • How to Become a Data Scientist - есть 4 типа аналитиков, о которых пишут в Analyzing the Analyzers (скиллы, которые важны каждому типу на этой картинке ):
    • Data Businesspeople - занимаются организацией на высоком уровне, типа product manager
    • Data Creatives - мастера на все руки, могут воспроизвести все этапы анализа, но используя готовые инструменты
    • Data Developer - занимаются организацией работы с данными на техническом уровне
    • Data Researchers - занимаются исследовениями, пишут статьи
  • yCombinator 2014 Data Science Start-ups - попозже нужно будет посмотреть.
  • 33 unusual problems that can be solved with data science. Интересные:
    • Predicting oil demand, oil reserves, oil price, impact of coal usage
    • Predicting chances that a container in a port contains a nuclear bomb
    • Predicting Earthquakes
    • Predict riots based on tweets
    • Designing metrics to predict student success, or employee attrition
    • Predicting racial and religious mix in a population, detecting change point (e.g. when more people speak Spanish than English, in California) to adapt policies accordingly
  • Bayesian Machine Learning on Apache Spark - туториял по PyMC и Apache Spark.

DataScienceCentral Weekly Digest - еще дайджест по анализу данных

tags: data-mining hadoop spark
comments powered by Disqus