Open navigation menu

Welcome to Scribd!

Data Science With SAS and Cloudera

Uploaded by

0% found this document useful (0 votes)

24 views46 pages

ds

Original Title

ds

Copyright

© © All Rights Reserved

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

ds

Copyright:

© All Rights Reserved

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

24 views46 pages

Data Science With SAS and Cloudera

Uploaded by

ds

Copyright:

© All Rights Reserved

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 46

Search inside document

Data Science with SAS

and Cloudera
Josh Wills, Senior Director of Data Science
Cloudera

What is a Data Scientist?

One Definition

versus Another

What Do Data Scientists Do?

What I Think I Do

What Other People Think I Do

What I Actually Do

A Brief Introduction to Hadoop

Data Storage in 2001: Databases

Structured schemas
Intensive processing
done where data is
stored
Somewhat reliable
Expensive at scale

10

Data Storage in 2001: Filers

No schemas, stores any
kind of file
No data processing
capability
Reliable
Expensive at scale

11

And Then, This Happened

12

Data Economics: Return on Byte

13

Big Data Economics

No individual record is
particularly valuable
Having every record is
incredibly valuable

14

Web index
Recommendation
systems
Sensor data
Market basket analysis
Online advertising

Enter Hadoop

15

The Hadoop Distributed File System

Based on the Google
File System
Data stored in large files

16

Large block size: 64MB

to 256MB per block
Blocks are replicated to
multiple nodes in the
cluster

Reliable Distributed Processing:

MapReduce

Map Stage

Shuffle Stage: Large-scale distributed sort

Embarrassingly parallel
Like a DATA Step
Like PROC SORT

Reduce Stage

Process all of the values that have the same key in a single
step
Like PROC MEANS with a BY statement

Process the data where it is stored

Write once and youre done.

17

Getting Started with Hadoop

Apache Hive

SQL-based query
language

18

Data Warehouse System

on top of Hadoop

SELECT, INSERT, CREATE

TABLE
Includes some
MapReduce-specific
extensions

Thinking Like a Data Scientist

19

Solving The Right Problem

20

Scarcity vs. Abundance

21

The Star Schema

22

Going Supernova

23

Batch vs. Interactive Processing

24

Cloudera Impala

25

SAS LASR

26

Advanced Analytics on Hadoop

27

Data Science as ETL

28

Iterative Algorithms

29

Iterative Algorithms: Hadoop

30

Iterative Algorithms: SAS HPA

31

MapReduce and You

32

Iterative Algorithms: Getting Clever

33

Case Study: Rare Event Prediction

34

K-Means Clustering

35

K-Means Clustering: Lloyds Algorithm

36

K-Means++

37

Scalable K-Means++ with Cloudera ML

38

Thinking About the Future

39

Data Science as Statistics

40

Data Science as Decision Engineering

41

Decisions Should Be Cheap.

42

Operational Analytics

43

Understanding Operational Analytics

Investigative Analytics

44

Question-driven
Interactive
Ad-hoc, post-hoc
Fixed data
Output is embedded into a
report or in-database
scoring engine

Operational Analytics

Metric-driven
Automated
Systematic
Fluid data
Output is a production
system that makes
customer-facing decisions

Building Data Products

45

Thank you!

Josh Wills, Director of Data Science, Cloudera

@josh_wills

You might also like

Saudi Arabia Companies Contact Details
Document64 pages
Saudi Arabia Companies Contact Details
YAGHMOURE ABDALRAHMAN
86% (69)
Data Engineering Cookbook
Document88 pages
Data Engineering Cookbook
Faton
100% (2)
Data Analytics in Indian Railways
Document39 pages
Data Analytics in Indian Railways
shakspan
No ratings yet
DBA's Guide to NoSQL
From Everand
DBA's Guide to NoSQL
The Enlightened DBA
Rating: 5 out of 5 stars
5/5 (1)
Life Evolution Universe Lecture Notes - AUC
Document45 pages
Life Evolution Universe Lecture Notes - AUC
Alejandro Verde
No ratings yet
CES Wrong Answer Summary
Document2 pages
CES Wrong Answer Summary
Владислав Комаров
No ratings yet
Big Data As A Service On Google Cloud
Document329 pages
Big Data As A Service On Google Cloud
Nandha
No ratings yet
Hadoop, A Distributed Framework For Big Data
Document55 pages
Hadoop, A Distributed Framework For Big Data
HARISH REDDY B
No ratings yet
Big Data
Document67 pages
Big Data
tamizhanps
No ratings yet
Big Data 2021 - 6,7,8 Big Data Technologies
Document55 pages
Big Data 2021 - 6,7,8 Big Data Technologies
Putri Nur aini
No ratings yet
Big Data & Hadoop Training Material 0 1 PDF
Document168 pages
Big Data & Hadoop Training Material 0 1 PDF
haranadh
50% (2)
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
Document55 pages
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
Pratheesh Kumar
No ratings yet
Directional: 12 1/4in Sdi519 PDC
Document1 page
Directional: 12 1/4in Sdi519 PDC
Khairatul Nada Burhanuddin
No ratings yet
Big Data Analytics
Document79 pages
Big Data Analytics
sania2011
100% (2)
Behaviour Modification Testbank PDF
Document118 pages
Behaviour Modification Testbank PDF
jade tagab
No ratings yet
Exploring Bigdata With Hadoop: Dr.A.Bazila Banu Associate Professor Department of Cse
Document23 pages
Exploring Bigdata With Hadoop: Dr.A.Bazila Banu Associate Professor Department of Cse
MAMAN MYTHIEN S
No ratings yet
TCL 1
Document29 pages
TCL 1
Nikita Mudras
0% (2)
04-2 Intro Nosql
Document43 pages
04-2 Intro Nosql
Dương Nguyễn
No ratings yet
Big Data Pipelines
Document22 pages
Big Data Pipelines
Geet Sharma
No ratings yet
Designing A Modern Data Warehouse in Azure
Document25 pages
Designing A Modern Data Warehouse in Azure
Can Kaya
100% (1)
CHAPTER 03: Big Data Technology Landscape
Document81 pages
CHAPTER 03: Big Data Technology Landscape
01fm19mca006
No ratings yet
Databricks, An Introduction: Chuck Connell, Insight Digital Innovation
Document36 pages
Databricks, An Introduction: Chuck Connell, Insight Digital Innovation
Saravanan1234567
No ratings yet
Introduction To Big Data Analytics
Document33 pages
Introduction To Big Data Analytics
Trần Nguyên Thái Bảo
No ratings yet
Bigdata Overview PDF
Document98 pages
Bigdata Overview PDF
manindra1konda
No ratings yet
Lecture 1
Document31 pages
Lecture 1
bilalmujahid500
No ratings yet
Data Warehousing: Special Thanks To: Liem Tran, Robert Turan, and Miguel Delgado
Document46 pages
Data Warehousing: Special Thanks To: Liem Tran, Robert Turan, and Miguel Delgado
kadokita17
No ratings yet
Cs 620 / Dasc 600 Introduction To Data Science & Analytics: Lecture 6-Nosql
Document31 pages
Cs 620 / Dasc 600 Introduction To Data Science & Analytics: Lecture 6-Nosql
DR. BODHI CHAKRABORTY
No ratings yet
No SQL
Document32 pages
No SQL
Shubham N/A
No ratings yet
Bda - M1
Document64 pages
Bda - M1
Chandan A H
No ratings yet
NO SQL Unit 1
Document66 pages
NO SQL Unit 1
Devina C
No ratings yet
SEN-762 Advanced Big Data Analytics
Document39 pages
SEN-762 Advanced Big Data Analytics
بالیراجپوت
No ratings yet
Leading A Healthcare Company To The Big Data Promised Land
Document34 pages
Leading A Healthcare Company To The Big Data Promised Land
ssaurabh_ss
100% (1)
Big Data Computing Mapreduce and Hadoop: Prof. Ke Yi Cse, Hkust
Document76 pages
Big Data Computing Mapreduce and Hadoop: Prof. Ke Yi Cse, Hkust
Patrick Li
No ratings yet
Hadoop, A Distributed Framework For Big Data
Document55 pages
Hadoop, A Distributed Framework For Big Data
sonia choudhary
No ratings yet
Lecture7 2
Document43 pages
Lecture7 2
Sohail Chaudhery
No ratings yet
Lecture 1
Document55 pages
Lecture 1
George Okemwa
No ratings yet
Data Mining With Hadoop and Hive Introduction To Architecture
Document39 pages
Data Mining With Hadoop and Hive Introduction To Architecture
Ashwin Ajmera
No ratings yet
Introduction: Hadoop's History and Advantages 2. Architecture in Detail 3. Hadoop in Industry
Document53 pages
Introduction: Hadoop's History and Advantages 2. Architecture in Detail 3. Hadoop in Industry
jainam dude
No ratings yet
Hadoop Important Lecture
Document38 pages
Hadoop Important Lecture
affanabbasi015
No ratings yet
No SQL
Document45 pages
No SQL
Aleena Nasir
No ratings yet
Hadoopdb: An An Architectural Hybrid of Mapreduce & Dbms Technologies For Analytical Workloads
Document34 pages
Hadoopdb: An An Architectural Hybrid of Mapreduce & Dbms Technologies For Analytical Workloads
Tilani Gunawardena
No ratings yet
BD Merged
Document330 pages
BD Merged
Aman CSE050
No ratings yet
Big Data
Document25 pages
Big Data
VIJAYA PRABA P
No ratings yet
Hadoop and Big Data
Document41 pages
Hadoop and Big Data
Yukti Kaura
No ratings yet
Introduction To The Hadoop Ecosystem
Document106 pages
Introduction To The Hadoop Ecosystem
ud
No ratings yet
Hadoop Ecosystem
Document58 pages
Hadoop Ecosystem
pechaporn
No ratings yet
Business Intelligence: Concepts,: Technologies and Industry Analysis
Document35 pages
Business Intelligence: Concepts,: Technologies and Industry Analysis
youarewithshree
No ratings yet
Introduction To Big Data and NoSQL
Document52 pages
Introduction To Big Data and NoSQL
Max Chiu
No ratings yet
Data Engineering With Aws Acquire The Skills To Design and Build Aws Based Data Transformation Pipelines Like A Pro 2Nd Edition Eagar Full Chapter
Document68 pages
Data Engineering With Aws Acquire The Skills To Design and Build Aws Based Data Transformation Pipelines Like A Pro 2Nd Edition Eagar Full Chapter
linda.owens263
100% (4)
Day1 2
Document110 pages
Day1 2
patil_555
No ratings yet
Big Data Unit 1 AKTU Notes
Document87 pages
Big Data Unit 1 AKTU Notes
abhijitraj229
No ratings yet
4-2 Bda PPTS
Document114 pages
4-2 Bda PPTS
LOKESWARI G
No ratings yet
4.1 Intro Nosql
Document43 pages
4.1 Intro Nosql
Tuan Anh
No ratings yet
Distributed Nosql Storage For Extreme-Scale System Services
Document45 pages
Distributed Nosql Storage For Extreme-Scale System Services
Balakrishnan.G
No ratings yet
New World Hadoop Architectures (& What Problems They Really Solve) For Dbas
Document44 pages
New World Hadoop Architectures (& What Problems They Really Solve) For Dbas
Anonymous VVSLkDOAC1
No ratings yet
4.1 Intro Nosql
Document45 pages
4.1 Intro Nosql
antp9254
No ratings yet
DP-900 Cheatsheet
Document24 pages
DP-900 Cheatsheet
jyh83777
No ratings yet
Big Data Storage: Made by Urmil Sehgal 6 Semseter (E) (02524302011)
Document22 pages
Big Data Storage: Made by Urmil Sehgal 6 Semseter (E) (02524302011)
Urmil Sehgal
No ratings yet
03 BigData DFS MapReduce Hadoop
Document66 pages
03 BigData DFS MapReduce Hadoop
Saikat Mondal
No ratings yet
4-2 Bda PPTS
Document114 pages
4-2 Bda PPTS
reenadh shaik
No ratings yet
Big Data Infrastructure
Document12 pages
Big Data Infrastructure
Hifzaa Riyes
No ratings yet
2 BDA A6515 Hadoop
Document55 pages
2 BDA A6515 Hadoop
Sheshikanth Don
No ratings yet
BI On Hadoop - What Are Your Options - Presentation 1
Document26 pages
BI On Hadoop - What Are Your Options - Presentation 1
nassif.hassane
No ratings yet
NOSQL
Document6 pages
NOSQL
AKSHAY Kumar
No ratings yet
Chapter 3
Document85 pages
Chapter 3
Shivananda V Seeri
No ratings yet
1 Introduction To Big Data Management and Processing
Document42 pages
1 Introduction To Big Data Management and Processing
tranngocbaooooo12062003
No ratings yet
Module 4 - Community Health Assessment
Document8 pages
Module 4 - Community Health Assessment
Steffi
100% (1)
Science - Sound Diffraction
$Science - Sound Diffraction$
Document12 pages
Science - Sound Diffraction
Elissah S Pabilona
No ratings yet
Manual of Armacad v9 PDF
Document102 pages
Manual of Armacad v9 PDF
Cristiana Feliciano
No ratings yet
Digital Thermometer Using Arduino: Mini Project Report ON
Document5 pages
Digital Thermometer Using Arduino: Mini Project Report ON
Neha Pinto
No ratings yet
Overcoming Obstacles To Ethical Behaviour
Document4 pages
Overcoming Obstacles To Ethical Behaviour
Simran Singh
No ratings yet
Nature'S Numbers: - Basicbooks
Document39 pages
Nature'S Numbers: - Basicbooks
yeol pacis
No ratings yet
An Introduction To Formal Language and Automata Solution Manual PDF
Document4 pages
An Introduction To Formal Language and Automata Solution Manual PDF
Asad Ikram
No ratings yet
Final Report 2
Document110 pages
Final Report 2
Aftab Ali
No ratings yet
WEEK 11 - LAB 2 LEVEL 0 - BS Lab Electrical Supply - Domestic House Wiring & Accessories Including Lighting - DONE
Document6 pages
WEEK 11 - LAB 2 LEVEL 0 - BS Lab Electrical Supply - Domestic House Wiring & Accessories Including Lighting - DONE
Muhd Alif Mikhail
No ratings yet
The Effect of The Gastrocnemius On The Plantar Fascia: Javier Pascual Huerta
Document18 pages
The Effect of The Gastrocnemius On The Plantar Fascia: Javier Pascual Huerta
marcelonoris
No ratings yet
Term Paper On Strategic Management
Document8 pages
Term Paper On Strategic Management
ea7j5ys3
100% (1)
Chapter Vii. Damascius and Hyperignorance: Epublications@Bond
Document10 pages
Chapter Vii. Damascius and Hyperignorance: Epublications@Bond
Rami Touqan
No ratings yet
Lean Construction
Document37 pages
Lean Construction
Mohamed Talaat Elsheikh
No ratings yet
1 Ha Cabbages - May 2018 PDF
Document1 page
1 Ha Cabbages - May 2018 PDF
Mwai Esther
No ratings yet
MYP Unit Planner - Math
Document5 pages
MYP Unit Planner - Math
Marija Cvetkovic
No ratings yet
Linux Overview (Commands)
Document9 pages
Linux Overview (Commands)
fopata
No ratings yet
SOM-based Generating of Association Rules
Document5 pages
SOM-based Generating of Association Rules
Kishor Peddi
No ratings yet
Jurnal Ari Maulana Ullum Sasmi 1801038
Document12 pages
Jurnal Ari Maulana Ullum Sasmi 1801038
03. Ari Maulana Ullum Sasmi / TD 2.10
No ratings yet
Cellular Respiration MDL361
Document46 pages
Cellular Respiration MDL361
Krystal Craig
No ratings yet
Bistable Relays RXMVB 2, RXMVB 4: Features
Document4 pages
Bistable Relays RXMVB 2, RXMVB 4: Features
Gabriel Maxo Papagallo
No ratings yet
Plumbing
Document1 page
Plumbing
minesdomie
No ratings yet
Background of The Study: Than Ideal
Document3 pages
Background of The Study: Than Ideal
Clint Camilon
No ratings yet
Artuz Albert PDF
Document4 pages
Artuz Albert PDF
Jasmin Kate Datuin
No ratings yet
( (2004) Yamamuro & Wood) - Effect of Depositional Method On The Undrained Behavior and Microstructure of Sand With Silt
Document10 pages
( (2004) Yamamuro & Wood) - Effect of Depositional Method On The Undrained Behavior and Microstructure of Sand With Silt
LAM TRAN DONG KIEM
No ratings yet