Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition
- Autorzy:
- Sandy Ryza, Uri Laserson, Sean Owen
- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 280
- Dostępne formaty:
-
ePubMobi
Opis ebooka: Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition
In the second edition of this practical book, four Cloudera data scientists present a set of self-contained patterns for performing large-scale data analysis with Spark. The authors bring Spark, statistical methods, and real-world data sets together to teach you how to approach analytics problems by example. Updated for Spark 2.1, this edition acts as an introduction to these techniques and other best practices in Spark programming.
You’ll start with an introduction to Spark and its ecosystem, and then dive into patterns that apply common techniques—including classification, clustering, collaborative filtering, and anomaly detection—to fields such as genomics, security, and finance.
If you have an entry-level understanding of machine learning and statistics, and you program in Java, Python, or Scala, you’ll find the book’s patterns useful for working on your own data applications.
With this book, you will:
- Familiarize yourself with the Spark programming model
- Become comfortable within the Spark ecosystem
- Learn general approaches in data science
- Examine complete implementations that analyze large public data sets
- Discover which machine learning tools make sense for particular problems
- Acquire code that can be adapted to many uses
Wybrane bestsellery
-
Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemow...
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
(41.40 zł najniższa cena z 30 dni)44.85 zł
69.00 zł(-35%) -
Autor porusza tu zaawansowane kwestie związane z analizą statystyczną danych, wykrywaniem anomalii oraz analizą obrazów. Jednak zanim przejdziesz do tych tematów, zapoznasz się z podstawami — wprowadzeniem do analizy danych za pomocą języka Scala oraz Apache Spark.(14.90 zł najniższa cena z 30 dni)
24.50 zł
49.00 zł(-50%) -
The amount of data being generated today is staggering and growing. Apache Spark has emerged as the de facto tool to analyze big data and is now a critical part of the data science toolbox. Updated for Spark 3.0, this practical guide brings together Spark, statistical methods, and real-world data...(186.15 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
Tę książkę docenią wszyscy zainteresowani eksploracją danych i uczeniem maszynowym, którzy chcieliby pewnie poruszać się w świecie nauki o danych. Pokazano tu, w jaki sposób Excel pozwala zobrazować proces ich eksplorowania i jak działają poszczególne techniki w tym zakresie. Przejrzyście wyjaśni...
Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku
(40.20 zł najniższa cena z 30 dni)43.55 zł
67.00 zł(-35%) -
Power Apps to platforma stworzona przez Microsoft, umożliwiająca łatwe projektowanie, tworzenie i dostosowywanie aplikacji bez konieczności posiadania głębokiej wiedzy programistycznej. Z użyciem Power Apps można budować niestandardowe aplikacje, które efektywnie wspierają i automatyzują różne pr...
Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code
(39.90 zł najniższa cena z 30 dni)129.35 zł
199.00 zł(-35%) -
Oto zwięzłe i równocześnie praktyczne kompendium, w którym znajdziesz 20 praktyk udanego planowania, analizy, specyfikacji, walidacji i zarządzania wymaganiami. Praktyki te są odpowiednie dla projektów zarządzanych zarówno w tradycyjny, jak i zwinny sposób, niezależnie od branży. Sprawią, że zesp...
Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej
(40.20 zł najniższa cena z 30 dni)53.60 zł
67.00 zł(-20%) -
Oto drugie, zaktualizowane i uzupełnione wydanie przewodnika po bibliotece Pandas. Dzięki tej przystępnej książce nauczysz się w pełni korzystać z możliwości oferowanych przez bibliotekę, nawet jeśli dopiero zaczynasz przygodę z analizą danych w Pythonie. Naukę rozpoczniesz z użyciem rzeczywisteg...
Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II
(65.40 zł najniższa cena z 30 dni)70.85 zł
109.00 zł(-35%) -
Oto praktyczny przewodnik po nauce o danych w miejscu pracy. Dowiesz się stąd wszystkiego, co ważne na początku Twojej drogi jako danologa: od osobowości, z którymi przyjdzie Ci pracować, przez detale analizy danych, po matematykę stojącą za algorytmami i uczeniem maszynowym. Nauczysz się myśleć ...
Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym
(41.40 zł najniższa cena z 30 dni)44.85 zł
69.00 zł(-35%) -
Ta książka jest trzecim, starannie zaktualizowanym wydaniem wyczerpującego przewodnika po narzędziach analitycznych Pythona. Uwzględnia Pythona 3.0 i bibliotekę pandas 1.4. Została napisana w przystępny sposób, a poszczególne zagadnienia bogato zilustrowano przykładami, studiami rzeczywistych prz...
Python w analizie danych. Przetwarzanie danych za pomocą pakietów pandas i NumPy oraz środowiska Jupyter. Wydanie III Python w analizie danych. Przetwarzanie danych za pomocą pakietów pandas i NumPy oraz środowiska Jupyter. Wydanie III
(71.40 zł najniższa cena z 30 dni)77.35 zł
119.00 zł(-35%) -
Dzięki tej książce nauczysz się przekształcać suche dane liczbowe w pełną empatii narrację! Aby spełniły one swoje zadanie, ktoś musi przedstawić zawarte w nich informacje w postaci opowieści. W tej publikacji wyczerpująco i praktycznie opisano przebieg tego procesu. Jej lektura sprawi, że rozwin...
Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji
(20.90 zł najniższa cena z 30 dni)20.90 zł
67.00 zł(-69%)
O autorach ebooka
Sandy Ryza jest starszym analitykiem w Cloudera i aktywnym uczestnikiem projektu Apache Spark.
Uri Laserson jest starszym analitykiem w Cloudera, gdzie pracuje nad językiem Python w środowisku Hadoop.
Sean Owen jest dyrektorem działu analiz danych na region EMEA w Cloudera i uczestnikiem projektu Apache Spark.
Ebooka "Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- ISBN Ebooka:
- 978-14-919-7290-8, 9781491972908
- Data wydania ebooka:
- 2017-06-12 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 4.7MB
- Rozmiar pliku Mobi:
- 4.7MB
Spis treści ebooka
- Foreword
- Preface
- Whats in This Book
- The Second Edition
- Using Code Examples
- OReilly Safari
- How to Contact Us
- Acknowledgments
- 1. Analyzing Big Data
- The Challenges of Data Science
- Introducing Apache Spark
- About This Book
- The Second Edition
- 2. Introduction to Data Analysis with Scala and Spark
- Scala for Data Scientists
- The Spark Programming Model
- Record Linkage
- Getting Started: The Spark Shell and SparkContext
- Bringing Data from the Cluster to the Client
- Shipping Code from the Client to the Cluster
- From RDDs to Data Frames
- Analyzing Data with the DataFrame API
- Fast Summary Statistics for DataFrames
- Pivoting and Reshaping DataFrames
- Joining DataFrames and Selecting Features
- Preparing Models for Production Environments
- Model Evaluation
- Where to Go from Here
- 3. Recommending Music and the Audioscrobbler Data Set
- Data Set
- The Alternating Least Squares Recommender Algorithm
- Preparing the Data
- Building a First Model
- Spot Checking Recommendations
- Evaluating Recommendation Quality
- Computing AUC
- Hyperparameter Selection
- Making Recommendations
- Where to Go from Here
- 4. Predicting Forest Cover with Decision Trees
- Fast Forward to Regression
- Vectors and Features
- Training Examples
- Decision Trees and Forests
- Covtype Data Set
- Preparing the Data
- A First Decision Tree
- Decision Tree Hyperparameters
- Tuning Decision Trees
- Categorical Features Revisited
- Random Decision Forests
- Making Predictions
- Where to Go from Here
- 5. Anomaly Detection in Network Traffic with K-means Clustering
- Anomaly Detection
- K-means Clustering
- Network Intrusion
- KDD Cup 1999 Data Set
- A First Take on Clustering
- Choosing k
- Visualization with SparkR
- Feature Normalization
- Categorical Variables
- Using Labels with Entropy
- Clustering in Action
- Where to Go from Here
- 6. Understanding Wikipedia with Latent Semantic Analysis
- The Document-Term Matrix
- Getting the Data
- Parsing and Preparing the Data
- Lemmatization
- Computing the TF-IDFs
- Singular Value Decomposition
- Finding Important Concepts
- Querying and Scoring with a Low-Dimensional Representation
- Term-Term Relevance
- Document-Document Relevance
- Document-Term Relevance
- Multiple-Term Queries
- Where to Go from Here
- 7. Analyzing Co-Occurrence Networks with GraphX
- The MEDLINE Citation Index: A Network Analysis
- Getting the Data
- Parsing XML Documents with Scalas XML Library
- Analyzing the MeSH Major Topics and Their Co-Occurrences
- Constructing a Co-Occurrence Network with GraphX
- Understanding the Structure of Networks
- Connected Components
- Degree Distribution
- Filtering Out Noisy Edges
- Processing EdgeTriplets
- Analyzing the Filtered Graph
- Small-World Networks
- Cliques and Clustering Coefficients
- Computing Average Path Length with Pregel
- Where to Go from Here
- 8. Geospatial and Temporal Data Analysis on New York City Taxi Trip Data
- Getting the Data
- Working with Third-Party Libraries in Spark
- Geospatial Data with the Esri Geometry API and Spray
- Exploring the Esri Geometry API
- Intro to GeoJSON
- Preparing the New York City Taxi Trip Data
- Handling Invalid Records at Scale
- Geospatial Analysis
- Sessionization in Spark
- Building Sessions: Secondary Sorts in Spark
- Where to Go from Here
- 9. Estimating Financial Risk Through Monte Carlo Simulation
- Terminology
- Methods for Calculating VaR
- Variance-Covariance
- Historical Simulation
- Monte Carlo Simulation
- Our Model
- Getting the Data
- Preprocessing
- Determining the Factor Weights
- Sampling
- The Multivariate Normal Distribution
- Running the Trials
- Visualizing the Distribution of Returns
- Evaluating Our Results
- Where to Go from Here
- 10. Analyzing Genomics Data and the BDG Project
- Decoupling Storage from Modeling
- Ingesting Genomics Data with the ADAM CLI
- Parquet Format and Columnar Storage
- Predicting Transcription Factor Binding Sites from ENCODE Data
- Querying Genotypes from the 1000 Genomes Project
- Where to Go from Here
- 11. Analyzing Neuroimaging Data with PySpark and Thunder
- Overview of PySpark
- PySpark Internals
- Overview of PySpark
- Overview and Installation of the Thunder Library
- Loading Data with Thunder
- Thunder Core Data Types
- Categorizing Neuron Types with Thunder
- Where to Go from Here
- Index
O'Reilly Media - inne książki
-
JavaScript gives web developers great power to create rich interactive browser experiences, and much of that power is provided by the browser itself. Modern web APIs enable web-based applications to come to life like never before, supporting actions that once required browser plug-ins. Some are s...(186.15 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
How will software development and operations have to change to meet the sustainability and green needs of the planet? And what does that imply for development organizations? In this eye-opening book, sustainable software advocates Anne Currie, Sarah Hsu, and Sara Bergman provide a unique overview...(160.65 zł najniższa cena z 30 dni)
177.65 zł
209.00 zł(-15%) -
OpenTelemetry is a revolution in observability data. Instead of running multiple uncoordinated pipelines, OpenTelemetry provides users with a single integrated stream of data, providing multiple sources of high-quality telemetry data: tracing, metrics, logs, RUM, eBPF, and more. This practical gu...(143.65 zł najniższa cena z 30 dni)
152.15 zł
179.00 zł(-15%) -
Interested in developing embedded systems? Since they don't tolerate inefficiency, these systems require a disciplined approach to programming. This easy-to-read guide helps you cultivate good development practices based on classic software design patterns and new patterns unique to embedded prog...(152.15 zł najniższa cena z 30 dni)
160.65 zł
189.00 zł(-15%) -
If you use Linux in your day-to-day work, then Linux Pocket Guide is the perfect on-the-job reference. This thoroughly updated 20th anniversary edition explains more than 200 Linux commands, including new commands for file handling, package management, version control, file format conversions, an...(92.65 zł najniższa cena z 30 dni)
101.15 zł
119.00 zł(-15%) -
Gain the valuable skills and techniques you need to accelerate the delivery of machine learning solutions. With this practical guide, data scientists, ML engineers, and their leaders will learn how to bridge the gap between data science and Lean product delivery in a practical and simple way. Dav...(245.65 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%) -
This practical book provides a detailed explanation of the zero trust security model. Zero trust is a security paradigm shift that eliminates the concept of traditional perimeter-based security and requires you to "always assume breach" and "never trust but always verify." The updated edition off...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Decentralized finance (DeFi) is a rapidly growing field in fintech, having grown from $700 million to $100 billion over the past three years alone. But the lack of reliable information makes this area both risky and murky. In this practical book, experienced securities attorney Alexandra Damsker ...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Whether you're a startup founder trying to disrupt an industry or an entrepreneur trying to provoke change from within, your biggest challenge is creating a product people actually want. Lean Analytics steers you in the right direction.This book shows you how to validate your initial idea, find t...(126.65 zł najniższa cena z 30 dni)
126.65 zł
149.00 zł(-15%) -
When it comes to building user interfaces on the web, React enables web developers to unlock a new world of possibilities. This practical book helps you take a deep dive into fundamental concepts of this JavaScript library, including JSX syntax and advanced patterns, the virtual DOM, React reconc...(194.65 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka drukowana
Oceny i opinie klientów: Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition Sandy Ryza, Uri Laserson, Sean Owen (0) Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.