Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark - ebook

Akash Tandon, Sandy Ryza, Uri Laserson

Wydawnictwo:

Helion

Tłumacz:

Andrzej Watrak

Data wydania:

7 marca 2023

Format ebooka:

MOBI

czytaj

na czytniku

czytaj

na tablecie

czytaj

na smartfonie

Jeden z najczęściej wybieranych formatów wśród czytelników e-booków. Możesz go odczytać na czytniku Kindle oraz na smartfonach i tabletach po zainstalowaniu specjalnej aplikacji. Więcej informacji znajdziesz w dziale Pomoc.

Multiformat

E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.

, PDF

czytaj

na laptopie

czytaj

na tablecie

Format e-booków, który możesz odczytywać na tablecie oraz laptopie. Pliki PDF są odczytywane również przez czytniki i smartfony, jednakze względu na komfort czytania i brak możliwości skalowania czcionki, czytanie plików PDF na tych urządzeniach może być męczące dla oczu. Więcej informacji znajdziesz w dziale Pomoc.

Multiformat

, EPUB

czytaj

na czytniku

czytaj

na tablecie

czytaj

na smartfonie

Jeden z najpopularniejszych formatów e-booków na świecie. Niezwykle wygodny i przyjazny czytelnikom - w przeciwieństwie do formatu PDF umożliwia skalowanie czcionki, dzięki czemu możliwe jest dopasowanie jej wielkości do kroju i rozmiarów ekranu. Więcej informacji znajdziesz w dziale Pomoc.

Multiformat

(3w1)

Multiformat

E-booki sprzedawane w księgarni Virtualo.pl dostępne są w opcji multiformatu - kupujesz treść, nie format. Po dodaniu e-booka do koszyka i dokonaniu płatności, e-book pojawi się na Twoim koncie w Mojej Bibliotece we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu przy okładce. Uwaga: audiobooki nie są objęte opcją multiformatu.

czytaj

na laptopie

Pliki PDF zabezpieczone watermarkiem możesz odczytać na dowolnym laptopie po zainstalowaniu czytnika dokumentów PDF. Najpowszechniejszym programem, który umożliwi odczytanie pliku PDF na laptopie, jest Adobe Reader. W zależności od potrzeb, możesz zainstalować również inny program - e-booki PDF pod względem sposobu odczytywania nie różnią niczym od powszechnie stosowanych dokumentów PDF, które odczytujemy każdego dnia.

Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.

czytaj

na tablecie

Aby odczytywać e-booki na swoim tablecie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. Bluefire dla EPUBa lub aplikacja Kindle dla formatu MOBI.

Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.

czytaj

na czytniku

Czytanie na e-czytniku z ekranem e-ink jest bardzo wygodne i nie męczy wzroku. Pliki przystosowane do odczytywania na czytnikach to przede wszystkim EPUB (ten format możesz odczytać m.in. na czytnikach PocketBook) i MOBI (ten fromat możesz odczytać m.in. na czytnikach Kindle).

Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.

czytaj

na smartfonie

Aby odczytywać e-booki na swoim smartfonie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. iBooks dla EPUBa lub aplikacja Kindle dla formatu MOBI.

Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark - ebook

Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.

Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.

Dzięki książce poznasz:

model programowania w ekosystemie Spark
podstawowe metody stosowane w nauce o danych
pełne implementacje analiz dużych publicznych zbiorów danych
konkretne przypadki użycia narzędzi uczenia maszynowego
kod, który łatwo dostosujesz do swoich potrzeb

PySpark: systemowa odpowiedź na problemy inżyniera danych!

Spis treści

Słowo wstępne

1. Analiza wielkich zbiorów danych

Praca z wielkimi zbiorami danych
Przedstawiamy Apache Spark i PySpark
- Komponenty
- PySpark
- Ekosystem
Spark 3.0
PySpark i wyzwania w nauce o danych
O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocą PySpark

Architektura systemu Spark
Instalacja interfejsu PySpark
Przygotowanie danych
Analiza danych za pomocą struktury DataFrame
Szybkie statystyki zbiorcze w strukturze DataFrame
Przestawienie i przekształcenie struktury DataFrame
Złączenie struktur DataFrame i wybór cech
Ocena modelu
Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler

Zbiór danych
Wymagania dla systemu rekomendacyjnego
Algorytm naprzemiennych najmniejszych kwadratów
Przygotowanie danych
Utworzenie pierwszego modelu
Wyrywkowe sprawdzanie rekomendacji
Ocena jakości rekomendacji
Obliczenie wskaźnika AUC
Dobór wartości hiperparametrów
Przygotowanie rekomendacji
Dalsze kroki

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego

Drzewa i lasy decyzyjne
Przygotowanie danych
Pierwsze drzewo decyzyjne
Hiperparametry drzewa decyzyjnego
Regulacja drzewa decyzyjnego
Weryfikacja cech kategorialnych
Losowy las decyzyjny
Prognozowanie
Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

Grupowanie według k-średnich
Wykrywanie anomalii w ruchu sieciowym
- Dane KDD Cup 1999
Pierwsza próba grupowania
Dobór wartości k
Wizualizacja w środowisku R
Normalizacja cech
Zmienne kategorialne
Wykorzystanie etykiet i wskaźnika entropii
Grupowanie w akcji
Dalsze kroki

6. Wikipedia, algorytmy LDA i Spark NLP

Algorytm LDA
- Algorytm LDA w interfejsie PySpark
Pobranie danych
Spark NLP
- Przygotowanie środowiska
Przekształcenie danych
Przygotowanie danych za pomocą biblioteki Spark NLP
Metoda TF-IDF
Wyliczenie wskaźników TF-IDF
Utworzenie modelu LDA
Dalsze kroki

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

Przygotowanie danych
- Konwersja ciągów znaków na znaczniki czasu
- Obsługa błędnych rekordów danych
Analiza danych geoprzestrzennych
- Wprowadzenie do formatu GeoJSON
- Biblioteka GeoPandas
Sesjonowanie w interfejsie PySpark
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
Dalsze kroki

8. Szacowanie ryzyka finansowego

Terminologia
Metody obliczania wskaźnika VaR
- Wariancja-kowariancja
- Symulacja historyczna
- Symulacja Monte Carlo
Nasz model
Pobranie danych
Przygotowanie danych
Określenie wag czynników
Losowanie prób
- Wielowymiarowy rozkład normalny
Wykonanie testów
Wizualizacja rozkładu zwrotów
Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

Rozdzielenie sposobów zapisu i modelowania danych
Przygotowanie pakietu ADAM
Przetwarzanie danych genomicznych za pomocą pakietu ADAM
- Konwersja formatów plików za pomocą poleceń pakietu ADAM
- Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
Dalsze kroki

10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH

PyTorch
- Instalacja
Przygotowanie danych
- Skalowanie obrazów za pomocą PyTorch
Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
- Osadzenie obrazów
- Import osadzeń obrazów do pakietu PySpark
Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
- Wyszukiwanie najbliższych sąsiadów
Dalsze kroki

11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow

Cykl uczenia maszynowego
Platforma MLflow
Śledzenie eksperymentów
Zarządzanie modelami uczenia maszynowego i udostępnianie ich
Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
Dalsze kroki

Kategoria:	Programowanie
Język:	Polski
Zabezpieczenie:	Watermark Watermark Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN:	978-83-8322-070-3
Rozmiar pliku:	5,2 MB
Użytkowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Drukowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.
Kopiowanie:	w granicach licencji Informacje na temat użytkowania Kopia przeznaczona jest wyłącznie do własnego użytku osobistego w granicach udzielonej licencji. Wszelkie prawa są zastrzeżone chyba, że właściciel praw autorskich udzieli wyraźnej licencji. Z wyjątkiem sytuacji dopuszczalnych przez prawo lub uzyskania zgody uprawnionego z tytułu praw autorskich, jakiekolwiek powielanie, montaż, wyświetlanie, wypożyczanie, publiczne pokazy czy inne rozpowszechnianie zawartości tej kopii lub jej fragmentów czy części jest bezwzględnie zabronione. Niniejsza kopia nie może być przedmiotem odsprzedaży czy dystrybucji i sprzedaży handlowej bez uzyskania odpowiedniej licencji udzielonej przez Virtualo sp. z o.o.

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark - ebook

Spis treści

BESTSELLERY