Loading...

Python: Manipulação de Dados com Pandas e PySpark

Pandas é uma biblioteca Python de código aberto usada para manipulação e análise de dados. O Pandas é construído em cima do pacote NumPy, portanto, é preciso muita inspiração básica dele. As duas estruturas de dados primárias são Series , que é unidimensional e DataFrame, que é bidimensional.

PySpark é uma API Python para Apache Spark para processar conjuntos de dados maiores em um cluster distribuído. Ele é escrito em Python para executar um aplicativo Python usando os recursos do Apache Spark.

Neste curso, você aprenderá os fundamentos destas duas tecnologias, bem como ferramentas de visualização de dados.

O que você irá aprender?

  • Manipular dados com a biblioteca Pandas;
  • Conhecer os ambientes de produção Apache Spark e Hadoop;
  • Tratar dados com a biblioteca PySpark;
  • Realizar processos de ETL (Extract, Transform e Load) usando Pandas e PySpark.

Detalhes do curso

1

Introdução a manipulação de dados com Pandas

Introdução

Séries

DataFrame

Questionário

2

Data Frames com Pandas

Exibição de dados

Importando CSV

Manipulação de dados

Importando JSON

Questionário

3

Introdução a manipulação de dados com PySpark

Hadoop

Apache Spark

PySpark

Configuração do ambiente Windows

Configurações de ambiente Linux

4

Manipulação de dados com PySpark

Introdução, montando RDD

Listagem de dados

Abordando colunas

Alterando tipos de dados

Consultas Simples

Consultas por condições

Definição de Schema

Operações e consultas com DF JSON

Manipulação de dados com SQL

Exercício de Treino

5

Introdução a visualização de dados

Introdução a data visualization com Python

Data visualization com Pandas

Data visuazliation com Seaborn

Data visualization com Matplotlib – Gráfico de barras

Data visualization com Matplotlib – Gráfico de histograma

Data visualization com Matplotlib – Gráfico de linha

Data visualization com Matplotlib – Gráfico de scatter

Data visualization com Plotly

Exercício de treino

6

Processo de ETL

Introdução

Extract

Transform

Load

Exercício de Treino

Top