En este tutorial, aprenderemos a utilizar la biblioteca pandas en Python para manipular y analizar datos tabulares. Exploraremos las funciones esenciales de pandas para cargar, explorar y procesar datos en formato de tabla.
1. Instalación de Pandas
Antes de comenzar, asegúrate de tener pandas instalado en tu entorno de desarrollo:
pip install pandas
2. Carga de Datos
Comenzaremos cargando un conjunto de datos. Pandas puede manejar diversos formatos, pero usaremos un archivo CSV como ejemplo:python
import pandas as pd # Cargar datos desde un archivo CSV datos = pd.read_csv('datos_tabla.csv') # Visualizar las primeras filas del DataFrame print(datos.head())
En este código, datos_tabla.csv es el archivo CSV que contiene tus datos. Ajusta el nombre del archivo según tu caso.
3. Exploración de Datos
Pandas ofrece funciones poderosas para explorar tus datos:python
# Información del DataFrame print(datos.info()) # Estadísticas descriptivas print(datos.describe()) # Filtrar datos filtro = datos['Edad'] > 25 datos_filtrados = datos[filtro] # Conteo de valores únicos conteo_categorias = datos['Categoria'].value_counts()
Estas operaciones te permiten obtener una visión general de tus datos, filtrar información y entender la distribución de categorías.
4. Manipulación de Datos
Pandas facilita la manipulación de datos:python
# Agregar una nueva columna datos['Ingreso Total'] = datos['Ingresos'] + datos['Otros Ingresos'] # Eliminar una columna datos = datos.drop('Otros Ingresos', axis=1) # Agrupar y resumir datos resumen_categorias = datos.groupby('Categoria')['Ingresos'].mean()
Estas operaciones te permiten realizar cálculos sobre columnas, eliminar datos no deseados y resumir información mediante agrupaciones.
5. Visualización de Datos
Pandas se integra con matplotlib para visualizar datos de manera efectiva:
import matplotlib.pyplot as plt # Gráfico de barras datos['Categoria'].value_counts().plot(kind='bar') plt.title('Distribución de Categorías') plt.xlabel('Categoría') plt.ylabel('Frecuencia') plt.show()
Este código crea un gráfico de barras que muestra la distribución de categorías en tus datos.
En este tutorial, exploramos las funcionalidades básicas de pandas para manipular datos tabulares en Python. Aprendiste a cargar datos, explorarlos, realizar manipulaciones y visualizar información de manera efectiva.
Pandas es una herramienta esencial para cualquier análisis de datos en Python, y este tutorial te proporciona los fundamentos necesarios para comenzar a trabajar con conjuntos de datos tabulares.