Cómo utilizar el método Pandas groupby()

Índice

La función DataFrame.groupby() de la Biblioteca Python Pandas se utiliza para agrupar datos según criterios específicos, así como para realizar diferentes agregaciones y transformaciones en dichos grupos.

Hosting

Hosting de primera al mejor precio

3x más rápido, ahora un 60 % de ahorro
Alta disponibilidad >99.99 %
Solo en IONOS: hasta 500 GB incluidos

Sintaxis de la función `DataFrame.groupby()` de Pandas

La función groupby() acepta hasta cinco parámetros y su sintaxis es la siguiente:

DataFrame.groupby(by=None, level=None, as_index=True, sort=True, group_keys=True, dropna=True)

python

Parámetros relevantes

Parámetro	Descripción	Valor por defecto
`by`	Clave o lista de claves según las cuales se agruparán los datos. No puede combinarse con `level`	`None`
`level`	Se utiliza cuando se trabaja con Multi-índices para especificar uno o más niveles, de manera que la agrupación se realice según los niveles especificados	`None`
`as_index`	Si es `True`, las claves de agrupación se establecen como el índice del DataFrame resultante	`True`
`group_keys`	Si es `True`, las claves de agrupación se incluyen en los índices de los grupos	`True`
`dropna`	Define si se deben excluir los grupos con valores NaN	`True`

Uso de la función `DataFrame.grouby()` de Pandas

La función groupyby() de Pandas resulta especialmente útil para identificar patrones o anomalías cuando se desea analizar y resumir grandes volúmenes de datos.

Agrupar y agregar

A continuación, analizamos un conjunto de datos de venta de varios productos en el que se incluye información sobre la fecha de venta, el producto vendido y la cantidad que se ha vendido:

import pandas as pd
# Ejemplo de reporte de ventas
data = {
    'Fecha': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Producto': ['A', 'B', 'A', 'B', 'A'],
    'Cantidad': [10, 20, 15, 25, 10]
}
df = pd.DataFrame(data)
print(df)

python

El aspecto del DataFrame resultante es el siguiente:

Fecha  Producto  Cantidad
0  2021-01-01       A     10
1  2021-01-01       B     20
2  2021-01-02       A     15
3  2021-01-02       B     25
4  2021-01-03       A     10

En el siguiente paso, se utiliza la función groupby() de Pandas para agrupar los datos por producto. Después, se calcula la cantidad vendida de cada producto utilizando la función sum():

# Agrupar por producto y calcular la suma de las cantidades vendidas
suma = df.groupby('Producto')['Cantidad'].sum()
print(suma)

El siguiente resultado indica el total de unidades vendidas de cada producto:

Producto
A    35
B    45
Name: Cantidad, dtype: int64

Agregaciones múltiples

En el siguiente ejemplo se utiliza un conjunto de datos similar al anterior, pero más amplio, que también incluye la columna de ingresos:

data = {
    'Fecha': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02', '2021-01-03'],
    'Producto': ['A', 'B', 'A', 'B', 'A'],
    'Cantidad': [10, 20, 15, 25, 10],
    'Ingresos': [100, 200, 150, 250, 100]
}
df = pd.DataFrame(data)
print(df)

python

Se genera el siguiente DataFrame:

Fecha Producto  Cantidad  Ingresos
0  2021-01-01       A     10     100
1  2021-01-01       B     20     200
2  2021-01-02       A     15     150
3  2021-01-02       B     25     250
4  2021-01-03       A     10     100

Se utiliza DataFrame.groupby() de Pandas para volver a agrupar los datos por producto. Después, se utiliza la función agg() para agregar los datos calculando la suma total de las cantidades vendidas, los ingresos totales y el ingreso promedio de cada producto.

# Agrupar por producto y aplicar agregaciones múltiples
grupos = df.groupby('Producto').agg({
    'Cantidad': 'sum',
    'Ingresos': ['sum', 'mean']
})
print(grupos)

El resultado sería el siguiente:

Cantidad    Ingresos        
      sum    sum    mean
Producto             
A      35    350  116.666667
B      45    450  225.000000

Artículos Favoritos

Compraventa de dominios: cómo ganar dinero con las direcciones web

La compraventa de dominios puede convertirse en una actividad lucrativa, siempre que se…

Nextcloud alternatives: comparativa de cinco alternativas

¿Estás buscando alternativas a Nextcloud, pero quieres saber si están a la misma altura?…

Los mejores proveedores de copias de seguridad en la nube

¡Asegura tus datos de manera fiable en la nube! Tus datos estarán en buenas manos con…

Cómo actualizar Debian 13 paso a paso

Aprende cómo actualizar Debian 13 de forma segura y sin errores, desde la preparación del…

Alternativas a InDesign de Adobe gratuitas

¿Te sale muy caro usar InDesign para la maquetación y el diseño editorial? Descubre las…

Artículos similares

UndreyShutterstock

Obtener valores únicos con Pandas unique()

La función Pandas DataFrame unique() se puede utilizar para identificar rápidamente los valores únicos de una columna en un DataFrame, algo muy útil para encontrar duplicados. Esta función facilita el manejo eficiente de grandes conjuntos de datos porque devuelve directamente un…

Python Pandas

Gorodenkoffshutterstock

Aplicar condiciones en DataFrames con Pandas DataFrame.where()

Con Pandas DataFrame.where() puedes realizar manipulaciones condicionales de datos en DataFrames de Pandas. Esta función te permite establecer condiciones que deciden qué valores se mantienen y cuáles se reemplazan. Es una solución eficiente para limpiar, extraer o transformar…

Python Pandas

GaudiLabShutterstock

Seleccionar datos de DataFrames con Pandas loc[]

La propiedad loc[] de Pandas te permite extraer datos basados en etiquetas. Resulta especialmente útil cuando trabajas con datos donde la posición de las filas y columnas no siempre es predecible. En este artículo, aprenderás a utilizar Pandas Dataframe loc[] y en qué se…

Python Pandas

ra2 studioShutterstock

Pandas Tables: formatear DataFrames como tablas

Mostrar un DataFrame de Pandas (Python) como tabla es una tarea esencial que se puede conseguir de muchas maneras, dependiendo de los requisitos. Ya sea una salida simple en consola, una tabla HTML formateada o una visualización en formatos estándar, existen diversas formas de…

Python Pandas

Ranjit Karmakarshutterstock

Guía rápida sobre el método Pandas describe()

El método DataFrame.describe() de Pandas nos permite generar un resumen estadístico completo de los datos numéricos en un DataFrame de forma rápida. Ofrece la posibilidad de ajustar los cuantiles y especificar tipos de datos, lo que lo convierte en un método extremadamente…

Python Pandas

OhSuratShutterstock

Cómo leer archivos CVS en Python con Pandas read_csv()

Python Pandas read_csv() es una función excelente para acceder de manera rápida y eficiente al contenido de archivos CSV en Python. La función es flexible y ofrece numerosos parámetros para adaptar el proceso de carga a tus necesidades. Comprender cómo funciona Pandas read_csv()…

Python Pandas

Cómo utilizar el método Pandas groupby()

Sintaxis de la función DataFrame.groupby() de Pandas

Pa­rá­me­tros re­le­va­n­tes

Uso de la función DataFrame.grouby() de Pandas

Agrupar y agregar

Agre­ga­cio­nes múltiples

Sintaxis de la función `DataFrame.groupby()` de Pandas

Parámetros relevantes

Uso de la función `DataFrame.grouby()` de Pandas

Agregaciones múltiples