Guía rápida sobre el método Pandas describe()

Índice

La función DataFrame.describe() de la Biblioteca Python Pandas sirve para generar un resumen estadístico de las columnas numéricas de un DataFrame. Dicho resumen incluye indicadores estadísticos clave como el promedio, desviación estándar, mínimo, máximo y varios cuantiles de los datos.

Hosting

Hosting de primera al mejor precio

3x más rápido, ahora un 60 % de ahorro
Alta disponibilidad >99.99 %
Solo en IONOS: hasta 500 GB incluidos

Sintaxis de `describe()` en Pandas

La sintaxis básica de la función describe() en Pandas no es complicada y es la siguiente:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Parámetros relevantes

Con la ayuda de algunos parámetros, podrás realizar ajustes en la salida de la función describe(). Dichos parámetros son:

Parámetro	Descripción	Valor por defecto
`percentiles`	Enumera los cuantiles deseados que deben incluirse en la descripción	`[.25, .5, .75]`
`include`	Determina qué tipos de datos se deben incluir en la descripción. Los valores pueden ser `numpy.number`, `numpy.object`, `all` o `None`	`None`
`exclude`	Determina qué tipos de datos deben ser excluidos de la descripción. Los valores son análogos a los de `include`	`None`

Definición

Los cuantiles estadísticos son valores que dividen un conjunto de datos ordenados en segmentos de igual tamaño y muestran qué porcentaje de los puntos de datos se encuentra por debajo de ese umbral. Los cuantiles resultan muy útiles para comprender la distribución de los datos y pueden incluir, por ejemplo, la mediana (percentil 50), el percentil 25 y el percentil 75.

Uso de `describe()` en Pandas

El método DataFrame.describe() de Pandas se utiliza principalmente para obtener rápidamente los principales indicadores estadísticos de un conjunto de datos.

Ejemplo 1: Resumen estadístico de datos numéricos

En el siguiente ejemplo se analiza el DataFrame df, que contiene una serie de datos de ventas:

import pandas as pd
import numpy as np
# Ejemplo de DataFrame con datos de ventas
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

A continuación, podemos utilizar describe() de Pandas para obtener un resumen estadístico de las columnas numéricas:

summary = df.describe()
print(summary)

python

La llamada a la función DataFrame.describe() genera el siguiente resultado:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Estas cifras tienen el siguiente significado:

count: cantidad de entradas no NaN
mean: promedio de los valores (también visible con DataFrame.mean())
std: desviación estándar de los valores
min, 25%, 50%, 75%, max: mínimo, percentil 25, mediana (percentil 50), percentil 75, máximo de los valores

Ejemplo 2: Ajuste de los cuantiles

Puedes ajustar la función DataFrame.describe() de Pandas con los parámetros previamente descritos para incluir cuartiles específicos.

# Resumen estadístico con cuantiles ajustados
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

A partir de los cuantiles que hemos elegido, es decir, 10 %, 50 % (mediana) y 90 %; la llamada a la función proporciona el siguiente resultado:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Artículos Favoritos

Compraventa de dominios: cómo ganar dinero con las direcciones web

La compraventa de dominios puede convertirse en una actividad lucrativa, siempre que se…

Nextcloud alternatives: comparativa de cinco alternativas

¿Estás buscando alternativas a Nextcloud, pero quieres saber si están a la misma altura?…

Los mejores proveedores de copias de seguridad en la nube

¡Asegura tus datos de manera fiable en la nube! Tus datos estarán en buenas manos con…

Cómo actualizar Debian 13 paso a paso

Aprende cómo actualizar Debian 13 de forma segura y sin errores, desde la preparación del…

Alternativas a InDesign de Adobe gratuitas

¿Te sale muy caro usar InDesign para la maquetación y el diseño editorial? Descubre las…

Artículos similares

OhSuratShutterstock

Cómo leer archivos CVS en Python con Pandas read_csv()

Python Pandas read_csv() es una función excelente para acceder de manera rápida y eficiente al contenido de archivos CSV en Python. La función es flexible y ofrece numerosos parámetros para adaptar el proceso de carga a tus necesidades. Comprender cómo funciona Pandas read_csv()…

Python Pandas

Mr. Kosalshutterstock

Cómo utilizar Pandas DataFrame Index

La indexación de los DataFrames de Pandas es una herramienta fantástica para trabajar con datos de una forma más eficiente. Existen diferentes métodos con los que podrás acceder a datos y a subconjuntos específicos de tu DataFrame para manipularlos. Te explicamos qué es el índice…

Python Pandas

BEST-BACKGROUNDSShutterstock

Guía rápida sobre el método Pandas dropna()

El método DataFrame.dropna() de Pandas es una gran herramienta para limpiar conjuntos de datos eliminando los valores que faltan de forma eficiente. Es una herramienta muy flexible que puede utilizarse con varios parámetros, lo que permite a los programadores adaptar la limpieza…

Python Pandas

ESB Professionalshutterstock

Pandas DataFrame: cómo manipular tablas en Python de manera sencilla

El módulo Pandas es una de las mejores herramientas para manipular datos en Python. Los DataFrames son una de las estructuras de datos centrales en Pandas y sirven para manipular datos bidimensionales estructurados de forma clara y eficiente. Te explicamos su estructura y…

Python Pandas

BEST-BACKGROUNDSShutterstock

Iterar sobre DataFrames con Pandas itterows()

Pandas DataFrame itterows() es una forma de iterar sobre las filas de un DataFrame de Pandas. Esta función se utiliza especialmente cuando se requiere un procesamiento fila por fila, por ejemplo, al realizar cálculos. En este artículo te enseñamos cómo trabajar con la función…

Python Pandas

UndreyShutterstock

La función Pandas iloc() de Python

Cuando estés trabajando con DataFrames en la biblioteca Pandas de Python, es posible que no quieras incluir todas las filas o columnas de un DataFrame para realizar un análisis de los datos. Con la propiedad iloc[] de Pandas podrás seleccionar las filas o columnas que deseas…

Python Pandas

Guía rápida sobre el método Pandas describe()

Sintaxis de describe() en Pandas

Pa­rá­me­tros re­le­va­n­tes

Uso de describe() en Pandas

Ejemplo 1: Resumen es­ta­dí­s­ti­co de datos numéricos

Ejemplo 2: Ajuste de los cuantiles

Sintaxis de `describe()` en Pandas

Parámetros relevantes

Uso de `describe()` en Pandas

Ejemplo 1: Resumen estadístico de datos numéricos