Guía rápida sobre el método Pandas describe()
La función DataFrame.describe()
de la Biblioteca Python Pandas sirve para generar un resumen estadístico de las columnas numéricas de un DataFrame. Dicho resumen incluye indicadores estadísticos clave como el promedio, desviación estándar, mínimo, máximo y varios cuantiles de los datos.
- Rápido, seguro, flexible y escalable
- Certificado SSL/DDoS incluido
- Dominio y asesor personal incluidos
Sintaxis de describe()
en Pandas
La sintaxis básica de la función describe()
en Pandas no es complicada y es la siguiente:
DataFrame.describe(percentiles=None, include=None, exclude=None)
pythonParámetros relevantes
Con la ayuda de algunos parámetros, podrás realizar ajustes en la salida de la función describe()
. Dichos parámetros son:
Parámetro | Descripción | Valor por defecto |
---|---|---|
percentiles
|
Enumera los cuantiles deseados que deben incluirse en la descripción | [.25, .5, .75]
|
include
|
Determina qué tipos de datos se deben incluir en la descripción. Los valores pueden ser numpy.number , numpy.object , all o None
|
None
|
exclude
|
Determina qué tipos de datos deben ser excluidos de la descripción. Los valores son análogos a los de include
|
None
|
Los cuantiles estadísticos son valores que dividen un conjunto de datos ordenados en segmentos de igual tamaño y muestran qué porcentaje de los puntos de datos se encuentra por debajo de ese umbral. Los cuantiles resultan muy útiles para comprender la distribución de los datos y pueden incluir, por ejemplo, la mediana (percentil 50), el percentil 25 y el percentil 75.
Uso de describe()
en Pandas
El método DataFrame.describe()
de Pandas se utiliza principalmente para obtener rápidamente los principales indicadores estadísticos de un conjunto de datos.
Ejemplo 1: Resumen estadístico de datos numéricos
En el siguiente ejemplo se analiza el DataFrame df
, que contiene una serie de datos de ventas:
import pandas as pd
import numpy as np
# Ejemplo de DataFrame con datos de ventas
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
pythonA continuación, podemos utilizar describe()
de Pandas para obtener un resumen estadístico de las columnas numéricas:
summary = df.describe()
print(summary)
pythonLa llamada a la función DataFrame.describe()
genera el siguiente resultado:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000
Estas cifras tienen el siguiente significado:
count
: cantidad de entradas no NaNmean
: promedio de los valores (también visible conDataFrame.mean()
)std
: desviación estándar de los valoresmin, 25%, 50%, 75%, max
: mínimo, percentil 25, mediana (percentil 50), percentil 75, máximo de los valores
Ejemplo 2: Ajuste de los cuantiles
Puedes ajustar la función DataFrame.describe()
de Pandas con los parámetros previamente descritos para incluir cuartiles específicos.
# Resumen estadístico con cuantiles ajustados
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
pythonA partir de los cuantiles que hemos elegido, es decir, 10 %, 50 % (mediana) y 90 %; la llamada a la función proporciona el siguiente resultado:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000