La función DataFrame.mean() de la Biblioteca Python Pandas se utiliza para calcular el valor promedio a lo largo de uno o más ejes de un DataFrame. Pandas mean() es fundamental para el análisis de datos numéricos y puede proporcionar información muy valiosa sobre su distribución.

Hosting
El hosting como nunca lo habías visto
  • Rápido, seguro, flexible y escalable
  • Certificado SSL/DDoS incluido
  • Dominio y asesor personal incluidos

Sintaxis de Pandas DataFrame.mean()

La función Pandas-mean() acepta hasta tres parámetros y sigue una sintaxis básica sencilla:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Parámetros relevantes

Con la ayuda de varios parámetros, puedes ajustar el comportamiento de la función Pandas DataFrame.mean() para que se adapte a tus necesidades.

Parámetro Descripción Valor predeterminado
axis Determina si el cálculo se realiza a lo largo de las filas (axis=0) o de las columnas (axis=1) 0
skipna Si es True, se ignoran los valores NaN True
numeric_only Si es True, solo se incluyen los datos numéricos en el cálculo False

Aplicación de la función mean() de Pandas

Pandas DataFrame.mean() tiene diversas aplicaciones.

Calcular los valores promedio de cada columna

En los siguientes ejemplos, se utiliza un DataFrame de Pandas con los siguientes datos:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

El DataFrame resultante sería el siguiente:

A  B  C
0  1  4  7
1  2  5  8
2  3  6  9
3  4  7 10

Para calcular el valor promedio de cada columna, se puede usar la función Pandas mean() con el parámetro predeterminado axis=0:

column_means = df.mean()
print(column_means)
python

De esta manera, se calculan los valores promedio de cada columna (A, B y C) dividiendo la suma de los elementos por la cantidad de elementos en cada columna. Como resultado, se obtiene la siguiente Series de Pandas:

A    2.5
B    5.5
C    8.5
dtype: float64

Calcular los valores promedio de cada fila

Si en su lugar deseas calcular el valor promedio de cada fila, simplemente debes cambiar el parámetro axis a 1:

row_means = df.mean(axis=1)
print(row_means)
python

Los valores promedio de cada fila se calculan utilizando mean() de Pandas, dividiendo la suma de los elementos por la cantidad de elementos en cada fila. La llamada a la función genera el siguiente resultado:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Ignorar valores NaN

En el siguiente ejemplo, se utiliza un DataFrame diferente para que contenga algunos valores NaN:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

El código anterior genera el siguiente DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Para calcular el promedio teniendo en cuenta los valores NaN, se utiliza el parámetro skipna. El valor predeterminado es True, lo que significa que Pandas mean() ignora automáticamente los valores NaN. En cambio, si cambiáramos el valor predeterminado a skipna=False, el cálculo del promedio de cualquier columna que contenga al menos un valor NaN dará como resultado NaN para esa columna.

mean_with_nan = df.mean()
print(mean_with_nan)
python

La llamada a la función de mean() de Pandas genera:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
¿Le ha resultado útil este artículo?
Ir al menú principal