La función read_csv() de la Bi­blio­te­ca Python Pandas es una de las funciones más uti­li­za­das para cargar datos de archivos CSV y al­ma­ce­nar­los en formato DataFrame. Los archivos CSV (Comma-separated Values) son un formato am­plia­me­n­te utilizado para almacenar datos tabulares porque son co­m­pa­ti­bles con muchos programas.

Hosting
Hosting de primera al mejor precio
  • 3x más rápido, ahora un 60 % de ahorro
  • Alta di­s­po­ni­bi­li­dad >99.99 %
  • Solo en IONOS: hasta 500 GB incluidos

Sintaxis de Python Pandas read_csv()

La función pandas.read_csv() crea un DataFrame de Pandas basado en un archivo CSV. Puede aceptar una variedad de pa­rá­me­tros di­fe­re­n­tes que es­pe­ci­fi­can el co­m­po­r­ta­mie­n­to de la función. A co­n­ti­nua­ción, abo­r­da­re­mos solo los ar­gu­me­n­tos más im­po­r­ta­n­tes y co­mú­n­me­n­te ne­ce­sa­rios. Si quieres verlos todos, en­co­n­tra­rás una lista completa en la página oficial de re­fe­re­n­cia de Pandas.

La sintaxis básica de la función es sencilla y se presenta de la siguiente manera:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)
python

Pa­rá­me­tros re­le­va­n­tes

A co­n­ti­nua­ción, se presenta un resumen de los pa­rá­me­tros más im­po­r­ta­n­tes para la función pandas.read_csv():

Parámetro Si­g­ni­fi­ca­do Valor pre­de­te­r­mi­na­do
filepath_or_buffer Es una string de Python (ruta del archivo) o un buffer de archivo como una URL
sep Aquí se es­pe­ci­fi­ca el de­li­mi­ta­dor entre los valores ,
header Indica qué fila se utiliza como en­ca­be­za­do infer (primera fila)
names Si se establece header=None puedes pro­po­r­cio­nar una lista de Python de nombres de columnas con names
index_col Es­pe­ci­fi­ca qué columna se utilizará como índice None
usecols Con este parámetro puedes se­le­c­cio­nar las columnas que deseas cargar en el DataFrame None
dtype Es­pe­ci­fi­ca el tipo de dato de las columnas None

In­s­tru­c­cio­nes paso a paso para acceder a archivos CSV

Con la función pandas.read_csv() puedes tra­n­s­fe­rir datos de archivos CSV a Python en solo unos pocos pasos.

En el siguiente ejemplo, tra­ba­ja­re­mos con un archivo CSV que sigue el siguiente formato:

1,Juan Pérez,35,Madrid,50000
2,Ana Gómez,29,Barcelona,62000
3,Carlos Fernández,41,Valencia,58000
4,Luz Martínez,33,Sevilla,49000
5,Tomás Ruiz,28,Málaga,52000

Paso 1: importar Pandas

Primero, debes importar la bi­blio­te­ca de Pandas en tu script de Python.

import pandas as pd
python

Paso 2: cargar el archivo CSV

Ahora puedes cargar tu archivo CSV uti­li­za­n­do la función Pandas read_csv() en Python. Para ello, si­m­ple­me­n­te pasa a la función la ruta del archivo. En el siguiente ejemplo de código, co­n­si­de­ra­mos un archivo llamado datos.csv, que se encuentra en el mismo di­re­c­to­rio que el script:

df = pd.read_csv('daten.csv')
python

Este código almacena el archivo en un objeto DataFrame llamado df, con el que ahora se puede trabajar. Pandas in­te­r­pre­ta au­to­má­ti­ca­me­n­te la primera fila como en­ca­be­za­dos de columna, a menos que se indique lo contrario.

Paso 3: mostrar el archivo CSV

Para ase­gu­rar­te de que el archivo se ha cargado co­rre­c­ta­me­n­te, es re­co­me­n­da­ble vi­sua­li­zar las primeras filas del DataFrame. Para esto, puedes utilizar la función DataFrame.head(). De forma pre­de­te­r­mi­na­da, muestra las primeras cinco filas del DataFrame. Así obtienes una visión rápida de la es­tru­c­tu­ra de los datos:

print(df.head())
python

El resultado es el siguiente:

0   1         Juan Pérez     35     Madrid   50000
1   2          Ana Gómez     29  Barcelona   62000
2   3   Carlos Fernández     41   Valencia   58000
3   4       Luz Martínez     33    Sevilla   49000
4   5         Tomás Ruiz     28     Málaga   52000

Paso 4: cambiar nombres de columnas (opcional)

Si tu archivo CSV no tiene una fila de en­ca­be­za­do, puedes definir ma­nua­l­me­n­te los nombres de las columnas:

df = pd.read_csv('daten.csv', header=None, names=['Columna1', 'Columna2', 'Columna3', 'Columna4', 'Columna5'])
python

En este ejemplo, las columnas se han nombrado ma­nua­l­me­n­te como Columna1, Columna2, Columna3, Columna4 y Columna5. El código devuelve como resultado:

Columna1            Columna2  Columna3     Columna4  Columna5
0        1             Juan Pérez          35        Madrid      50000
1        2              Ana Gómez          29    Barcelona      62000
2        3     Carlos Fernández          41     Valencia      58000
3        4          Luz Martínez          33      Sevilla      49000
4        5             Tomás Ruiz          28        Málaga      52000
Nota

El archivo CSV utilizado como ejemplo no tiene muchos datos, por lo que es re­la­ti­va­me­n­te pequeño. Sin embargo, si ese no es el caso y tienes un archivo CSV muy grande, deberías leer el archivo en trozos para evitar problemas de memoria. Para esto, puedes utilizar el parámetro chunksize de pandas.read_csv(), que indica cuántas filas se deben leer por iteración. Puedes iterar sobre los trozos con un bucle for en Python.

Ir al menú principal