Cómo leer archivos CVS en Python con Pandas read_csv()

Índice

La función read_csv() de la Biblioteca Python Pandas es una de las funciones más utilizadas para cargar datos de archivos CSV y almacenarlos en formato DataFrame. Los archivos CSV (Comma-separated Values) son un formato ampliamente utilizado para almacenar datos tabulares porque son compatibles con muchos programas.

Hosting

Hosting de primera al mejor precio

3x más rápido, ahora un 60 % de ahorro
Alta disponibilidad >99.99 %
Solo en IONOS: hasta 500 GB incluidos

Sintaxis de Python Pandas `read_csv()`

La función pandas.read_csv() crea un DataFrame de Pandas basado en un archivo CSV. Puede aceptar una variedad de parámetros diferentes que especifican el comportamiento de la función. A continuación, abordaremos solo los argumentos más importantes y comúnmente necesarios. Si quieres verlos todos, encontrarás una lista completa en la página oficial de referencia de Pandas.

La sintaxis básica de la función es sencilla y se presenta de la siguiente manera:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Parámetros relevantes

A continuación, se presenta un resumen de los parámetros más importantes para la función pandas.read_csv():

Parámetro	Significado	Valor predeterminado
`filepath_or_buffer`	Es una string de Python (ruta del archivo) o un buffer de archivo como una URL
`sep`	Aquí se especifica el delimitador entre los valores	`,`
`header`	Indica qué fila se utiliza como encabezado	`infer` (primera fila)
`names`	Si se establece `header=None` puedes proporcionar una lista de Python de nombres de columnas con `names`
`index_col`	Especifica qué columna se utilizará como índice	`None`
`usecols`	Con este parámetro puedes seleccionar las columnas que deseas cargar en el DataFrame	`None`
`dtype`	Especifica el tipo de dato de las columnas	`None`

Instrucciones paso a paso para acceder a archivos CSV

Con la función pandas.read_csv() puedes transferir datos de archivos CSV a Python en solo unos pocos pasos.

En el siguiente ejemplo, trabajaremos con un archivo CSV que sigue el siguiente formato:

1,Juan Pérez,35,Madrid,50000
2,Ana Gómez,29,Barcelona,62000
3,Carlos Fernández,41,Valencia,58000
4,Luz Martínez,33,Sevilla,49000
5,Tomás Ruiz,28,Málaga,52000

Paso 1: importar Pandas

Primero, debes importar la biblioteca de Pandas en tu script de Python.

import pandas as pd

python

Paso 2: cargar el archivo CSV

Ahora puedes cargar tu archivo CSV utilizando la función Pandas read_csv() en Python. Para ello, simplemente pasa a la función la ruta del archivo. En el siguiente ejemplo de código, consideramos un archivo llamado datos.csv, que se encuentra en el mismo directorio que el script:

df = pd.read_csv('daten.csv')

python

Este código almacena el archivo en un objeto DataFrame llamado df, con el que ahora se puede trabajar. Pandas interpreta automáticamente la primera fila como encabezados de columna, a menos que se indique lo contrario.

Paso 3: mostrar el archivo CSV

Para asegurarte de que el archivo se ha cargado correctamente, es recomendable visualizar las primeras filas del DataFrame. Para esto, puedes utilizar la función DataFrame.head(). De forma predeterminada, muestra las primeras cinco filas del DataFrame. Así obtienes una visión rápida de la estructura de los datos:

print(df.head())

python

El resultado es el siguiente:

0   1         Juan Pérez     35     Madrid   50000
1   2          Ana Gómez     29  Barcelona   62000
2   3   Carlos Fernández     41   Valencia   58000
3   4       Luz Martínez     33    Sevilla   49000
4   5         Tomás Ruiz     28     Málaga   52000

Paso 4: cambiar nombres de columnas (opcional)

Si tu archivo CSV no tiene una fila de encabezado, puedes definir manualmente los nombres de las columnas:

df = pd.read_csv('daten.csv', header=None, names=['Columna1', 'Columna2', 'Columna3', 'Columna4', 'Columna5'])

python

En este ejemplo, las columnas se han nombrado manualmente como Columna1, Columna2, Columna3, Columna4 y Columna5. El código devuelve como resultado:

Columna1            Columna2  Columna3     Columna4  Columna5
0        1             Juan Pérez          35        Madrid      50000
1        2              Ana Gómez          29    Barcelona      62000
2        3     Carlos Fernández          41     Valencia      58000
3        4          Luz Martínez          33      Sevilla      49000
4        5             Tomás Ruiz          28        Málaga      52000

Nota

El archivo CSV utilizado como ejemplo no tiene muchos datos, por lo que es relativamente pequeño. Sin embargo, si ese no es el caso y tienes un archivo CSV muy grande, deberías leer el archivo en trozos para evitar problemas de memoria. Para esto, puedes utilizar el parámetro chunksize de pandas.read_csv(), que indica cuántas filas se deben leer por iteración. Puedes iterar sobre los trozos con un bucle for en Python.

Artículos Favoritos

Compraventa de dominios: cómo ganar dinero con las direcciones web

La compraventa de dominios puede convertirse en una actividad lucrativa, siempre que se…

Nextcloud alternatives: comparativa de cinco alternativas

¿Estás buscando alternativas a Nextcloud, pero quieres saber si están a la misma altura?…

Los mejores proveedores de copias de seguridad en la nube

¡Asegura tus datos de manera fiable en la nube! Tus datos estarán en buenas manos con…

Cómo actualizar Debian 13 paso a paso

Aprende cómo actualizar Debian 13 de forma segura y sin errores, desde la preparación del…

Alternativas a InDesign de Adobe gratuitas

¿Te sale muy caro usar InDesign para la maquetación y el diseño editorial? Descubre las…

Artículos similares

BEST-BACKGROUNDSShutterstock

Iterar sobre DataFrames con Pandas itterows()

Pandas DataFrame itterows() es una forma de iterar sobre las filas de un DataFrame de Pandas. Esta función se utiliza especialmente cuando se requiere un procesamiento fila por fila, por ejemplo, al realizar cálculos. En este artículo te enseñamos cómo trabajar con la función…

Python Pandas

Mr. Kosalshutterstock

Cómo utilizar Pandas DataFrame Index

La indexación de los DataFrames de Pandas es una herramienta fantástica para trabajar con datos de una forma más eficiente. Existen diferentes métodos con los que podrás acceder a datos y a subconjuntos específicos de tu DataFrame para manipularlos. Te explicamos qué es el índice…

Python Pandas

BEST-BACKGROUNDSShutterstock

Guía rápida sobre el método Pandas dropna()

El método DataFrame.dropna() de Pandas es una gran herramienta para limpiar conjuntos de datos eliminando los valores que faltan de forma eficiente. Es una herramienta muy flexible que puede utilizarse con varios parámetros, lo que permite a los programadores adaptar la limpieza…

Python Pandas

Mr. Kosalshutterstock

Guía rápida sobre el método Pandas any()

El método any() para DataFrames de Pandas es una herramienta muy útil para comprobar rápidamente si en un eje específico de un DataFrame existe al menos un valor True o verdadero. Esto resulta de gran utilidad para el análisis y la validación de datos. ¿Quieres saber cómo…

Python Pandas

ESB Professionalshutterstock

Pandas DataFrame: cómo manipular tablas en Python de manera sencilla

El módulo Pandas es una de las mejores herramientas para manipular datos en Python. Los DataFrames son una de las estructuras de datos centrales en Pandas y sirven para manipular datos bidimensionales estructurados de forma clara y eficiente. Te explicamos su estructura y…

Python Pandas

UndreyShutterstock

La función Pandas iloc() de Python

Cuando estés trabajando con DataFrames en la biblioteca Pandas de Python, es posible que no quieras incluir todas las filas o columnas de un DataFrame para realizar un análisis de los datos. Con la propiedad iloc[] de Pandas podrás seleccionar las filas o columnas que deseas…

Python Pandas

Cómo leer archivos CVS en Python con Pandas read_csv()

Sintaxis de Python Pandas read_csv()

Pa­rá­me­tros re­le­va­n­tes

In­s­tru­c­cio­nes paso a paso para acceder a archivos CSV

Paso 1: importar Pandas

Paso 2: cargar el archivo CSV

Paso 3: mostrar el archivo CSV

Paso 4: cambiar nombres de columnas (opcional)

Sintaxis de Python Pandas `read_csv()`

Parámetros relevantes

Instrucciones paso a paso para acceder a archivos CSV