Cómo crear y utilizar strings en R

Las strings o cadenas son una estructura de datos fundamental en R. Se utilizan para mostrar secuencias de caracteres y letras individuales. A diferencia de otros lenguajes de programación, R no tiene un tipo de datos llamado “string”. En su lugar, este tipo de datos de R se denomina “character”.

¿Qué son las strings en R?

Las strings o cadenas son un estándar en los lenguajes de programación y una estructura de datos con la que todos los programadores experimentados están familiarizados. Si estás empezando a aprender a programar, es importante que entiendas qué es una cadena.

Las strings no son más que secuencias de caracteres. Las strings se utilizan habitualmente para almacenar y procesar datos no numéricos en los programas. Al igual que en otros lenguajes de programación, las cadenas también van entre comillas simples o dobles al escribir código en R.

Cómo crear una string en R

Puedes crear una string en R con solo una línea de código. Tanto las comillas simples como las dobles pueden utilizarse para crear strings, así que la elección depende de ti:


string1 <- "Hello world!"
# String with single quotation marks
string2 <- 'Hello world!'
R

Cómo utilizar las funciones y operaciones de strings en R

R proporciona a los programadores un conjunto de funciones básicas para que el trabajo con strings sea eficiente. Se pueden utilizar para realizar diversas operaciones tanto en cadenas como en combinación con las mismas. Hemos recopilado aquí una lista de las operaciones con strings más importantes en R:

  • substr(): extrae una parte de una string
  • paste(): concatena strings
  • tolower() / toupper(): convierte todas las letras de una string a minúsculas o mayúsculas
  • strsplit(): divide una string en un punto especificado
  • trimws(): elimina espacios en blanco al principio y al final de una string
  • gsub(): reemplaza patrones en una string por otros caracteres
  • nchar(): calcula la longitud de una string

Si ya has trabajado con otros lenguajes de programación, probablemente ya te hayas encontrado con funciones como las anteriores. Las strings en Python, por ejemplo, también pueden manipularse con operaciones en Python equivalentes a las anteriores.

substr()

Puedes utilizar la función substr() para extraer subcadenas de tus strings en R. Para ello, pasa tu cadena a la función como primer parámetro. Como segundo y tercer parámetro, especifica los índices inicial y final de la subcadena que quieres extraer. Recuerda que, a diferencia de muchos otros lenguajes de programación, las strings en R se indexan empezando por 1 y no por 0.

string <- "Hello World"
print(substr(string, start=7, stop=11))
R

El ejemplo anterior da como resultado World.

paste()

La función paste() se utiliza en R para unir dos o más strings. Esto se conoce como concatenación. Ten en cuenta que el símbolo + no se puede utilizar para concatenar strings. El operador R + solo está pensado para tipos de datos numéricos.

string <- "Hello"
string2 <- "World"
print(paste(string+ string2))
R

Cuando se ejecuta paste(), la cadena y la cadena 2 se concatenan, dando como resultado el texto Hello World.

tolower() / toupper()

Con tolower() y toupper(), puedes cambiar todas las letras de tu cadena a mayúsculas o minúsculas. Para ambas funciones de string en R, tendrás que utilizar como parámetro la cadena que quieras cambiar. La función te proporcionará entonces una nueva cadena en la que todas las letras estarán escritas en minúsculas o en mayúsculas.

string <- "Hello World"
print(tolower(string))
print(toupper(string))
R

El código anterior mostrará hello world y HELLO WORLD en tu pantalla. Estas dos funciones de strings en R son especialmente útiles para gestionar datos que deben procesarse distinguiendo entre mayúsculas y minúsculas.

strsplit()

La función strsplit() de R puede resultar familiar a los programadores experimentados. Por ejemplo, Python también tiene una función llamada split(). Para la función de strings en R strsplit(), tus parámetros serán la cadena que quieras separar en subcadenas y un delimitador, que determinará dónde debe dividirse la cadena. Cuando se llama a la función, esta devuelve una lista de las subcadenas que se han creado, aunque solo haya una.

string <- "Hello World"
print(strsplit(string, " "))
R

El código produce el siguiente resultado:

[[1]]
[1] "Hello" "World"

El resultado es una lista con dos strings: "Hello" y "World". En este ejemplo, el espacio en blanco entre las dos palabras se ha utilizado como delimitador.

trimws()

Con la función trimws() puedes eliminar los espacios en blanco no deseados del principio y el final de tu string en R. Esto puede ser especialmente útil al procesar entradas de usuarios que hayan introducido involuntariamente espacios en blanco al rellenar un formulario.

string <- "   Hello World   "
print(trimws(string))
R

El código anterior mostrará Hello World sin espacios en blanco al principio o al final de la cadena.

gsub()

Otra operación de strings en R es la función gsub(). En esta función, el primer parámetro es la subcadena que quieres sustituir. El segundo parámetro es la cadena por la que quieres sustituir la subcadena del primer parámetro. El tercer parámetro especifica a qué cadena debe aplicarse la sustitución.

string <- "Hello World"
print(gsub("World", "User", string))
R

En lugar de saludar a todo el mundo, el código emite un texto que solo se dirige a un único usuario: Hello User.

nchar()

Una de las funciones incorporadas más importantes para strings es nchar(), que te dice cuál es la longitud de una string en R.

string <- "Hello World"
print(nchar(string))
R

El comando R length() puede causar confusión al principio. Sin embargo, la función length() de R se utiliza para determinar el número de elementos de un objeto y no el número de caracteres de una cadena de R. Para determinar la longitud de una string en R, asegúrate de utilizar nchar().

Consejo

Pon en línea tus proyectos de programación con hosting con espacio ilimitado de IONOS. El alojamiento de espacio web incluye un dominio gratuito durante el primer año y una garantía de devolución del dinero de 30 días.

¿Qué son los caracteres de control y las secuencias de escape?

Puedes utilizar caracteres de control para controlar la disposición del texto de tus strings en R. Los caracteres de control son secuencias de escape predefinidas que pueden utilizarse para dar formato a las salidas de texto. Por ejemplo, con caracteres de control, puedes implementar saltos de línea o tabuladores.

Los caracteres especiales como las comillas, que normalmente se interpretarían como el principio o el final de una cadena en la sintaxis de R, también se pueden mostrar en strings utilizando una secuencia de escape. Las secuencias de escape comienzan con una barra invertida en R. Estas son las más importantes:

  • \n: nueva línea/salto de línea
  • \t: tabulador
  • \: barra invertida
  • ": comillas dobles
  • ': comillas simples