En el semi-su­pe­r­vi­sed learning o apre­n­di­za­je se­mi­su­pe­r­vi­sa­do, un modelo se entrena tanto con datos eti­que­ta­dos como no eti­que­ta­dos. El algoritmo aprende a ide­n­ti­fi­car patrones en las in­s­ta­n­cias de datos sin una variable objetivo conocida, uti­li­za­n­do un pequeño conjunto de datos eti­que­ta­dos, lo que conduce a una formación del modelo más precisa y eficiente.

¿Qué significa semi-su­pe­r­vi­sed learning?

El semi-su­pe­r­vi­sed learning, o apre­n­di­za­je se­mi­su­pe­r­vi­sa­do en español, es un enfoque híbrido del apre­n­di­za­je au­to­má­ti­co que combina los puntos fuertes del apre­n­di­za­je su­pe­r­vi­sa­do o su­pe­r­vi­sed learning con los del apre­n­di­za­je no su­pe­r­vi­sa­do o un­su­pe­r­vi­sed learning. En este método, se utiliza una pequeña cantidad de datos eti­que­ta­dos junto con una gran cantidad de datos sin etiquetar para entrenar modelos de IA. Esto permite que el algoritmo reconozca patrones en los conjuntos de datos no eti­que­ta­dos, re­s­pa­l­da­dos por los datos eti­que­ta­dos. Gracias a este proceso de apre­n­di­za­je combinado, el modelo comprende mejor la es­tru­c­tu­ra de los datos no eti­que­ta­dos, lo que da lugar a pre­di­c­cio­nes más precisas.

He­rra­mie­n­tas de IA
Saca el máximo partido a la in­te­li­ge­n­cia ar­ti­fi­cial
  • Crea tu página web en tiempo récord
  • Impulsa tu negocio gracias al marketing de IA
  • Ahorra tiempo y obtén mejores re­su­l­ta­dos

Premisas del semi-su­pe­r­vi­sed learning

Los al­go­ri­t­mos diseñados para el semi-su­pe­r­vi­sed learning se basan en varias premisas básicas sobre el material de datos:

  • Pre­su­n­ción de co­n­ti­nui­dad: los puntos que están más cerca entre sí tienen más pro­ba­bi­li­da­des de compartir la misma etiqueta de salida.
  • Supuesto de clusters: los datos se pueden dividir en clusters discretos, y los puntos dentro del mismo cluster tienen más pro­ba­bi­li­da­des de tener la misma etiqueta de salida.
  • Su­po­si­ción de variedad: los datos se en­cue­n­tran apro­xi­ma­da­me­n­te en un colector (conjunto de puntos co­ne­c­ta­dos entre sí) que tiene una dimensión menor que el espacio de entrada. Partiendo de esta premisa, es posible utilizar di­s­ta­n­cias y de­n­si­da­des.

¿En qué se di­fe­re­n­cia de su­pe­r­vi­sed learning y un­su­pe­r­vi­sed learning?

Tanto el su­pe­r­vi­sed y un­su­pe­r­vi­sed learning como el semi-su­pe­r­vi­sed learning son enfoques básicos en machine learning. Sin embargo, cada uno de los métodos de apre­n­di­za­je utiliza su propio enfoque para entrenar modelos de IA. El siguiente resumen muestra en qué se di­fe­re­n­cia el apre­n­di­za­je se­mi­su­pe­r­vi­sa­do de los métodos tra­di­cio­na­les:

  • El su­pe­r­vi­sed learning, también conocido como apre­n­di­za­je su­pe­r­vi­sa­do, se ca­ra­c­te­ri­za por el hecho de que solo se utilizan datos eti­que­ta­dos. Esto significa que cada ejemplo de datos tiene una variable objetivo o solución conocida que el algoritmo debe predecir. Este método de apre­n­di­za­je au­to­má­ti­co se considera muy preciso, pero requiere grandes ca­n­ti­da­des de datos eti­que­ta­dos y su obtención suele ser cara y lenta.
  • El un­su­pe­r­vi­sed learning, conocido en español como apre­n­di­za­je no su­pe­r­vi­sa­do, trabaja ex­clu­si­va­me­n­te con datos no es­tru­c­tu­ra­dos. El algoritmo intenta ide­n­ti­fi­car patrones o es­tru­c­tu­ras en los datos sin recibir una solución. El apre­n­di­za­je no su­pe­r­vi­sa­do es adecuado cuando no se dispone de datos eti­que­ta­dos, pero su precisión y capacidad pre­di­c­ti­va pueden verse limitados por la falta de puntos de re­fe­re­n­cia externos.
  • El semi-su­pe­r­vi­sed learning o apre­n­di­za­je se­mi­su­pe­r­vi­sa­do combina ambos enfoques uti­li­za­n­do una pequeña cantidad de datos eti­que­ta­dos para co­m­pre­n­der la es­tru­c­tu­ra de un gran conjunto de datos no eti­que­ta­dos. Las técnicas de apre­n­di­za­je se­mi­su­pe­r­vi­sa­do modifican un algoritmo su­pe­r­vi­sa­do para integrar datos no eti­que­ta­dos en el modelo. Esto permite obtener pre­di­c­cio­nes de gran precisión con un escaso esfuerzo de eti­que­ta­do.

Las di­fe­re­n­cias entre los distintos métodos de apre­n­di­za­je au­to­má­ti­co pueden ilu­s­trar­se aún mejor con la ayuda de un ejemplo práctico. Teniendo en cuenta a los alumnos de un colegio, es posible encontrar la siguiente analogía: el apre­n­di­za­je su­pe­r­vi­sa­do se daría cuando los alumnos están bajo su­pe­r­vi­sión tanto en el colegio como en casa. Si a los niños se les pide que aprendan y adquieran co­no­ci­mie­n­tos por su cuenta, se trataría de un apre­n­di­za­je no su­pe­r­vi­sa­do. Por el contrario, si se explica un concepto en clase y después los alumnos lo deben reforzar con deberes, se trataría de un apre­n­di­za­je se­mi­su­pe­r­vi­sa­do.

Nota

En el artículo “¿Qué es la IA ge­ne­ra­ti­va?” en nuestra Digital Guide, ex­pli­ca­mos en detalle en qué consiste este concepto.

¿Cómo funciona el semi-su­pe­r­vi­sed learning?

El apre­n­di­za­je se­mi­su­pe­r­vi­sa­do es un proceso de varias etapas que incluye los si­guie­n­tes pasos:

  1. De­fi­ni­ción del objetivo o problema: en primer lugar, es necesario definir cla­ra­me­n­te los objetivos o la finalidad del modelo de machine learning. Aquí se trata de de­te­r­mi­nar qué op­ti­mi­za­cio­nes deben lograrse mediante el apre­n­di­za­je au­to­má­ti­co.
  2. Eti­que­ta­do de datos: algunos de los datos no es­tru­c­tu­ra­dos se etiquetan para orientar al algoritmo de apre­n­di­za­je. Para que el apre­n­di­za­je se­mi­su­pe­r­vi­sa­do funcione, es necesario utilizar datos re­le­va­n­tes para el en­tre­na­mie­n­to del modelo. Por ejemplo, si un cla­si­fi­ca­dor de imágenes se entrena para di­fe­re­n­ciar entre perros y gatos, el en­tre­na­mie­n­to de imágenes con coches y trenes no será eficaz.
  3. En­tre­na­mie­n­to del modelo: en el siguiente paso, los datos es­tru­c­tu­ra­dos se utilizan para enseñar al modelo cuál es su tarea y qué re­su­l­ta­dos se desean obtener.
  4. En­tre­na­mie­n­to con datos no eti­que­ta­dos: una vez que el modelo ha pra­c­ti­ca­do con los datos de en­tre­na­mie­n­to, se integran los datos no eti­que­ta­dos.
  5. Eva­lua­ción y pe­r­fe­c­cio­na­mie­n­to del modelo: la eva­lua­ción y los ajustes del modelo son ese­n­cia­les para ga­ra­n­ti­zar que el modelo creado funciona co­rre­c­ta­me­n­te. El en­tre­na­mie­n­to co­n­tri­bu­ye a una mejora continua. El proceso se repite hasta que el algoritmo alcanza la calidad de re­su­l­ta­dos deseada.
Imagen: Diagrama del semi-supervised learning
El diagrama muestra un ejemplo sencillo de cómo funciona el semi-su­pe­r­vi­sed learning: el modelo de IA hace la pre­di­c­ción correcta basándose en los datos ya eti­que­ta­dos.

¿Cuáles son las ventajas del semi-su­pe­r­vi­sed learning?

El semi-su­pe­r­vi­sed learning es es­pe­cia­l­me­n­te útil cuando se dispone de muchos datos sin etiquetar y resulta demasiado caro o difícil etiquetar todos o la mayoría de los datos. Esto es im­po­r­ta­n­te porque el en­tre­na­mie­n­to de modelos de IA requiere tra­di­cio­na­l­me­n­te una gran cantidad de datos eti­que­ta­dos para pro­po­r­cio­nar el contexto necesario. Se necesitan cientos o incluso miles de imágenes de en­tre­na­mie­n­to eti­que­ta­das para que un modelo de cla­si­fi­ca­ción de imágenes pueda di­s­ti­n­guir entre dos objetos: una mesa y una silla, por ejemplo. Además, en casos como en el eti­que­ta­do de datos en el campo de la se­cue­n­cia­ción genética se requieren co­no­ci­mie­n­tos es­pe­cí­fi­cos.

Con el apre­n­di­za­je se­mi­su­pe­r­vi­sa­do se puede alcanzar un alto nivel de precisión a pesar de que el número de conjuntos de datos eti­que­ta­dos sea bajo, ya que los conjuntos de datos eti­que­ta­dos mejoran los conjuntos de datos no eti­que­ta­dos. Los datos es­tru­c­tu­ra­dos actúan como ayuda inicial, lo que aumenta si­g­ni­fi­ca­ti­va­me­n­te la velocidad de apre­n­di­za­je y la precisión en el mejor de los casos. De este modo, este enfoque permite sacar el máximo partido de una cantidad limitada de datos eti­que­ta­dos al tiempo que se utiliza una gran cantidad de datos no eti­que­ta­dos, lo que co­n­tri­bu­ye a una mayor re­n­ta­bi­li­dad.

Nota

Por supuesto, el apre­n­di­za­je se­mi­su­pe­r­vi­sa­do también presenta desafíos y li­mi­ta­cio­nes. Por ejemplo, si los datos eti­que­ta­dos ini­cia­l­me­n­te son in­co­rre­c­tos, esto puede llevar a co­n­clu­sio­nes erróneas y afectar ne­ga­ti­va­me­n­te a la calidad del modelo. Además, el modelo puede sesgarse rá­pi­da­me­n­te si los datos eti­que­ta­dos y no eti­que­ta­dos no son re­pre­se­n­ta­ti­vos de la di­s­tri­bu­ción general.

¿Cuáles son los ámbitos de apli­ca­ción más im­po­r­ta­n­tes del semi-su­pe­r­vi­sed learning?

El apre­n­di­za­je se­mi­su­pe­r­vi­sa­do se utiliza ac­tua­l­me­n­te en diversos contextos, pero las tareas de cla­si­fi­ca­ción siguen siendo la apli­ca­ción clásica. A co­n­ti­nua­ción, se resumen los ámbitos de apli­ca­ción más im­po­r­ta­n­tes:

  • Cla­si­fi­ca­ción de co­n­te­ni­dos web: los motores de búsqueda como Google utilizan el apre­n­di­za­je se­mi­su­pe­r­vi­sa­do para evaluar la re­le­va­n­cia de las páginas web para consultas de búsqueda de­te­r­mi­na­das.
  • Cla­si­fi­ca­ción de textos e imágenes: el objetivo es cla­si­fi­car un texto o unas imágenes en una o varias ca­te­go­rías pre­de­fi­ni­das. El apre­n­di­za­je se­mi­su­pe­r­vi­sa­do es muy adecuado para esta tarea, ya que hay una gran cantidad de datos sin etiquetar y etiquetar todos los registros de datos llevaría demasiado tiempo y sería muy costoso.
  • Análisis del habla: etiquetar archivos de audio también lleva mucho tiempo, por eso el apre­n­di­za­je se­mi­su­pe­r­vi­sa­do ofrece un enfoque natural para resolver este problema.
  • Análisis de se­cue­n­cias de proteínas: debido al tamaño de las cadenas de ADN, el apre­n­di­za­je se­mi­su­pe­r­vi­sa­do es ideal para analizar se­cue­n­cias de proteínas.
  • Detección de anomalías: el apre­n­di­za­je se­mi­su­pe­r­vi­sa­do puede uti­li­zar­se para detectar patrones inusuales que no se ajustan a la norma.
Ir al menú principal