11 de Mayo de 2023

Visión por Computadora: Avances y Desafíos en 2023

La visión por computadora es un campo de investigación en rápido desarrollo cuyo objetivo es dotar a las máquinas de la capacidad de interpretar y comprender la información visual de imágenes y vídeos digitales.

Al aprovechar las técnicas del aprendizaje automático y la inteligencia artificial, la visión por computadora tiene como objetivo replicar el sistema visual humano para permitir que las computadoras reconozcan, analicen e interpreten la información visual.

“La visión por computadora es un campo fascinante que permite a las máquinas interpretar y comprender el mundo visual como lo hacen los humanos. Tiene el potencial de revolucionar muchas industrias, desde la sanidad al transporte o el entretenimiento”. - Fei-Fei Li, catedrático de Informática de la Universidad de Stanford y codirector del Instituto de Stanford para la inteligencia artificial centrada en el ser humano.

La visión por computadora es el campo de estudio centrado en capacitar a las computadoras para interpretar y comprender imágenes digitales y vídeo, imitando la percepción visual humana. Esto implica el desarrollo de algoritmos y técnicas para analizar y procesar imágenes digitales, extraer información de ellas y tomar decisiones basadas en esa información. Algunos términos relacionados son visión artificial, procesamiento de imágenes, reconocimiento de patrones e inteligencia artificial. En última instancia, el objetivo de la visión por computadora es crear máquinas que puedan “ver” e interpretar el mundo visual como lo hacen los humanos, con aplicaciones que van desde los autos auto-conducidos al diagnóstico médico o la automatización industrial.

Computer Vision - Advances and Challenges in 2023 - Langly

||| La visión por computadora ha experimentado notables avances en la última década, con un aumento de su precisión del 50% al 99%.

Se prevé que el campo de la visión por computadora siga ampliándose a medida que se desarrollen nuevos algoritmos y técnicas de segmentación de imágenes. Uno de los avances más prometedores es el Segment Anything Model (SAM), creado por el laboratorio FAIR de Meta. SAM puede tener un gran impacto en el sector, ya que genera máscaras de objetos muy detalladas a partir de diversas entradas.

El proceso de segmentación consta de tres pasos principales:

1. La codificación de imágenes, que convierte la imagen de entrada en un modelo matemático.
2. La agregación de vectores, que combina los vectores codificados en múltiples niveles
3. Decodificación rápida de máscaras, que genera una máscara distinta para cada objeto en la imagen a partir de los vectores codificados

La segmentación de imágenes puede clasificarse en varios tipos, como la segmentación semántica, la segmentación de instancias y la segmentación panóptica.

Estos tipos de segmentación implican el uso de modelos de aprendizaje profundo como las redes neuronales recurrentes (RNN), las redes totalmente conectadas (FCN) y las redes neuronales convolucionales (CNN) para analizar imágenes y dividirlas en varios segmentos. Estos modelos ayudan a reconocer patrones y características en las imágenes, que luego pueden utilizarse para diferenciar entre varias regiones de una imagen.

||| Según los estudios de mercado, se prevé que el mercado mundial de la visión por computadora alcance una valoración de más de 41 mil millones de dólares en 2030, lo que pone de manifiesto el enorme potencial de este campo en rápida evolución.

La mayoría de los modelos de segmentación de imágenes siguen una estructura similar, que es una red codificador-decodificador. El codificador procesa los datos de la imagen de entrada y los transforma en una representación matemática que puede manipularse fácilmente. El decodificador toma los datos codificados y produce un mapa de segmentación que indica la ubicación y los límites de cada objeto en la imagen. Este método permite al modelo identificar los distintos objetos de la imagen, aunque se superpongan o tengan formas complejas.

SAM es una técnica innovadora que puede realizar tareas de segmentación tanto interactiva como automática en un único modelo.

La flexibilidad de la interfaz de SAM le permite manejar una gran variedad de tareas de segmentación utilizando un indicador adecuado, como clics, recuadros y texto. SAM se ha entrenado con un amplio conjunto de datos de más de mil millones de máscaras, lo que significa que puede reconocer nuevos objetos e imágenes que no se incluyeron en el conjunto de entrenamiento.