Toshiba Corporation ha desarrollado una IA con reconocimiento 3D que es capaz de medir la distancia con la precisión de una cámara estéreo, utilizando la imagen tomada con una cámara comercial y analizando la imagen borrosa causada por la lente de la cámara mediante aprendizaje profundo. Esta tecnología eliminará el uso de cámaras estéreo, lo que eventualmente reducirá el costo y el espacio. Toshiba presentará este logro en la conferencia internacional sobre visión por computadora (ICCV2019) que se celebrará en Corea del Sur el 30 de octubre de 2019, a partir de las 10 am.
La detección de imágenes se está volviendo más importante y aplicaciones como robots que mueven objetos, vehículos autónomos no tripulados, drones controlados a distancia que inspeccionan la infraestructura, etc., requieren más que solo imágenes de los sujetos, necesitan un pequeño dispositivo para analizar datos 3D para incluir la forma y la distancia. Por lo tanto, se han incrementado las investigaciones para desarrollar una tecnología de medición con cámaras monoculares (son fáciles de miniaturizar) mediante el uso de aprendizaje profundo para un mejor aprendizaje de la forma, el fondo y otros datos del paisaje del objeto de la imagen.
Este método tiene un inconveniente; la precisión de la distancia se estima con la ayuda de una cámara monocular en función de los datos de paisajes aprendidos, lo que provoca una caída de precisión debido a las tomas tomadas en diferentes paisajes. Para superar esto, Toshiba ha desarrollado una fotografía de apertura con filtro de color en la que se colocan dos filtros de color en la lente y el color y el tamaño de la imagen borrosa resultante se analizan de acuerdo con la distancia del sujeto. Aunque esto resuelve el problema de la dependencia de los datos, cuesta tiempo y dinero modificar los lentes existentes.
Toshiba ha superado este problema desarrollando IA con tecnología de reconocimiento 3D que utiliza deep learning para analizar cómo se desenfoca la imagen según su posición en la lente, con el fin de lograr una medición de distancia con la misma alta precisión que un sistema de cámara estéreo., con una cámara monocular normal pero sin necesidad de datos de paisajes. Hasta ahora, se consideraba teóricamente imposible medir la distancia en función de la forma del desenfoque, que es la misma para objetos con distancia y lejos cuando están equidistantes del punto focal. Pero los resultados analíticos han mostrado una diferencia sustancial entre las formas borrosas de los objetos cercanos y lejanos, incluso si están equidistantes del punto focal. Con eso, Toshiba analizó con éxito los datos borrosos de las imágenes capturadas mediante un módulo de aprendizaje profundo entrenado con el modelo de red neuronal profunda.
Cuando la luz pasa a través de la lente, se sabe que la forma de la borrosidad creada cambia dependiendo de la longitud de onda de la luz y su posición en la lente. En la red desarrollada, la posición y el color se procesan por separado para percibir correctamente los cambios en la forma del desenfoque y luego, después de pasar por un mecanismo de atención ponderado, para controlar en qué parte del gradiente de brillo enfocar para medir correctamente la distancia. Mediante el aprendizaje, la red se actualiza para reducir un error entre la distancia medida y la distancia real. Utilizando este módulo de IA, Toshiba ha confirmado que una sola imagen capturada con una cámara disponible comercialmente logra la misma precisión de medición de distancia asegurada con cámaras estéreo. Puede encontrar más información en esta página oficial de Toshiba.
Toshiba confirmará la versatilidad del sistema con cámaras y lentes disponibles comercialmente y acelerará el procesamiento de imágenes, con el objetivo de su implementación pública en el año fiscal 2020.