Qualcomm presenta innovaciones en CVPR 2023

La Conferencia Anual IEEE/CVF sobre Visión por Computador y Reconocimiento de Patrones (CVPR) se considera uno de los acontecimientos más importantes no sólo en el campo de la visión por computador, sino también en el de la inteligencia artificial (IA). Este año se celebra en Vancouver del 18 al 22 de junio, y en ella Qualcomm Technologies expondrá sus trabajos de investigación aceptados y demostraciones tecnológicas.

La investigación en IA, visión por ordenador, realidad extendida (XR) y vehículos autónomos abarca desde innovaciones teóricas básicas hasta aplicaciones posteriores en el mundo real.

La demostración de ControlNet más rápida del mundo se ejecuta en un teléfono

Hace unos meses, presentaron la primera demostración mundial de Stable Diffusion ejecutada en un teléfono Android, que es una demostración aceptada en CVPR este año. Ahora, Qualcomm AI Research muestra ControlNet, un modelo de imagen a imagen con 1500 millones de parámetros, que también funciona íntegramente en un teléfono. ControlNet es una clase de soluciones de IA generativa conocida como modelos de visión del lenguaje, o LVM. Permite un control más preciso para generar imágenes mediante el condicionamiento de una imagen de entrada y una descripción de texto de entrada. En esta demostración, las imágenes de IA se generan en el dispositivo móvil en menos de 12 segundos sin necesidad de acceder a la nube, lo que permite una experiencia de usuario interactiva que es eficiente, agradable, fiable y privada. Este impresionante rendimiento se ha conseguido gracias a un conjunto de optimizaciones de IA en toda la arquitectura del modelo, el software de IA y los aceleradores de hardware neuronal. Entre las herramientas y el hardware de IA avanzados utilizados en este proceso se encuentran AI Model Efficiency Toolkit (AIMET), Qualcomm AI Stack y Qualcomm AI Engine.

Entrenamiento físico con un LLM basado en la visión en tiempo real

Qualcomm AI Research ha utilizado la IA generativa para desarrollar un entrenador físico digital que mejora las soluciones existentes en términos de precisión y realismo. El preparador físico proporciona interacción en tiempo real animando, corrigiendo y ayudando al usuario a alcanzar sus objetivos de forma física. Nuestra demostración muestra cómo un modelo de lenguaje de gran tamaño (LLM) con base visual puede permitir interacciones naturales contextuales, multimodales y en tiempo real. Nuestro modelo de reconocimiento de acciones procesa un flujo de vídeo del ejercicio del usuario. En función de la acción reconocida, nuestro orquestador de estados prepara la solicitud y la envía al LLM. El preparador físico devuelve la respuesta LLM al usuario a través de un avatar de texto a voz. Esto es posible gracias a tres innovaciones clave: un modelo de visión entrenado para detectar con precisión las actividades de fitness, un modelo de lenguaje entrenado para generar un lenguaje basado en los conceptos visuales y un orquestador que coordina la interacción fluida entre estas dos modalidades para facilitar la retroalimentación del coaching en directo. El resultado es un preparador físico que proporciona interacción en tiempo real para una experiencia de usuario atractiva y dinámica.

Primera codificación de vídeo neural 1080p del mundo en un teléfono

En otra primicia mundial de la IA en un dispositivo, esta demostración muestra la codificación y descodificación de vídeos 1080p en un dispositivo móvil. Los códecs neuronales son versátiles: se pueden personalizar para necesidades de vídeo específicas, optimizar su calidad perceptiva gracias a los avances en IA generativa, ampliarlos a nuevas modalidades y ejecutarlos en hardware de IA de propósito general. Sin embargo, presentan numerosos retos que dificultan su aplicación en dispositivos con limitaciones informáticas. Hemos diseñado una arquitectura de compresión de vídeo neural entre fotogramas novedosa y eficiente que permite codificar vídeo 1080p en un dispositivo. En la demostración se puede ver que el códec de vídeo neural conserva con precisión las ricas estructuras visuales y los movimientos complejos del vídeo de alta calidad.

Reconstrucción 3D para XR

Hemos desarrollado con éxito un vanguardista sistema de reconstrucción 3D en tiempo real que destaca por su precisión y eficacia, lo que permite crear modelos 3D muy detallados de cualquier entorno. Nuestra solución se ejecuta en un dispositivo móvil, genera mapas de profundidad a partir de imágenes individuales y las combina en una representación 3D de la escena. Con un mapa 3D preciso y en tiempo real, los desarrolladores pueden desbloquear un amplio abanico de aplicaciones de realidad aumentada y virtual. Para mostrar las capacidades de nuestra innovación, hemos diseñado una atractiva demostración en la que los usuarios pueden disparar pelotas virtuales contra los objetos reales de la escena, como paredes y muebles, presenciando rebotes realistas basados en cálculos físicos precisos. Esta tecnología de percepción fomenta las experiencias inmersivas y promete acelerar la adopción generalizada del metaverso.

Visión por ordenador para cámaras inteligentes

La captura de fotos y vídeos sigue mejorando cada año con nuevas capacidades posibles gracias a los avances de la visión por ordenador basada en IA. Nuestra demostración muestra la segmentación semántica, la estimación monocular de la profundidad y la segmentación de instancias que permiten efectos Bokeh, sustitución del fondo, modo cinematográfico y mejora de la calidad de la imagen en función de la clase en cuanto a nitidez, suavidad, claridad y contraste. Estas redes neuronales ejecutan la mejora de vídeo en tiempo real en dispositivos equipados con plataformas Snapdragon.

Tecnología de control del conductor para una mayor seguridad

La demostración del sistema de vigilancia del conductor (DMS) utiliza la visión por ordenador para inferir condiciones de conducción peligrosas y mejorar la seguridad. Mediante el uso de cámaras infrarrojas activas en el habitáculo, el DMS controla en tiempo real el estado del conductor, incluidas la distracción y la somnolencia, basándose en la apertura de los ojos, la mirada, la postura de la cabeza, la expresión facial, las actividades corporales y mucho más. El sistema avisa al conductor cuando detecta una conducción peligrosa y, en última instancia, puede ayudar a salvar vidas. El DMS funciona en paralelo con los sistemas avanzados de asistencia al conductor (ADAS) en el SoC Snapdragon Ride Flex.

Avatares faciales para XR

Los avatares son un ingrediente esencial para permitir experiencias XR inmersivas en el metaverso, ya sean fotorrealistas o de dibujos animados. Con una o varias fotos 2D, utilizamos la IA del dispositivo para generar una malla personalizada y la textura correspondiente. Para renderizar el avatar en tiempo real, utilizamos cámaras de casco que ven los movimientos de los ojos y la boca del usuario. La demostración resultante es un avatar que se reconstruye y anima cerca de la verdad sobre el terreno y se vuelve a iluminar en función del entorno. Nuestro objetivo es hacer que un humano digital esté disponible en la plataforma Snapdragon XR utilizada en el metaverso y en las interfaces hombre-máquina.

Nuestros documentos CVPR

Las principales conferencias, como CVPR, desempeñan un papel fundamental en el avance del campo de la IA, ya que presentan artículos revisados meticulosamente por expertos que establecen el nuevo estado de la técnica y aportan investigaciones impactantes al resto de la comunidad. Nos gustaría destacar ocho de nuestros trabajos aceptados en la conferencia principal, que hacen avanzar las fronteras de la visión por ordenador en dos grandes categorías: hacer el mejor uso de los datos y crear mejores arquitecturas.

Crear mejores arquitecturas

El método presentado en «X3-KD: Cross-modal Cross-stage Cross-task Knowledge Distillation for 3D Object Detection» es un marco integral de destilación de conocimiento a través de diferentes modalidades, tareas y etapas para la detección de objetos 3D multicámara (3DOD). En concreto, proponemos la destilación entre tareas de un profesor de segmentación de instancias (X-IS) en la etapa de extracción de características de la vista en perspectiva, proporcionando supervisión sin retropropagación de errores ambiguos a través de la transformación de la vista. Tras la transformación, aplicamos la destilación de características cross-modal (X-FD) y el entrenamiento adversarial (X-AT) para mejorar la representación del mundo 3D de las características multicámara a través de la información contenida en un maestro 3DOD basado en LiDAR. El modelo supera a los enfoques más avanzados en conjuntos de datos clave y se generaliza al 3DOD basado en RADAR.

Con «EcoTTA: Memory-Efficient Continual Test-time Adaptation via Self-distilled Regularization», presentamos un enfoque simple pero eficaz que mejora la adaptación continua del tiempo de prueba (TTA) de una manera eficiente en memoria. La TTA se realiza principalmente en dispositivos de borde con memoria limitada, por lo que reducir la memoria es crucial, pero se ha pasado por alto en anteriores estudios de TTA. Además, la adaptación a largo plazo suele conducir a un olvido catastrófico y a la acumulación de errores, lo que dificulta la aplicación de la TTA en despliegues del mundo real. Nuestro método consta de dos componentes para resolver estos problemas. En primer lugar, utiliza metaredes ligeras para adaptar las redes originales al dominio de destino. Esto minimiza la memoria al disminuir el tamaño de las activaciones intermedias necesarias para la retropropagación. En segundo lugar, una novedosa regularización autodestilada controla que la salida de las metaredes no se desvíe significativamente de la salida de las redes originales, preservando así el conocimiento bien entrenado del dominio fuente. Por lo tanto, nuestro enfoque conserva el conocimiento bien entrenado del dominio de origen. Esta eficaz estrategia supera a otros métodos del estado de la técnica para tareas de clasificación de imágenes y segmentación semántica en diversas pruebas de referencia.

El problema del aprendizaje incremental se aborda en «Dense Network Expansion for Class Incremental Learning».  Se propone un nuevo método de expansión de redes, denominado expansión de redes densas (DNE), para lograr un mejor equilibrio entre la precisión y la complejidad del modelo. Esto se consigue introduciendo conexiones densas entre las capas intermedias de las redes de expertos en tareas, lo que permite la transferencia de conocimientos de tareas antiguas a nuevas mediante el intercambio y la reutilización de características. Esta compartición se lleva a cabo mediante un mecanismo de atención entre tareas, basado en un nuevo bloque de atención a tareas (TAB), que fusiona la información entre tareas. El enfoque basado en DNE supera a los anteriores métodos del estado de la técnica por un margen del 4% en términos de precisión, con una escala de modelo similar o incluso menor.

Con «PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained Image-Language Models» proponemos un novedoso enfoque que permite la segmentación generalizable de piezas 3D con cero y pocos disparos aprovechando los últimos avances de los modelos de visión de lenguaje (LVM) preentrenados. Actualmente, los LVM sólo pueden funcionar con imágenes 2D y, por tanto, no pueden aplicarse directamente a la segmentación de piezas 3D. Hemos diseñado un módulo de fusión 3D que procesa los resultados de múltiples vistas de un objeto, los fusiona y genera la segmentación de la pieza en la nube de puntos 3D, con resultados convincentes frente a conjuntos de datos 3D de referencia.

Talleres

  • Taller CVPR 2023 sobre conducción autónoma, ponencia: EGA-Depth: Efficient Guided Attention for Self-Supervised Multi-Camera Depth Estimation [creación de mejores arquitecturas].
  • CVPR 2023 Mobile AI Workshop, ponencia: DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical Flow [creación de mejores arquitecturas].
  • CVPR 2023 Mobile AI Workshop, ponencia: QuickSRNet Plain Single-Image Super-Resolution Architecture for Faster Inference on Mobile Platforms [creación de mejores arquitecturas].
  • CVPR 2023 Workshop on Learning with Limited Labelled Data for Image and Video Understanding, ponencia: Neural Transformation Network to Generate Diverse Views for Contrastive Learning [aprovechando al máximo los datos].
  • CVPR 2023 Embodied AI Workshop, ponencia: Situated real-time interaction with a virtually embodied avatar [haciendo el mejor uso de los datos].

Fuente: Comunicado

Deja un comentario