NVIDIA Maxine
SDK acelerado con funciones de inteligencia artificial de última generación para crear aplicaciones de creación de contenido y colaboración virtual.
?Qué es NVIDIA Maxine?
NVIDIA Maxine es un SDK acelerado por GPU con funciones de inteligencia artificial de última generación para que los desarrolladores creen aplicaciones de creación de contenido y colaboración virtual, como videoconferencias y transmisión en vivo.
Los SDK de IA de Maxine (efectos de video, efectos de audio y realidad aumentada (AR)) están altamente optimizados e incluyen caracterÃsticas modulares que se pueden encadenar en pipelines de un extremo a otro para brindar el mayor rendimiento posible en las GPU, tanto en PC como en data centers. Maxine también se puede utilizar con NVIDIA Riva, un SDK para crear aplicaciones conversacionales de inteligencia artificial, para ofrecer capacidades basadas en idiomas de clase mundial, como la transcripción y la traducción.
Los desarrolladores pueden agregar efectos de IA de Maxine a sus aplicaciones existentes o desarrollar nuevos pipelines desde cero utilizando NVIDIA DeepStream, un SDK para crear análisis de video inteligente, y NVIDIA Video Codec, un SDK para codificación, decodificación y transcodificación aceleradas.
Beneficios
Capacidades de IA de Vanguardia
Modelos previamente entrenados de clase mundial para capacidades de audio, video y realidad aumentada (AR) de alta calidad.
Rendimiento de IA en Tiempo Real
Funciones de IA aceleradas y optimizadas para inferencias en tiempo real en GPU.
Solución de Extremo a Extremo
Pipelines completos de extremo a extremo para decodificación de video, transcodificación, codificación, inteligencia artificial conversacional, visión por computadora, streaming de video y análisis.
Touchcast utiliza tecnologÃas de inteligencia artificial y renderizado de última generación para ejecutar hermosos eventos en lÃnea con impresionantes lugares virtuales realistas y capacidades de colaboración en tiempo real. Como lÃder en impulsar la próxima era de la computación, NVIDIA Maxine está preparando el futuro de las comunicaciones por video, un futuro en el que la inteligencia artificial y las redes neuronales mejoran y enriquecen el contenido de formas completamente nuevas. Al trabajar con NVIDIA, Touchcast puede seguir estando a la vanguardia en la creación de las experiencias más increÃbles del mundo para sus clientes.
Edo Segal, Fundador y CEO
![]()
SDK de Maxine
SDK de Efectos de Video
El SDK de Efectos de Video de Maxine permite efectos visuales basados en inteligencia artificial que se ejecutan con la entrada estándar de la cámara web y se pueden integrar fácilmente en las canalizaciones de videoconferencia y creación de contenido. Los modelos de deep learning subyacentes se optimizan con NVIDIA? TensorRT? para inferencias de alto rendimiento, lo que hace posible que los desarrolladores apliquen múltiples efectos en aplicaciones en tiempo real.
Las caracterÃsticas clave incluyen:
- Súper resolución: genera un video con detalles mejorados utilizando redes neuronales de inteligencia artificial que reducen los artefactos y preservan la textura con un escalado de alta calidad de hasta 4 veces.
- Upscaler: ofrece un alto rendimiento y un video escalado de alta calidad hasta 4 veces con un parámetro de nitidez ajustable.
- Reducción de artefactos: elimina los artefactos de compresión del video codificado mientras conserva los detalles originales.
- Eliminación de ruido de video: elimina el ruido de la cámara con poca luz introducido en el proceso de captura de video mientras conserva los detalles.
- Fondo virtual: segmenta a una persona y aplica la eliminación, el reemplazo o el desenfoque del fondo con tecnologÃa de inteligencia artificial.
SDK de Realidad Aumentada
El SDK de Realidad Aumentada ofrece seguimiento facial en 3D en tiempo real y basado en inteligencia artificial y estimación de la pose corporal basada en una cámara web estándar. Los desarrolladores pueden crear efectos AR únicos, como superponer contenido 3D en una cara, conducir personajes 3D e interacciones virtuales en tiempo real.
Las caracterÃsticas clave incluyen:
- Seguimiento facial: detecta rostros humanos en imágenes y videos y especifica la ubicación y el tama?o del cuadro delimitador.
- Seguimiento de puntos de referencia faciales: reconoce los rasgos y contornos faciales utilizando 126 puntos clave y rastrea la postura de la cabeza y la deformación facial debido al movimiento y la expresión de la cabeza en tres grados de libertad en tiempo real.
- Malla de rostros: representa un rostro humano con una malla 3D con hasta 3000 vértices y seis grados de libertad.
- Estimación de la postura del cuerpo: predice y rastrea 34 puntos clave del cuerpo humano en 2D y 3D. Se utiliza habitualmente en el reconocimiento de actividades, la transferencia de movimiento y las interacciones virtuales en tiempo real.
- Contacto visual (solicite acceso anticipado): simula el contacto visual estimando y alineando la mirada con la cámara.
- Audio2Face (próximamente): anima una cara digital 2D o 3D con alta fidelidad basada solo en una entrada de audio.
SDK de Efectos de Audio
El SDK de Efectos de Audio ofrece algoritmos de mejora de la calidad de audio basados en inteligencia artificial, que mejoran la calidad de conversación de un extremo a otro para audio de banda estrecha, banda ancha y banda ultraancha.
Los modelos de IA optimizados de alto rendimiento permiten procesar miles de transmisiones de audio en tiempo real por GPU, mejorando la calidad de audio en hasta dos puntos de puntuación de opinión media (MOS) en métricas de calidad objetivas y subjetivas, como la Evaluación Perceptual de la Calidad del Habla (PESQ) y Análisis Perceptual de la Calidad Auditiva Objetiva (POLQA). En las aplicaciones de escritorio, los modelos optimizados permiten que múltiples aplicaciones, como games, se ejecuten simultáneamente con un impacto mÃnimo en la calidad de ambas aplicaciones.
Los desarrolladores pueden integrarse en aplicaciones independientes de Windows y Linux para procesar el audio del micrófono y el altavoz o en servidores de alta densidad para procesar miles de transmisiones de audio por servidor.
Las caracterÃsticas clave incluyen:
- Eliminación de ruido (NR): elimina varios ruidos de fondo comunes utilizando modelos de inteligencia artificial de última generación mientras se conserva la voz natural del hablante.
- Eliminación de eco de sala (REC): elimina las reverberaciones del audio utilizando modelos de IA de última generación, restaurando la claridad de la voz de un hablante.
- Súper resolución de audio (solicite acceso anticipado): mejora la calidad del audio en tiempo real al aumentar la frecuencia de muestreo del flujo de entrada de audio de 8kHz a 16kHz y de 16kHz a 48kHz.
- Cancelación de eco acústico (solicitar acceso anticipado): cancela el eco del dispositivo acústico en tiempo real de la transmisión de audio de entrada. Con la tecnologÃa basada en IA, se logra una cancelación más efectiva que con el procesamiento tradicional de se?ales digitales.
Con estas funciones, los desarrolladores también pueden crear multiplos efectos innovadores combinando NR y REC al tiempo que ofrecen un rendimiento optimizado y latencia en tiempo real.
Proyecto Maxine se Basa en Potentes SDK de NVIDIA
Explore tecnologÃas que se integran con el pipeline modular, personalizable y escalable de Maxine. Por ejemplo, la colaboración con audiencias globales se puede mejorar significativamente cuando se habla en su idioma. Para permitir una mejor comunicación y comprensión, el Proyecto Maxine integra la traducción en tiempo real y la conversión de texto a voz de NVIDIA Riva con animación fotográfica "retrato en vivo" y contacto visual en tiempo real. El Proyecto Maxine es una aplicación de referencia para Omniverse Avatar, una plataforma tecnológica para generar avatares de IA interactivos.

Análisis de Imágenes y Videos
El SDK DeepStream ofrece un pipeline de transmisión de un extremo a otro para el procesamiento de múltiples sensores y la comprensión de video e imágenes basados en inteligencia artificial.

Codificación y Decodificación de Video
El SDK de Codificación de Video es un conjunto completo de API, que incluye herramientas de alto rendimiento, muestras y documentación, para la codificación y decodificación de video acelerada por hardware en Windows y Linux. El AI Face Codec (próximamente) permitirá un video más fluido y una reducción del ancho de banda de hasta 10 veces.

IA Conversacional
El SDK Riva es un framework de aplicación para servicios de inteligencia artificial conversacional multimodal que ofrece rendimiento en tiempo real en las GPU.
Recursos
Reinventar las Aplicaciones de Video
Descubra cómo los desarrolladores de Notch, Headroom, Be.Live y Touchcast utilizan NVIDIA Maxine.
Nuevas TecnologÃas de IA
Lea acerca de las últimas herramientas de software para desarrolladores lanzadas en GTC 2021.
Presentación de Apertura de GTC 2021
Obtenga información sobre la última actualización para NVIDIA Maxine del CEO de NVIDIA, Jensen Huang.
últimas Noticias de Maxine
Lea cómo los proveedores lÃderes de colaboración, creación de contenido y transmisión están utilizando NVIDIA Maxine.
NVIDIA Maxine se puede descargar de forma gratuita para los miembros del Programa para Desarrolladores de NVIDIA.