El equipo de Investigación Fundamental de IA (FAIR) de Meta ha revelado nuevos modelos y herramientas para la generación de música, imágenes y la identificación de voces generadas por IA.
Los modelos más recientes de Meta incluyen generación de imagen a texto, texto a música, predicción de múltiples tokens y detección de habla generada por IA, destacados en su blog oficial.
Chameleon, presentado en mayo, es una familia de modelos que procesa texto, imágenes y combinaciones con una arquitectura unificada para codificación y decodificación.
34.000 MILLONES DE PARÁMETROS
FAIR ha lanzado Chameleon 7B y 34B, con 7.000 millones y 34.000 millones de parámetros respectivamente.
Están disponibles bajo licencia de investigación, pero ha decidido no lanzar el generador de imágenes de esta familia.
FAIR ha desarrollado modelos multitoken para un entrenamiento más eficiente de modelos lingüísticos.
CONTROL SOBRE ACORDES Y RITMOS
JASCO permite generar música a partir de texto con control sobre acordes y ritmos. AudioSeal detecta la voz generada por IA en archivos de audio extensos.
Meta comparte herramientas para mitigar sesgos geográficos en modelos de texto a imagen, incluyendo evaluaciones automáticas con DIGIn.
Fuente: EP.