Apple lanzó la familia Open-source Efficient Language Models (‘Modelos de lenguaje eficientes de código abierto’), que ofrecen resultados precisos en dispositivos como ordenadores portátiles.
Los ofrece mediante el uso de menos tokens de entrenamiento que otros modelos de Inteligencia Artificial (IA), como OLMo.
Conocida como OpenELM, se trata de una familia que “utiliza una estrategia de escalamiento por capas para asignar parámetros de forma eficiente dentro de cada capa del modelo”.
A raíz de esto, se centra en tareas específicas y permite a los usuarios obtener resultados más precisos.
APPLE Y UNA FAMILIA COMPUESTA POR CUATRO MODELOS LLM
Esta familia está compuesta por cuatro modelos de lenguaje grande (LLM) que se presentan en diferentes tamaños.
Las opciones son: 270 millones de parámetros, 450 millones, 1.100 millones y 3.000 millones de parámetros. Cada uno de ellos tiene dos versiones.
Primero la preentrenamiento (‘pre-trained’) -una variante genérica entrenada con conjuntos de datos de la biblioteca CoreNet de GitHub.
Y por otro lado, la optimizada (‘instruction tuned’), ajustada e instruída para emplearla con propósitos concretos, como se explica en el documento de la investigación publicado en .
MODELOS PUESTOS A PRUEBA
Los investigadores indican que los modelos se probaron en un modelo MacBook Pro con SoC M2 Max, 64 GB de RAM y basado en macOS 14.4.1.
Además, fueron probados en un ordenador con CPU Intel i9-13900KF equipada con DDR5- 4000 DRAM y GPU NVIDIA RTX 4090 con 24 GB de VRAM.
En sus pruebas, Apple halló que OpenELM funciona de manera más eficiente que otros LLM similares, como OLMo, desarrollado por Allen Institute for AI.
UNA MEJORA DEL 2,36% DE LA PRECISIÓN
Esto se debe a que el suyo ofece una mejora del 2,36 por ciento en la precisión y, a la vez, requiere dos veces menos tokens de preentrenamiento.
Finalmente, Apple admitió que OpenELM, cuyo repositorio está en Hugging Face, se ha entrenado con un conjuntos de datos disponibles públicamente y “sin ninguna garantía de seguridad”.
Esto quiere decir que “existe la posibilidad de que estos modelos produzcan resultados inexactos, dañinos o sesgados”.
Fuente: EP.