Los modelos de lenguaje grande (LLM) tradicionalmente requieren recursos computacionales significativos, generalmente disponibles solo en servidores potentes. Sin embargo, la evolución tecnológica ha permitido que modelos más compactos puedan ejecutarse directamente en smartphones, manteniendo la privacidad y sin necesidad de conexión a internet. Aquí te contamos sobre seis modelos open-source que puedes utilizar en tu móvil.
Lista de modelos LLM para tu móvil
-Gemma 2B: Rendimiento Compacto de Google
El Gemma 2B de Google es un modelo de lenguaje que, a pesar de su tamaño reducido, ofrece un rendimiento impresionante. Gracias a su mecanismo de atención de múltiples consultas, reduce los requisitos de ancho de banda de memoria durante la inferencia. Esto es especialmente útil en dispositivos móviles, donde el ancho de banda de memoria es limitado. Con solo 2 mil millones de parámetros, Gemma 2B logra excelentes resultados en tareas de comprensión del lenguaje, razonamiento y seguridad.
-Phi-2: Eficiencia de Microsoft
Phi-2, desarrollado por Microsoft, cuenta con 2.7 mil millones de parámetros y ha demostrado superar a modelos hasta 25 veces más grandes en ciertos benchmarks. Este modelo es capaz de realizar razonamiento de sentido común y comprensión del lenguaje con gran eficiencia. Además, puede ser cuantizado a precisiones de 4 o 3 bits, reduciendo su tamaño a aproximadamente 1.17-1.48 GB, haciéndolo ideal para dispositivos con recursos limitados.
Recordad que Phi-3 ya está en camino.
-Falcon-RW-1B: Modelo Eficiente para Móviles
El Falcon-RW-1B es parte de la familia Falcon y destaca por su eficiencia y rendimiento. Adaptado de GPT-3, incorpora técnicas como ALiBi y FlashAttention para mejorar la eficiencia computacional. Estas optimizaciones lo hacen adecuado para la inferencia en dispositivos móviles con recursos limitados. El modelo Falcon-RW-1B-Chat añade capacidades conversacionales, mejorando la interacción con los usuarios.
-StableLM-3B: Balance y Rendimiento
Desarrollado por Stability AI, el StableLM-3B es un modelo de 3 mil millones de parámetros que equilibra rendimiento y eficiencia. Aunque fue entrenado con menos tokens, superó a modelos con 7 mil millones de parámetros en algunos benchmarks. Al ser cuantizado a 4 bits, su tamaño se reduce a alrededor de 3.6 GB, permitiendo su ejecución eficiente en smartphones. Es una opción versátil para diversas tareas de lenguaje.
-TinyLlama: Compacto y Poderoso
TinyLlama aprovecha optimizaciones como FlashAttention y RoPE para mejorar la eficiencia computacional mientras mantiene un rendimiento robusto. Compatible con la arquitectura Llama, puede integrarse en aplicaciones móviles existentes con mínimos cambios. Una vez cuantizado a 4 o 5 bits, su tamaño se reduce a aproximadamente 550-637 MB. En pruebas, generó 6-7 tokens por segundo en un teléfono de gama media, como el Asus ROG.
-LLaMA-2-7B: Potencia de Meta para Móviles
El modelo LLaMA-2-7B de Meta, con 7 mil millones de parámetros, ha sido cuantizado a pesos de 4 bits y activaciones de 16 bits, reduciendo su tamaño a 3.6 GB. Este modelo requiere al menos 6GB de RAM para su despliegue en dispositivos móviles. Aunque la memoria pico durante la inferencia varía entre 316MB y 4785MB, su rendimiento es óptimo en smartphones de gama alta, ofreciendo capacidades avanzadas sin depender de la nube.
-Conclusión
Estos seis modelos de lenguaje ofrecen una manera eficiente de utilizar LLMs directamente en tu smartphone. Desde Gemma 2B hasta LLaMA-2-7B, cada uno tiene características que los hacen únicos y adecuados para diferentes necesidades. Al elegir el modelo correcto, puedes asegurar que tus datos se mantengan privados mientras disfrutas de las capacidades avanzadas de procesamiento de lenguaje en tu dispositivo móvil.