Preguntas Frecuentes
Private LLM es tu chatbot AI privado, diseñado para la privacidad, la comodidad y la creatividad. Funciona completamente offline en tu iPhone, iPad y Mac, asegurando que tus datos permanezcan seguros y confidenciales. Private LLM es una compra única en la App Store, lo que te permite tener acceso ilimitado sin ninguna tarifa de suscripción. nb: Odiamos las suscripciones y no seríamos hipócritas sometiendo a nuestros usuarios a lo que odiamos.
En primer lugar, Private LLM se destaca de otras soluciones locales de IA por sus avanzadas técnicas de cuantización de modelos como OmniQuant y GPTQ. A diferencia de la cuantización Round-To-Nearest (RTN) utilizada por otras aplicaciones competidoras basadas en los frameworks MLX y llama.cpp, OmniQuant y GPTQ son métodos basados en la optimización. Estos métodos permiten un control más preciso sobre el rango de cuantización, preservando eficazmente la integridad de la distribución de pesos original. Como resultado, Private LLM logra un rendimiento y una precisión superiores del modelo, casi igualando el rendimiento de un modelo de punto flotante de 16 bits (fp16) no cuantizado, pero con requisitos computacionales significativamente reducidos durante la inferencia.
Aunque el proceso de cuantización de modelos con OmniQuant y GPTQ es intensivo en cálculos, es una inversión que vale la pena. Este enfoque avanzado asegura que la perplejidad (una medida de la calidad de generación de texto del modelo) del modelo cuantizado se mantenga mucho más cercana a la del modelo original fp16 que lo que es posible con la cuantización RTN ingenua. Esto asegura que los usuarios de Private LLM disfruten de una experiencia de IA fluida, eficiente y de alta calidad, diferenciándonos de otras aplicaciones similares.
En segundo lugar, a diferencia de casi todas las demás aplicaciones LLM offline competidoras, Private LLM no se basa en llama.cpp ni en MLX. Esto significa que funciones avanzadas que no están disponibles en llama.cpp y MLX (y, por extensión, en las aplicaciones que las utilizan), como los attention sinks y el sliding window attention, están disponibles en Private LLM, pero no en otros lugares[1]. Esto también significa que nuestra aplicación es significativamente más rápida que la competencia en el mismo hardware (Videos de YouTube comparando el rendimiento).
Finalmente, somos ingenieros de aprendizaje automático y ajustamos cuidadosamente la cuantización y los parámetros en cada modelo para maximizar la calidad de generación de texto. Por ejemplo, no cuantizamos las embeddings y las capas gate en los modelos Mixtral porque cuantizarlas afecta negativamente la perplejidad del modelo (por no mencionar que nuestros competidores cuantizan todo de manera ingenua). De manera similar, en los modelos Gemma, la cuantización de las embeddings ponderadas afecta negativamente la perplejidad del modelo, por lo que no lo hacemos (mientras que nuestros competidores sí lo hacen). Además, en el modelo phi-4 de Microsoft, mantenemos selectivamente algunas capas críticas sin cuantizar (cuantización dinámica) para mantener una calidad óptima de generación de texto.
Priorizando la precisión y la eficiencia computacional sin comprometer la privacidad y la funcionalidad offline, Private LLM ofrece una solución única para usuarios de iOS y macOS que buscan una experiencia de IA potente, privada y personalizada.
Ejecutar modelos de lenguaje grande (LLMs) en el dispositivo es un proceso que consume mucha memoria, ya que requiere una cantidad significativa de RAM para cargar y ejecutar los modelos de manera eficiente. Además, Private LLM generalmente no es la única aplicación en funcionamiento en su iPhone, iPad o Mac. Otras aplicaciones, especialmente las que consumen mucha memoria, pueden competir por los recursos del sistema, lo que afecta el rendimiento de Private LLM.
En los iPhones, dispositivos más antiguos como el iPhone SE de segunda generación (3 GB de RAM) pueden ejecutar modelos más pequeños como Llama 3.2 1B y Qwen 2.5 0.5B/1.5B, pero la experiencia puede ser limitada debido a las restricciones de hardware. A partir del iPhone 12 (4 GB de RAM), el rendimiento mejora con acceso a modelos un poco más grandes de 3B. Para obtener la mejor experiencia, recomendamos usar el iPhone 15 Pro o más nuevo, equipado con 8 GB de RAM. Estos dispositivos son capaces de ejecutar modelos más grandes como Llama 3.1 8B o Qwen 2.5 7B con facilidad. Aunque técnicamente se puede instalar Private LLM en dispositivos más antiguos que el iPhone 12, ya no recomendamos comprar la aplicación para dichos dispositivos, ya que los comentarios de los usuarios han demostrado que el hardware desactualizado limita significativamente la experiencia. Los usuarios con dispositivos más antiguos aún pueden comprar la aplicación, pero no se garantiza soporte ni rendimiento óptimo.
En los iPads, la situación es similar. Los dispositivos con al menos 4 GB de RAM pueden ejecutar modelos comparables a los de los iPhones de gama media. Para obtener los mejores resultados, el iPad Pro de gama alta con 16 GB de RAM es ideal, ya que admite modelos aún más grandes como Qwen 2.5 14B o Google Gemma 2 9B. Esta capacidad inigualable convierte al iPad Pro en una opción potente para ejecutar Private LLM.
En los Mac, la transición a Apple Silicon ha establecido nuevos estándares para el rendimiento de la IA local. Aunque Private LLM se puede instalar en Macs con Intel, recomendamos encarecidamente usar Macs con Apple Silicon para una experiencia significativamente más fluida. En Macs con Apple Silicon y 8 GB de RAM, se pueden ejecutar modelos comparables a los compatibles con los iPhones más recientes, como Llama 3.1 8B y Qwen 2.5 7B. Los Macs con 16 GB de RAM, como el iPad Pro de gama alta, pueden manejar modelos aún más grandes, como Qwen 2.5 14B o Google Gemma 2 9B. Con 32 GB de RAM, los Macs pueden ejecutar modelos más grandes como Phi-4, Qwen 2.5 32B, y para la experiencia definitiva, los Macs con Apple Silicon con al menos 48 GB de RAM ofrecen un rendimiento óptimo con modelos como Llama 3.3 70B.
Private LLM está diseñado para llevar la potencia de la IA local a una amplia gama de dispositivos Apple, pero para obtener el mejor rendimiento, recomendamos encarecidamente dispositivos con más memoria. Si aún tiene dudas sobre la compatibilidad de su dispositivo o necesita más ayuda, únase a nuestra comunidad de Discord para conectarse con nosotros y otros usuarios que pueden ayudarle.
Private LLM es un producto autofinanciado creado por dos desarrolladores, libre de financiamiento de capital de riesgo (VC). Nuestros competidores, como Ollama y LM Studio, son empresas respaldadas por VC. Algunos de ellos tienen cláusulas onerosas ocultas en sus términos de uso que prohíben el uso con fines comerciales o de producción. Nosotros no imponemos restricciones sobre cómo nuestros usuarios utilizan nuestra aplicación. Nuestro modelo autofinanciado de pago único no es perfecto y tiene sus desventajas, como no poder pagar por anuncios, publicaciones de influencers y marcas de verificación doradas en Twitter. Pero el lado positivo es que no tenemos presión de los inversores para vigilar y monetizar agresivamente a nuestros usuarios; y podemos centrarnos al 100 % en construir el producto para nuestros usuarios y para nosotros mismos.
En Private LLM, priorizamos la calidad y la independencia. Para lograr un rendimiento superior, cuantizamos cuidadosamente cada modelo utilizando técnicas avanzadas como OmniQuant y GPTQ. Este proceso requiere recursos considerables, incluido el alquiler de GPUs, que están lejos de ser gratuitos. Todos nuestros competidores utilizan cuantización RTN (redondeo al número más cercano), que es muy barata en términos de recursos pero da como resultado modelos cuantizados de baja calidad. Como un negocio pequeño e independiente, dedicamos mucho tiempo y recursos a cuantizar modelos con algoritmos de cuantización de última generación (SOTA), porque es un intercambio valioso en términos de calidad. El resultado es una experiencia de IA inigualable que destaca por su precisión y velocidad.
La privacidad es otro valor fundamental de Private LLM. Procesamos todo localmente en tu dispositivo, sin recolección de datos ni seguimiento. Hacer tal afirmación no es fácil, especialmente cuando estás respaldado por VC y bajo presión para encontrar fuentes de ingresos escalables. Al mantenernos independientes, garantizamos que tus datos siempre permanezcan privados.
Los productos gratuitos pueden parecer atractivos, especialmente cuando los influencers los promocionan agresivamente, pero en realidad, a menudo ofrecen una calidad inferior en la generación de texto. Private LLM adopta un enfoque diferente, ofreciendo una generación de texto que está a años luz en coherencia, precisión y contexto. Al cobrar una tarifa única, Private LLM proporciona una solución de IA centrada en el usuario, con prioridad en la privacidad, y que entrega una salida de texto de alta calidad que nuestros competidores no pueden igualar.
Private LLM ofrece una variedad de modelos para satisfacer diferentes necesidades lingüísticas. Nuestra selección incluye las familias Llama 3 y Qwen 2.5, ambas compatibles con varios idiomas. Llama 3 es competente en inglés, alemán, francés, italiano, portugués, hindi, español y tailandés. Qwen 2.5 amplía el soporte a más de 29 idiomas, incluyendo chino, inglés, francés, español, portugués, alemán, italiano, ruso, japonés, coreano, vietnamita, tailandés y árabe. Para usuarios que buscan modelos diseñados específicamente para idiomas distintos del inglés, Private LLM ofrece opciones como SauerkrautLM Gemma-2 2B IT para alemán, DictaLM 2.0 Instruct para hebreo, RakutenAI 7B Chat para japonés y Yi 6B Chat o Yi 34B Chat para chino. Esta amplia selección garantiza que los usuarios puedan elegir el modelo que mejor se adapte a sus necesidades lingüísticas.
Private LLM garantiza una calidad superior en la generación de texto y rendimiento utilizando estrategias avanzadas de cuantificación como OmniQuant y GPTQ, que requieren numerosas horas para cuantificar cuidadosamente cada modelo en GPU. Este proceso meticuloso preserva de manera más efectiva la distribución de pesos del modelo, lo que resulta en inferencias más rápidas, mayor fidelidad del modelo y generación de texto de mayor calidad. Nuestros modelos OmniQuant de 3 bits superan o igualan el rendimiento de los modelos cuantificados en 4 bits RTN utilizados por otras plataformas. A diferencia de las aplicaciones que soportan los archivos GGUF disponibles en Hugging Face, Private LLM cuantifica los modelos internamente para asegurarse de que estén optimizados en velocidad, precisión y calidad. Este enfoque riguroso es una de las razones por las que Private LLM es una aplicación de pago, ofreciendo una calidad mucho mejor en comparación con las aplicaciones locales de chat de IA más lentas y menos capaces.
Añadimos regularmente nuevos modelos a Private LLM basándonos en los comentarios de los usuarios, como se indica en nuestras notas de la versión. Para solicitar un modelo específico, únete a nuestra comunidad de Discord y comparte tu sugerencia en el canal #suggestions. Revisamos todas las solicitudes y priorizamos las más populares para futuras actualizaciones.
Private LLM actualmente no admite la lectura de documentos o archivos, una función que a menudo se denomina Recuperación-Generación Aumentada (RAG). Esta funcionalidad implica el uso de documentos externos para enriquecer las respuestas del modelo, pero su eficacia depende en gran medida de la longitud del contexto, es decir, la cantidad máxima de texto que el modelo puede procesar en una sola solicitud. Una longitud de contexto mayor permite respuestas más detalladas y precisas, pero es computacionalmente exigente, especialmente en dispositivos locales. Competidores como Ollama suelen admitir una longitud de contexto predeterminada de 2k tokens, mientras que LM Studio tiene una longitud de contexto predeterminada de 1500 tokens. En comparación, Private LLM ofrece 8K tokens en iPhone y iPad, y unos impresionantes 32K tokens en Macs, convirtiéndolo en una de las soluciones de IA local más capaces en este sentido. Sin embargo, todas las implementaciones actuales de IA local, incluido Private LLM, enfrentan desafíos con alucinaciones al procesar contenido textual extenso. Esta limitación surge porque los modelos pueden generar información incorrecta o fabricada cuando se ven abrumados por entradas extensas o incompletas. La cuantización OmniQuant de Private LLM reduce significativamente las alucinaciones en comparación con la cuantización RTN utilizada por nuestra competencia, pero no las elimina por completo. Si bien nuestro objetivo es introducir capacidades de lectura de documentos en el futuro, las soluciones basadas en servidores actualmente ofrecen los resultados más confiables para RAG, ya que están mejor equipadas para manejar mayores longitudes de contexto y demandas computacionales.
Absolutamente no. Private LLM está dedicado a garantizar su privacidad, operando únicamente sin conexión sin ningún acceso a Internet para sus funciones o acceso a datos en tiempo real. Una conexión a Internet solo se requiere cuando opta por descargar actualizaciones o nuevos modelos, durante los cuales no se recopila, transmite, intercambia o recoge ningún dato personal. Nuestra filosofía de privacidad está alineada con las estrictas directrices de privacidad y seguridad de Apple, y nuestra aplicación mantiene los más altos estándares de protección de datos. Vale la pena mencionar que, en ocasiones, los usuarios pueden preguntar si Private LLM puede acceder a Internet, lo que puede llevar a alucinaciones del modelo sugiriendo que puede. Sin embargo, estas respuestas no deben tomarse como hechos. Si los usuarios desean verificar independientemente las garantías de privacidad de Private LLM, recomendamos usar herramientas de monitoreo de red como Little Snitch. De esta manera, puede ver por sí mismo que nuestra aplicación mantiene controles estrictos de privacidad. Para aquellos interesados en acceder a información en tiempo real, Private LLM se integra perfectamente con Apple Shortcuts, permitiéndole obtener datos de fuentes RSS, páginas web, e incluso aplicaciones como Calendario, Recordatorios, Notas y más. Esta característica ofrece una solución creativa para incorporar datos actuales en sus interacciones con Private LLM, manteniendo aún su ethos de privacidad fuera de línea en primer lugar. Si tiene alguna pregunta o necesita más aclaraciones, por favor no dude en ponerse en contacto con nosotros.
Después de una compra única, puedes descargar y usar Private LLM en todos tus dispositivos Apple. La app admite Family Sharing, lo que te permite compartirla con los miembros de tu familia.
Private LLM puede analizar y resumir párrafos largos de texto en segundos. Simplemente pega el contenido, y la IA generará un resumen conciso, todo offline. También podrías usar Private LLM para reformular y parafrasear con indicaciones como:
- Dame un TLDR de esto: [pegar contenido aquí]
- Eres un redactor experto. Por favor, reformula lo siguiente con tus propias palabras: [pegar contenido]
- Parafrasea el siguiente texto para que suene más original: [pegar contenido]
¡Absolutamente! Private LLM puede generar sugerencias e ideas perspicaces, lo que lo convierte en una herramienta poderosa para tareas de brainstorming y resolución de problemas. Aquí tienes algunos ejemplos de indicaciones para brainstorming que puedes probar con Private LLM. Por favor, siéntete libre de experimentar y probar tus propias indicaciones.
- ¿Puedes darme algunos temas potenciales para una novela de ciencia ficción?
- Estoy planeando abrir un restaurante de comida rápida vegana. ¿Cuáles son las debilidades de esta idea?
- Dirijo una startup de desarrollo de software de dos años con un producto que ha encontrado un ajuste de mercado de producto (PMF), planeando introducir un nuevo producto de software en un mercado muy diferente. Utiliza el método de los seis sombreros para analizar esto.
- Utiliza el Modelo del Círculo Dorado para crear una marca poderosa para un negocio de consultoría de gestión.
La temperatura de muestreo y Top-P son parámetros de inferencia universales para todos los modelos transformer solo de decodificación causales autoregresivos (también conocidos como GPT), y no son específicos de Private LLM. La app los tiene configurados en valores predeterminados razonables (0.7 para temperatura de muestreo y 0.95 para Top-p), pero siempre puedes ajustarlos y ver qué sucede. Ten en cuenta que los cambios en estos parámetros no surten efecto hasta que la app se reinicia.
Estos parámetros controlan el equilibrio entre la generación de texto determinista y la creatividad. Los valores bajos conducen a respuestas aburridas pero coherentes, los valores más altos conducen a respuestas creativas pero a veces incoherentes.
Private LLM funciona offline y utiliza un modelo transformer solo de decodificación (también conocido como GPT) con el que puedes conversar casualmente. También puede ayudarte a resumir párrafos de texto, generar ideas creativas y proporcionar información sobre una amplia gama de temas.
Sí. Private LLM tiene dos intenciones de app que puedes usar con Siri y la app Shortcuts. Busca Private LLM en la app Shortcuts. Además, Private LLM también admite la especificación x-callback-url , que también es compatible con Shortcuts y muchas otras apps. Aquí tienes un ejemplo de atajo utilizando la funcionalidad x-callback-url en Private LLM.
La diferencia en funcionalidad entre iOS y macOS con respecto al procesamiento en segundo plano se debe principalmente a las políticas de uso de hardware de Apple. En iOS, Apple restringe la ejecución en segundo plano de tareas que requieren un uso intensivo de la GPU. Esta limitación se aplica para preservar la vida útil de la batería y mantener el rendimiento del sistema. Según las directrices de Apple, las aplicaciones que intenten ejecutar un kernel de Metal en segundo plano serán terminadas inmediatamente para evitar el uso no autorizado de recursos. En Private LLM, podemos ejecutar operaciones en segundo plano en macOS utilizando la GPU, mientras que las versiones para iOS están limitadas al procesamiento con CPU cuando la aplicación no está en primer plano. Aunque técnicamente es posible ejecutar las tareas impulsadas por IA de Private LLM en la CPU, sería significativamente más lento—más de diez veces más lento en comparación con el procesamiento en GPU. Este rendimiento lento no ofrecería la experiencia fluida y eficiente que buscamos. Tenemos la esperanza de que futuras actualizaciones de iOS puedan ofrecer más flexibilidad en cómo los procesos en segundo plano utilizan los recursos del sistema, incluido un posible acceso a la GPU para aplicaciones como Private LLM. Hasta entonces, seguimos optimizando nuestra aplicación para iOS dentro de las limitaciones actuales para garantizarle el mejor rendimiento posible sin comprometer la salud de su dispositivo ni la eficiencia de sus aplicaciones. Para obtener más detalles técnicos, puede consultar la documentación oficial de Apple sobre cómo preparar su aplicación Metal para ejecutarse en segundo plano: Apple Developer Documentation.
Esto podría deberse a que el dispositivo tiene poca memoria, o si la tarea dada a Private LLM es particularmente compleja. En tales casos, considera cerrar apps que consumen mucha memoria que podrían estar ejecutándose en segundo plano e intenta dividir la solicitud en tareas más pequeñas y manejables para que el LLM procese. En el último caso, simplemente responder con “Continuar”, “Sigue” o “Dime” también funciona.
Lamentamos saber que está considerando un reembolso. Puede solicitar un reembolso a través de la Apple App Store. Simplemente navegue al historial de compras de su cuenta de Apple, encuentre Private LLM y haga clic en 'Reportar un Problema' para iniciar el proceso de reembolso. También nos encantaría escuchar de usted sobre cómo podemos mejorar. Por favor, póngase en contacto con nosotros con sus comentarios.
¡Nos encantaría saber de usted! Únase a nuestra comunidad de Discord para compartir sus ideas y obtener ayuda de otros usuarios. ¿Prefiere una conversación privada? Utilice el formulario de contacto en nuestro sitio web para enviarnos un correo electrónico directamente.