Questions Fréquemment Posées
Private LLM est votre chatbot IA privé, conçu pour la confidentialité, la commodité et la créativité. Il fonctionne entièrement hors ligne sur votre iPhone, iPad et Mac, garantissant que vos données restent sécurisées et confidentielles. Private LLM est un achat unique sur l'App Store, vous offrant un accès illimité sans aucun frais d'abonnement. nb : Nous détestons les abonnements, et nous ne sommes pas hypocrites pour soumettre nos utilisateurs à ce que nous détestons.
Tout d'abord, Private LLM se distingue des autres solutions d'IA locales grâce à ses techniques avancées de quantification de modèles telles qu'OmniQuant et GPTQ. Contrairement à la quantification naïve Round-To-Nearest (RTN) utilisée par d'autres applications concurrentes basées sur les frameworks MLX et llama.cpp, OmniQuant et GPTQ sont des méthodes basées sur l'optimisation. Ces méthodes permettent un contrôle plus précis de l'intervalle de quantification, préservant efficacement l'intégrité de la distribution de poids d'origine. En conséquence, Private LLM atteint des performances et une précision de modèle supérieures, presque équivalentes à celles d'un modèle 16 bits non quantifié (fp16), mais avec des exigences computationnelles considérablement réduites en temps d'inférence.
Bien que le processus de quantification des modèles avec OmniQuant et GPTQ soit intensif en calcul, c'est un investissement rentable. Cette approche avancée garantit que la perplexité (une mesure de la qualité de génération de texte du modèle) du modèle quantifié reste beaucoup plus proche de celle du modèle fp16 original qu'il n'est possible avec la quantification naïve RTN. Cela garantit que les utilisateurs de Private LLM bénéficient d'une expérience IA fluide, efficace et de haute qualité, ce qui nous distingue des autres applications similaires.
Deuxièmement, contrairement à presque toutes les autres applications LLM hors ligne concurrentes, Private LLM n'est pas basé sur llama.cpp ou MLX. Cela signifie que des fonctionnalités avancées non disponibles dans llama.cpp et MLX (et donc dans les applications qui les utilisent), telles que les attention sinks et le sliding window attention, sont disponibles dans Private LLM mais indisponibles ailleurs[1]. Cela signifie également que notre application est nettement plus rapide que la concurrence sur le même matériel (Vidéos YouTube comparant les performances).
Enfin, nous sommes des ingénieurs en apprentissage automatique et nous ajustons soigneusement la quantification et les paramètres de chaque modèle pour maximiser la qualité de génération de texte. Par exemple, nous ne quantifions pas les embeddings et les couches gate dans les modèles Mixtral car leur quantification nuit à la perplexité du modèle (inutile de mentionner que nos concurrents quantifient tout de manière naïve). De même, pour les modèles Gemma, la quantification des embeddings pondérés nuit à la perplexité du modèle, nous ne le faisons donc pas (alors que nos concurrents le font). De plus, sur le modèle Microsoft phi-4, nous gardons sélectivement quelques couches critiques non quantifiées (quantification dynamique) pour maintenir une qualité optimale de génération de texte.
En privilégiant la précision et l'efficacité computationnelle sans compromettre la confidentialité et la fonctionnalité hors ligne, Private LLM offre une solution unique pour les utilisateurs d'iOS et de macOS à la recherche d'une expérience IA puissante, privée et personnalisée.
Exécuter de grands modèles de langage (LLMs) sur un appareil est un processus nécessitant beaucoup de mémoire, car cela demande une RAM importante pour charger et exécuter les modèles efficacement. De plus, Private LLM n'est généralement pas la seule application en cours d'exécution sur votre iPhone, iPad ou Mac. D'autres applications, en particulier celles qui consomment beaucoup de mémoire, peuvent entrer en concurrence pour les ressources système, affectant les performances de Private LLM.
Sur iPhones, les anciens appareils comme l'iPhone SE 2e génération (3 Go de RAM) peuvent exécuter des modèles plus petits tels que Llama 3.2 1B et Qwen 2.5 0.5B/1.5B, mais l'expérience peut être limitée en raison des contraintes matérielles. À partir de l'iPhone 12 (4 Go de RAM), les performances s'améliorent avec la prise en charge de modèles légèrement plus grands de 3B. Pour une expérience optimale, nous recommandons d'utiliser l'iPhone 15 Pro ou plus récent, équipé de 8 Go de RAM. Ces appareils peuvent exécuter facilement des modèles plus grands tels que Llama 3.1 8B ou Qwen 2.5 7B. Bien que Private LLM puisse techniquement être installé sur des appareils plus anciens que l'iPhone 12, nous ne recommandons plus l'achat de l'application pour ces appareils, car les retours des utilisateurs montrent que le matériel obsolète limite considérablement l'expérience. Les utilisateurs disposant d'anciens appareils peuvent toujours acheter l'application, mais le support et les performances optimales ne sont pas garantis.
Sur iPads, l'histoire est similaire. Les appareils dotés d'au moins 4 Go de RAM peuvent exécuter des modèles comparables à ceux des iPhones de milieu de gamme. Pour de meilleurs résultats, l'iPad Pro haut de gamme avec 16 Go de RAM est idéal, car il prend en charge des modèles encore plus grands comme Qwen 2.5 14B ou Google Gemma 2 9B. Cette capacité inégalée fait de l'iPad Pro un choix puissant pour exécuter Private LLM.
Sur Mac, la transition vers Apple Silicon a établi de nouvelles références en matière de performances locales de l'IA. Bien que Private LLM puisse être installé sur des Mac Intel, nous recommandons vivement d'utiliser des Mac dotés d'Apple Silicon pour une expérience nettement plus fluide. Sur les Mac avec Apple Silicon et 8 Go de RAM, vous pouvez exécuter des modèles comparables à ceux pris en charge sur les derniers iPhones, comme Llama 3.1 8B et Qwen 2.5 7B. Les Mac avec 16 Go de RAM, comme l'iPad Pro haut de gamme, peuvent gérer des modèles encore plus grands, tels que Qwen 2.5 14B ou Google Gemma 2 9B. Avec 32 Go de RAM, les Mac peuvent exécuter des modèles plus volumineux comme Phi-4, Qwen 2.5 32B, et pour une expérience ultime, les Mac avec Apple Silicon et au moins 48 Go de RAM offrent des performances optimales avec des modèles tels que Llama 3.3 70B.
Private LLM est conçu pour apporter la puissance de l'IA locale à une large gamme d'appareils Apple, mais pour des performances optimales, nous recommandons vivement des appareils dotés de plus de mémoire. Si vous n'êtes toujours pas sûr de la compatibilité de votre appareil ou si vous avez besoin d'une assistance supplémentaire, rejoignez notre communauté Discord pour entrer en contact avec nous et d'autres utilisateurs qui peuvent vous aider !
Private LLM est un produit autofinancé créé par deux développeurs, sans financement de capital-risque. Nos concurrents comme Ollama et LM Studio sont soutenus par des investisseurs en capital-risque. Certains d'entre eux ont des clauses contraignantes cachées dans leurs conditions d'utilisation qui interdisent l'utilisation à des fins commerciales ou de production. Nous n'imposons aucune restriction sur la manière dont nos utilisateurs utilisent notre application. Notre modèle autofinancé, basé sur un paiement unique, n'est pas parfait et comporte ses inconvénients, comme l'incapacité d'acheter des publicités, des publications d'influenceurs et des badges dorés sur Twitter. Mais l'avantage est que nous n'avons pas de pression des investisseurs pour surveiller et monétiser agressivement nos utilisateurs ; et nous pouvons nous concentrer à 100 % sur le développement du produit pour nos utilisateurs et nous-mêmes.
Chez Private LLM, nous privilégions la qualité et l'indépendance. Pour atteindre des performances supérieures, nous quantifions soigneusement chaque modèle en utilisant des techniques avancées comme OmniQuant et GPTQ. Ce processus nécessite des ressources substantielles, notamment la location de GPU, qui ne sont pas gratuits. Tous nos concurrents utilisent la quantification RTN (arrondi à la valeur la plus proche), qui est très bon marché en termes de ressources mais entraîne des modèles quantifiés de mauvaise qualité. En tant que petite entreprise indépendante, nous consacrons beaucoup de temps et de ressources à quantifier les modèles avec des algorithmes de quantification de pointe, car c'est un compromis valable en termes de qualité. Le résultat est une expérience IA inégalée qui se distingue par sa précision et sa rapidité.
La confidentialité est une autre valeur fondamentale de Private LLM. Nous traitons tout localement sur votre appareil, sans collecte de données ni suivi. Faire une telle affirmation n'est pas facile, surtout lorsque vous êtes soutenu par des investisseurs et soumis à la pression de trouver des sources de revenus évolutives. En restant indépendants, nous garantissons que vos données restent toujours privées.
Les produits gratuits peuvent sembler attrayants, surtout lorsque des influenceurs les recommandent avec insistance, mais en réalité, ils offrent souvent une qualité de génération de texte inférieure. Private LLM adopte une approche différente, proposant une génération de texte qui dépasse de loin ses concurrents en termes de cohérence, de précision et de contexte. En facturant des frais uniques, Private LLM fournit une solution IA centrée sur l'utilisateur, axée sur la confidentialité et offrant une sortie textuelle de haute qualité que nos concurrents ne peuvent approcher.
Private LLM propose une gamme de modèles pour répondre à des besoins linguistiques divers. Notre sélection inclut les familles Llama 3 et Qwen 2.5, toutes deux prenant en charge plusieurs langues. Llama 3 maîtrise l'anglais, l'allemand, le français, l'italien, le portugais, l'hindi, l'espagnol et le thaï. Qwen 2.5 étend son support à plus de 29 langues, notamment le chinois, l'anglais, le français, l'espagnol, le portugais, l'allemand, l'italien, le russe, le japonais, le coréen, le vietnamien, le thaï et l'arabe. Pour les utilisateurs recherchant des modèles spécifiques à certaines langues non anglaises, Private LLM propose des options telles que SauerkrautLM Gemma-2 2B IT pour l'allemand, DictaLM 2.0 Instruct pour l'hébreu, RakutenAI 7B Chat pour le japonais, et Yi 6B Chat ou Yi 34B Chat pour le chinois. Cette sélection variée garantit que les utilisateurs peuvent choisir le modèle qui correspond le mieux à leurs besoins linguistiques.
Private LLM garantit une qualité de génération de texte et des performances supérieures grâce à l'utilisation de stratégies de quantification avancées telles qu'OmniQuant et GPTQ, qui nécessitent de nombreuses heures pour quantifier chaque modèle avec soin sur des GPU. Ce processus méticuleux préserve plus efficacement la distribution des poids du modèle, ce qui se traduit par une inférence plus rapide, une fidélité accrue du modèle et une génération de texte de meilleure qualité. Nos modèles OmniQuant 3 bits surpassent ou égalent les performances des modèles quantifiés en 4 bits RTN utilisés par d'autres plateformes. Contrairement aux applications prenant en charge les fichiers GGUF disponibles sur Hugging Face, Private LLM quantifie les modèles en interne pour s'assurer qu'ils sont optimisés pour la vitesse, la précision et la qualité. Cette approche rigoureuse est l'une des raisons pour lesquelles Private LLM est une application payante, offrant une bien meilleure qualité que les applications locales de chat IA moins performantes et plus lentes.
Nous ajoutons régulièrement de nouveaux modèles à Private LLM en fonction des retours des utilisateurs, comme indiqué dans nos notes de version. Pour demander un modèle spécifique, rejoignez notre communauté Discord et partagez votre suggestion dans le canal #suggestions. Nous examinons toutes les demandes et priorisons les plus populaires pour les mises à jour futures.
Private LLM ne prend pas actuellement en charge la lecture de documents ou de fichiers, une fonctionnalité souvent appelée génération augmentée par la récupération (RAG). Cette fonctionnalité consiste à utiliser des documents externes pour enrichir les réponses du modèle, mais son efficacité dépend fortement de la longueur du contexte, c'est-à-dire la quantité maximale de texte que le modèle peut traiter dans une seule invite. Une longueur de contexte plus longue permet des réponses plus détaillées et précises, mais elle est exigeante en termes de calcul, en particulier sur les appareils locaux. Des concurrents comme Ollama prennent généralement en charge une longueur de contexte par défaut de 2k tokens, tandis que LM Studio utilise une longueur de contexte par défaut de 1500 tokens. En comparaison, Private LLM offre 8K tokens sur iPhone et iPad, et un impressionnant 32K tokens sur Mac, ce qui en fait l'une des solutions IA locales les plus performantes à cet égard. Cependant, toutes les implémentations actuelles d'IA locale, y compris Private LLM, rencontrent des difficultés avec les hallucinations lors du traitement de contenus textuels longs. Cette limitation survient parce que les modèles peuvent générer des informations incorrectes ou fabriquées lorsqu'ils sont submergés par des entrées étendues ou incomplètes. La quantification OmniQuant de Private LLM réduit considérablement les hallucinations par rapport à la quantification RTN utilisée par nos concurrents, mais ne les élimine pas complètement. Bien que nous visons à introduire des capacités de lecture de documents à l'avenir, les solutions basées sur des serveurs offrent actuellement les résultats les plus fiables pour RAG, car elles sont mieux équipées pour gérer des longueurs de contexte plus importantes et des exigences de calcul élevées.
Absolument pas. Private LLM se consacre à garantir votre vie privée, fonctionnant exclusivement hors ligne sans aucun accès à Internet pour ses fonctions ni accès à des données en temps réel. Une connexion Internet est uniquement requise lorsque vous choisissez de télécharger des mises à jour ou de nouveaux modèles, pendant lesquels aucune donnée personnelle n'est collectée, transmise, échangée ou recueillie. Notre philosophie de confidentialité est en accord avec les directives strictes de confidentialité et de sécurité d'Apple, et notre application respecte les normes les plus élevées de protection des données. Il convient de noter que, parfois, les utilisateurs peuvent se demander si Private LLM peut accéder à Internet, ce qui peut entraîner des hallucinations du modèle suggérant qu'il le peut. Cependant, ces réponses ne doivent pas être prises pour des faits. Si les utilisateurs souhaitent vérifier indépendamment les garanties de confidentialité de Private LLM, nous recommandons d'utiliser des outils de surveillance de réseau comme Little Snitch. De cette façon, vous pouvez vous-même constater que notre application maintient des contrôles stricts de confidentialité. Pour ceux intéressés par l'accès à des informations en temps réel, Private LLM s'intègre parfaitement avec Apple Shortcuts, vous permettant de récupérer des données à partir de flux RSS, de pages Web et même d'applications comme Calendrier, Rappels, Notes et plus encore. Cette fonctionnalité offre une solution créative pour intégrer des données actuelles dans vos interactions avec Private LLM, tout en maintenant son éthos de confidentialité hors ligne en premier lieu. Si vous avez des questions ou besoin de clarifications supplémentaires, n'hésitez pas à nous contacter.
Après un achat unique, vous pouvez télécharger et utiliser Private LLM sur tous vos appareils Apple. L'application prend en charge le Family Sharing, vous permettant de la partager avec les membres de votre famille.
Private LLM peut analyser et résumer de longs paragraphes de texte en quelques secondes. Il suffit de coller le contenu, et l'IA générera un résumé concis, le tout hors ligne. Vous pourriez également utiliser Private LLM pour reformuler et paraphraser avec des invites comme :
- Donnez-moi un TLDR sur ceci : [coller le contenu ici]
- Vous êtes un rédacteur expert. Veuillez reformuler ce qui suit avec vos propres mots : [coller le contenu]
- Paraphrasez le texte suivant pour qu'il sonne plus original : [coller le contenu]
Absolument ! Private LLM peut générer des suggestions et des idées perspicaces, ce qui en fait un outil puissant pour le brainstorming et la résolution de problèmes. Voici quelques exemples de prompts de brainstorming que vous pouvez essayer avec Private LLM. N'hésitez pas à expérimenter et à essayer vos propres prompts.
- Pouvez-vous me donner quelques thèmes potentiels pour un roman de science-fiction ?
- Je prévois d'ouvrir un restaurant rapide végétalien. Quelles sont les faiblesses de cette idée ?
- Je dirige une startup de développement logiciel de deux ans avec un produit qui a trouvé un ajustement produit-marché, envisageant d'introduire un nouveau produit logiciel dans un marché très différent. Utilisez la méthode des six chapeaux pour analyser cela.
- Utilisez le Modèle du Cercle d'Or pour créer une marque puissante pour une entreprise de conseil en gestion.
La température d'échantillonnage et Top-P sont des paramètres d'inférence universels pour tous les modèles transformers causaux décodeurs uniquement autoregressifs (également connus sous le nom de GPT), et ne sont pas spécifiques à Private LLM. L'application les a réglés sur des valeurs par défaut raisonnables (0,7 pour la température d'échantillonnage et 0,95 pour Top-p), mais vous pouvez toujours les ajuster et voir ce qui se passe. Veuillez noter que les modifications de ces paramètres ne prennent effet qu'après le redémarrage de l'application.
Ces paramètres contrôlent le compromis entre la génération de texte déterministe et la créativité. Des valeurs faibles conduisent à une réponse ennuyeuse mais cohérente, des valeurs plus élevées conduisent à des réponses créatives mais parfois incohérentes.
Private LLM fonctionne hors ligne et utilise un modèle transformer uniquement décodeur (également connu sous le nom de GPT) avec lequel vous pouvez converser de manière informelle. Il peut également vous aider à résumer des paragraphes de texte, générer des idées créatives et fournir des informations sur une large gamme de sujets.
Oui. Private LLM dispose de deux intentions d'application que vous pouvez utiliser avec Siri et l'application Shortcuts. Veuillez chercher Private LLM dans l'application Shortcuts. De plus, Private LLM prend également en charge la spécification x-callback-url , qui est également prise en charge par Shortcuts et de nombreuses autres applications. Voici un exemple de raccourci utilisant la fonctionnalité x-callback-url dans Private LLM.
La différence de fonctionnalité entre iOS et macOS concernant le traitement en arrière-plan découle principalement des politiques d'utilisation du matériel d'Apple. Sur iOS, Apple limite l'exécution en arrière-plan des tâches nécessitant une utilisation intensive du GPU. Cette restriction est appliquée pour préserver l'autonomie de la batterie et maintenir les performances du système. Selon les directives d'Apple, les applications tentant d'exécuter un kernel Metal en arrière-plan seront immédiatement arrêtées pour éviter une utilisation non autorisée des ressources. Avec Private LLM, nous pouvons effectuer des opérations en arrière-plan sur macOS en utilisant le GPU, tandis que les versions iOS sont limitées au traitement sur CPU lorsque l'application n'est pas au premier plan. Bien qu'il soit techniquement possible d'exécuter les tâches IA de Private LLM sur le CPU, cela serait nettement plus lent – plus de dix fois plus lent par rapport au traitement sur GPU. Cette lenteur ne fournirait pas l'expérience utilisateur fluide et efficace que nous visons. Nous espérons que de futures mises à jour d'iOS offriront plus de flexibilité sur la façon dont les processus en arrière-plan peuvent utiliser les ressources système, y compris un accès potentiel au GPU pour les applications comme Private LLM. D'ici là, nous continuons d'optimiser notre application iOS dans les limites actuelles pour vous offrir les meilleures performances possibles sans compromettre la santé de votre appareil ou l'efficacité de vos applications. Pour plus de détails techniques, vous pouvez consulter la documentation officielle d'Apple sur la préparation de votre application Metal à une exécution en arrière-plan : Apple Developer Documentation.
Cela pourrait être dû au fait que l'appareil manque de mémoire, ou si la tâche donnée à Private LLM est particulièrement complexe. Dans de tels cas, envisagez de fermer les applications gourmandes en mémoire qui pourraient être en cours d'exécution en arrière-plan et essayez de décomposer la demande en tâches plus petites et plus gérables pour le LLM à traiter. Dans le dernier cas, simplement répondre par « Continuer », « Allez » ou « Dites-moi » fonctionne également.
Nous sommes désolés d'apprendre que vous envisagez un remboursement. Vous pouvez demander un remboursement via l'Apple App Store. Il suffit de naviguer dans l'historique des achats de votre compte Apple, de trouver Private LLM et de cliquer sur 'Signaler un problème' pour initier le processus de remboursement. Nous aimerions également recevoir vos commentaires sur la façon dont nous pouvons nous améliorer. Veuillez nous contacter avec vos retours.
Nous serions ravis de vous entendre ! Rejoignez notre communauté Discord pour partager vos idées et obtenir de l'aide d'autres utilisateurs. Vous préférez une conversation privée ? Utilisez le formulaire de contact sur notre site web pour nous envoyer un e-mail directement.