Perguntas Frequentes
O Private LLM é seu chatbot de IA privado, projetado para privacidade, conveniência e criatividade. Ele opera inteiramente offline no seu iPhone, iPad e Mac, garantindo que seus dados permaneçam seguros e confidenciais. O Private LLM é uma compra única na App Store, permitindo acesso ilimitado sem taxas de assinatura. obs: Odiamos assinaturas e não somos hipócritas a ponto de submeter nossos usuários ao que odiamos.
Primeiro, o Private LLM se destaca de outras soluções de IA local por suas técnicas avançadas de quantização de modelos, como OmniQuant e GPTQ. Ao contrário da quantização ingênua Round-To-Nearest (RTN) usada por outros apps concorrentes baseados nos frameworks MLX e llama.cpp, a quantização OmniQuant e GPTQ são métodos baseados em otimização. Esses métodos permitem um controle mais preciso sobre a faixa de quantização, mantendo efetivamente a integridade da distribuição de peso original. Como resultado, o Private LLM alcança desempenho e precisão superiores, quase igualando o desempenho de um modelo de ponto flutuante de 16 bits (fp16) não quantizado, mas com requisitos computacionais significativamente reduzidos no momento da inferência.
Embora o processo de quantizar modelos com OmniQuant e GPTQ seja computacionalmente intensivo, é um investimento que vale a pena. Essa abordagem avançada garante que a perplexidade (uma medida da qualidade de geração de texto do modelo) do modelo quantizado permaneça muito mais próxima da do modelo fp16 original do que é possível com a quantização RTN ingênua. Isso garante que os usuários do Private LLM desfrutem de uma experiência de IA fluida, eficiente e de alta qualidade, nos diferenciando de outras aplicações similares.
Em segundo lugar, ao contrário de quase todos os outros apps de LLM offline concorrentes, o Private LLM não é baseado em llama.cpp ou MLX. Isso significa que recursos avançados que não estão disponíveis no llama.cpp e MLX (e, por extensão, nos apps que os usam), como attention sinks e sliding window attention, estão disponíveis no Private LLM, mas indisponíveis[1] em outros lugares. Isso também significa que nosso app é significativamente mais rápido que a concorrência no mesmo hardware (vídeos do YouTube comparando desempenho).
Finalmente, somos engenheiros de aprendizado de máquina e ajustamos cuidadosamente a quantização e os parâmetros em cada modelo para maximizar a qualidade da geração de texto. Por exemplo, não quantizamos as camadas de embeddings e gate em modelos Mixtral porque quantizá-las afeta negativamente a perplexidade do modelo (desnecessário mencionar que nossa concorrência quantiza tudo ingenuamente). Da mesma forma, com os modelos Gemma, quantizar os embeddings vinculados ao peso prejudica a perplexidade do modelo, então não o fazemos (enquanto nossos concorrentes fazem). Além disso, no modelo phi-4 da Microsoft, mantemos seletivamente algumas camadas críticas não quantizadas (quantização dinâmica) para manter a qualidade ideal de geração de texto.
Ao priorizar a precisão e a eficiência computacional sem comprometer a privacidade e a funcionalidade offline, o Private LLM oferece uma solução única para usuários de iOS e macOS que buscam uma experiência de IA poderosa, privada e personalizada.
Rodar modelos de linguagem grandes (LLMs) no dispositivo é um processo que consome muita memória, pois requer RAM significativa para carregar e executar modelos com eficiência. Além disso, o Private LLM geralmente não é o único app rodando no seu iPhone, iPad ou Mac. Outros apps, especialmente os que consomem muita memória, podem competir por recursos do sistema, impactando o desempenho do Private LLM.
Em iPhones, dispositivos mais antigos como o iPhone SE 2ª Geração (3GB de RAM) podem rodar modelos menores como Llama 3.2 1B e Qwen 2.5 0.5B/1.5B, mas a experiência pode ser limitada devido a restrições de hardware. Começando com o iPhone 12 (4GB de RAM), o desempenho melhora com acesso a modelos de 3B ligeiramente maiores. Para a melhor experiência, recomendamos usar o iPhone 15 Pro ou mais recente, equipado com 8GB de RAM. Esses dispositivos são capazes de rodar modelos maiores como Llama 3.1 8B ou Qwen 2.5 7B com facilidade. Embora o Private LLM possa tecnicamente ser instalado em dispositivos anteriores ao iPhone 12, não recomendamos mais a compra do app para tais dispositivos, pois o feedback dos usuários mostrou que hardware desatualizado limita significativamente a experiência. Usuários com dispositivos mais antigos ainda podem comprar o app, mas o suporte e o desempenho ideal não são garantidos.
Em iPads, a história é semelhante. Dispositivos com pelo menos 4GB de RAM podem rodar modelos comparáveis aos de iPhones intermediários. Para obter os melhores resultados, o iPad Pro topo de linha com 16GB de RAM é o ideal, pois suporta modelos ainda maiores como Qwen 2.5 14B ou Google Gemma 2 9B. Essa capacidade inigualável torna o iPad Pro uma escolha poderosa para rodar o Private LLM.
Em Macs, a transição para o Apple Silicon estabeleceu novos benchmarks para o desempenho de IA local. Embora o Private LLM possa ser instalado em Macs com Intel, recomendamos fortemente o uso de Macs baseados em Apple Silicon para uma experiência significativamente mais fluida. Em Macs com Apple Silicon com 8GB de RAM, você pode rodar modelos comparáveis aos suportados nos iPhones mais recentes, como Llama 3.1 8B e Qwen 2.5 7B. Macs com 16GB de RAM, como o iPad Pro de ponta, podem lidar com modelos ainda maiores como Qwen 2.5 14B ou Google Gemma 2 9B. Com 32GB de RAM, Macs podem rodar modelos maiores como Phi-4, Qwen 2.5 32B e, para a experiência definitiva, Macs com Apple Silicon com pelo menos 48GB de RAM entregam o desempenho ideal com modelos como Llama 3.3 70B.
O Private LLM foi projetado para trazer o poder da IA local para uma ampla gama de dispositivos Apple, mas para o melhor desempenho, recomendamos fortemente dispositivos com mais memória. Se você ainda não tem certeza sobre a compatibilidade do seu dispositivo ou precisa de mais assistência, junte-se à nossa comunidade no Discord para se conectar conosco e com outros usuários que podem ajudar!
O Private LLM é um produto independente criado por dois desenvolvedores, sem financiamento de VCs. Nossos concorrentes, como Ollama e LM Studio, são empresas apoiadas por VCs. Alguns deles têm cláusulas onerosas escondidas em seus termos de uso que proíbem o uso para fins comerciais ou de produção. Não impomos nenhuma restrição sobre como nossos usuários usam nosso app. Nosso modelo de pagamento único e independente não é perfeito e tem suas desvantagens, como não poder comprar anúncios, posts de influenciadores e selos de verificação dourados no Twitter. Mas o lado positivo é que não temos pressão de VCs para vigiar e monetizar agressivamente nossos usuários; e podemos focar 100% na construção do produto para nossos usuários e para nós mesmos.
No Private LLM, priorizamos a qualidade e a independência. Para alcançar um desempenho superior, quantizamos cuidadosamente cada modelo usando técnicas avançadas como OmniQuant e GPTQ. Esse processo requer recursos substanciais, incluindo o aluguel de GPUs, que estão longe de ser gratuitos. Todos os nossos concorrentes usam quantização RTN (round to nearest), que é muito barata em termos de recursos, mas resulta em modelos quantizados de baixa qualidade. Como uma pequena empresa independente, gastamos muito tempo e recursos quantizando modelos com algoritmos de quantização SOTA, porque é uma troca que vale a pena em termos de qualidade. O resultado é uma experiência de IA inigualável que se destaca em termos de precisão e velocidade.
A privacidade é outro valor central do Private LLM. Processamos tudo localmente no seu dispositivo, com zero coleta de dados ou rastreamento. Fazer tal afirmação não é fácil, especialmente quando você é apoiado por VCs e está sob pressão para encontrar fluxos de receita escaláveis. Ao permanecer independentes, garantimos que seus dados sempre permaneçam privados.
Produtos gratuitos podem parecer atraentes, especialmente quando influenciadores os promovem agressivamente, mas, na realidade, eles geralmente entregam uma qualidade de geração de texto inferior. O Private LLM adota uma abordagem diferente, oferecendo uma geração de texto que está léguas à frente em coerência, precisão e contexto. Ao cobrar uma taxa única, o Private LLM oferece uma solução de IA focada no usuário, priorizando a privacidade e entregando uma saída de texto de alta qualidade que nossos concorrentes não conseguem chegar nem perto.
O Private LLM oferece uma variedade de modelos para atender a diversas necessidades de idioma. Nossa seleção inclui as famílias Llama 3, Qwen 2.5 e Gemma 3, todas suportando vários idiomas. O Llama 3 é proficiente em inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês; o Qwen 2.5 estende o suporte a mais de 29 idiomas, incluindo chinês, inglês, francês, espanhol, português, alemão, italiano, russo, japonês, coreano, vietnamita, tailandês e árabe; e o Gemma 3 suporta mais de 140 idiomas em todo o mundo. Para usuários que buscam modelos adaptados a idiomas específicos que não sejam o inglês, o Private LLM oferece opções como SauerkrautLM Gemma-2 2B IT para alemão, DictaLM 2.0 Instruct para hebraico, RakutenAI 7B Chat para japonês e Yi 6B Chat ou Yi 34B Chat para chinês. Essa seleção diversificada garante que os usuários possam escolher o modelo que melhor se adapta às suas necessidades de idioma.
O Private LLM garante qualidade e desempenho superiores de geração de texto utilizando estratégias avançadas de quantização como OmniQuant e GPTQ, que levam inúmeras horas para quantizar cuidadosamente cada modelo em GPUs. Esse processo meticuloso preserva a distribuição de peso do modelo de forma mais eficaz, resultando em inferência mais rápida, maior fidelidade do modelo e geração de texto de maior qualidade. Nossos modelos OmniQuant de 3 bits superam ou igualam o desempenho de modelos quantizados RTN de 4 bits usados por outras plataformas. Ao contrário de apps que suportam arquivos GGUF prontamente disponíveis no Hugging Face, o Private LLM quantiza modelos internamente, garantindo que sejam otimizados para velocidade, precisão e qualidade. Essa abordagem rigorosa é uma das razões pelas quais o Private LLM é um app pago, oferecendo muito mais qualidade em comparação com apps de chat de IA local mais lentos e menos capazes.
Adicionamos regularmente novos modelos ao Private LLM com base no feedback dos usuários, conforme mostrado em nossas notas de lançamento. Para solicitar um modelo específico, junte-se à nossa comunidade no Discord e compartilhe sua sugestão no canal #suggestions. Analisamos todas as solicitações e priorizamos as populares para futuras atualizações.
O Private LLM não suporta atualmente a leitura de documentos ou arquivos, um recurso frequentemente referido como Geração Aumentada por Recuperação (RAG). Essa funcionalidade envolve o uso de documentos externos para enriquecer as respostas do modelo, mas sua eficácia depende muito do tamanho do contexto — a quantidade máxima de texto que o modelo pode processar em um único prompt. Um tamanho de contexto maior permite respostas mais detalhadas e precisas, mas é computacionalmente exigente, particularmente em dispositivos locais. Concorrentes como o Ollama normalmente suportam um tamanho de contexto padrão de 2k tokens, enquanto o LM Studio define como padrão um tamanho de contexto de 1500 tokens. Em comparação, o Private LLM oferece 8K tokens no iPhone e iPad, e impressionantes 32K tokens em Macs, tornando-o uma das soluções de IA local mais capazes nesse aspecto. No entanto, todas as implementações de IA local atuais, incluindo o Private LLM, enfrentam desafios com alucinações ao processar conteúdo textual longo. Essa limitação surge porque os modelos podem gerar informações incorretas ou fabricadas quando sobrecarregados por entradas extensas ou incompletas. A quantização OmniQuant do Private LLM reduz significativamente as alucinações em comparação com a quantização RTN usada por nossa concorrência, mas não as elimina completamente. Embora nosso objetivo seja introduzir recursos de leitura de documentos no futuro, soluções baseadas em servidor atualmente oferecem os resultados mais confiáveis para RAG, pois estão melhor equipadas para lidar com tamanhos de contexto maiores e demandas computacionais.
Absolutamente não. O Private LLM se dedica a garantir sua privacidade, operando exclusivamente offline, sem qualquer acesso à internet para suas funções ou acesso a dados em tempo real. Uma conexão com a internet só é necessária quando você opta por baixar atualizações ou novos modelos, durante os quais nenhum dado pessoal é coletado, transmitido, trocado ou coletado. Nossa filosofia de privacidade está alinhada com as diretrizes rigorosas de privacidade e segurança da Apple, e nosso app mantém os mais altos padrões de proteção de dados. Vale notar que, ocasionalmente, os usuários podem perguntar se o Private LLM pode acessar a internet, levando a potenciais alucinações do modelo sugerindo que ele pode. No entanto, essas respostas não devem ser consideradas factuais. Se os usuários quiserem verificar independentemente as garantias de privacidade do Private LLM, recomendamos o uso de ferramentas de monitoramento de rede como o Little Snitch. Dessa forma, você pode ver por si mesmo que nosso app mantém controles de privacidade rigorosos. Para aqueles interessados em acessar informações em tempo real, o Private LLM se integra perfeitamente aos Apple Shortcuts, permitindo que você extraia dados de feeds RSS, páginas da web e até mesmo apps como Calendário, Lembretes, Notas e muito mais. Esse recurso oferece uma solução criativa para incorporar dados atuais em suas interações com o Private LLM, mantendo seu ethos de privacidade offline em primeiro lugar. Se você tiver alguma dúvida ou precisar de mais esclarecimentos, não hesite em entrar em contato conosco.
Após uma compra única, você pode baixar e usar o Private LLM em todos os seus dispositivos Apple. O app suporta Compartilhamento Familiar, permitindo que você o compartilhe com seus familiares.
O Private LLM pode analisar e resumir longos parágrafos de texto em segundos. Basta colar o conteúdo e a IA gerará um resumo conciso, tudo offline. Você também pode usar o Private LLM para reescrever e parafrasear com prompts como:
- Dê-me um resumo rápido disto: [cole o conteúdo aqui]
- Você é um redator especialista. Por favor, reescreva o seguinte com suas próprias palavras: [cole o conteúdo]
- Parafraseie o texto a seguir para que soe mais original: [cole o conteúdo]
Com certeza! O Private LLM pode gerar sugestões e ideias perspicazes, tornando-se uma ferramenta poderosa para tarefas de brainstorming e resolução de problemas. Aqui estão alguns exemplos de prompts de brainstorming que você pode tentar perguntar ao Private LLM. Sinta-se à vontade para experimentar e testar seus próprios prompts.
- Você pode me dar alguns temas potenciais para um romance de ficção científica?
- Estou planejando abrir um restaurante fast-food vegano. Quais são as fraquezas dessa ideia?
- Eu dirijo uma startup de desenvolvimento de software de dois anos com um produto que tem PMF, planejando introduzir um novo produto de software em um mercado muito diferente. Use o método dos seis chapéus para analisar isso.
- Utilize o Modelo do Círculo Dourado para criar uma marca poderosa para uma empresa de consultoria de gestão.
A temperatura de amostragem e o Top-P são parâmetros de inferência universais para todos os modelos de transformador apenas decodificador causal autorregressivo (também conhecido como GPT) e não são específicos do Private LLM. O app os define com padrões razoáveis (0,7 para Temperatura de amostragem e 0,95 para Top-p), mas você sempre pode ajustá-los e ver o que acontece. Lembre-se de que as alterações nesses parâmetros não entram em vigor até que o app seja reiniciado.
Esses parâmetros controlam o equilíbrio entre a geração de texto determinística e a criatividade. Valores baixos levam a respostas chatas, mas coerentes; valores mais altos levam a respostas criativas, mas às vezes incoerentes.
O Private LLM funciona offline e usa um modelo de transformador apenas decodificador (também conhecido como GPT) com o qual você pode conversar casualmente. Ele também pode ajudar a resumir parágrafos de texto, gerar ideias criativas e fornecer informações sobre uma ampla gama de tópicos.
Sim. O Private LLM possui dois intents de app que você pode usar com o Siri e o app Shortcuts. Procure pelo Private LLM no app Shortcuts. Além disso, o Private LLM também suporta a especificação x-callback-url , que também é suportada pelo Shortcuts e muitos outros apps. Aqui está um exemplo de shortcut usando a funcionalidade x-callback-url no Private LLM.
O Private LLM é um app macOS totalmente em sandbox, o que significa que os modelos são armazenados dentro do contêiner do app em: ~/Library/Containers/ie.numen.personalgpt/Data/Library/Application Support/ie.numen.personalgpt/models. No macOS Sequoia e posterior, você pode aproveitar a capacidade do sistema de mover apps grandes para um disco externo. Mover o app também moverá os modelos armazenados dentro dele. Este é o método recomendado para liberar espaço se o armazenamento interno do seu Mac estiver ficando baixo.
Se você está enfrentando dificuldades para baixar modelos no Private LLM, geralmente é devido a problemas temporários de conectividade com o Hugging Face, onde nossos modelos estão hospedados. Você pode verificar rapidamente a página de status do Hugging Face para ver se há alguma interrupção em andamento. Em alguns casos, restrições de rede de firewalls corporativos, escolares ou nacionais podem limitar o acesso ao Hugging Face, o que pode afetar os downloads. Se você estiver em uma rede desse tipo, recomendamos mudar para um Wi-Fi doméstico ou hotspot móvel, ou usar uma VPN para contornar essas restrições.
Para usuários na China ou Hong Kong, o Private LLM alterna automaticamente para hf-mirror.com para melhorar a confiabilidade do download quando o local do seu dispositivo está definido para essas regiões. Isso ajuda a garantir um acesso mais fluido sem configuração adicional da sua parte.
Se você ainda estiver encontrando problemas após verificar sua conexão, tente reiniciar o app ou seu dispositivo. Para problemas contínuos, entre em nossa comunidade no Discord e compartilhe os detalhes no canal de suporte — estamos sempre por perto para ajudar a solucionar problemas!
A diferença de funcionalidade entre iOS e macOS em relação ao processamento em segundo plano decorre principalmente das políticas de uso de hardware da Apple. No iOS, a Apple restringe a execução em segundo plano de tarefas que exigem uso intensivo de GPU. Essa limitação é imposta para preservar a vida útil da bateria e manter o desempenho do sistema. De acordo com as diretrizes da Apple, apps que tentam rodar um kernel Metal em segundo plano serão encerrados imediatamente para evitar o uso não autorizado de recursos. Para o Private LLM, embora possamos rodar operações em segundo plano no macOS aproveitando a GPU, as versões para iOS são limitadas ao processamento de CPU quando o app não está em primeiro plano. Rodar tarefas baseadas em IA do Private LLM na CPU é tecnicamente possível, mas seria significativamente mais lento — mais de 10x mais lento em comparação com o processamento de GPU. Esse desempenho lento não proporcionaria a experiência de usuário fluida e eficiente que buscamos. Esperamos que futuras atualizações do iOS possam oferecer mais flexibilidade sobre como os processos em segundo plano podem utilizar recursos do sistema, incluindo acesso potencial à GPU para apps como o Private LLM. Até lá, continuamos a otimizar nosso app para iOS dentro das restrições atuais para garantir que você obtenha o melhor desempenho possível sem comprometer a saúde do seu dispositivo ou a eficiência de suas aplicações. Para mais detalhes técnicos, você pode consultar a documentação oficial da Apple sobre como preparar seu app Metal para rodar em segundo plano: Documentação do Desenvolvedor Apple.
O iOS 26 introduz uma nova permissão de acesso à GPU em segundo plano (com.apple.developer.background-tasks.continued-processing.gpu). No entanto, ela só é ativada após uma interação direta do usuário (toque, deslize, etc.) de dentro do app, portanto, não permitirá rodar LLMs locais a partir de Shortcuts inteiramente em segundo plano.
Ao tentar carregar modelos no Private LLM, você pode ocasionalmente ver uma mensagem de erro informando "Falling back on built-in model due to a crash while loading the model." (Voltando para o modelo integrado devido a uma falha ao carregar o modelo). Isso geralmente ocorre quando seu dispositivo não tem memória disponível suficiente para carregar o modelo selecionado. Essas falhas podem acontecer porque seu dispositivo tem RAM disponível limitada, outros apps estão usando memória significativa em segundo plano ou vários processos que consomem muitos recursos estão rodando simultaneamente. Para resolver esse problema, primeiro tente fechar apps de segundo plano que consomem muita memória. Se o problema persistir após reiniciar o Private LLM, você pode mudar para um modelo menor, reiniciar seu dispositivo para limpar a memória ou verificar se seu dispositivo atende aos requisitos de RAM recomendados para o modelo. Se você continuar enfrentando falhas após tentar essas soluções, considere usar um modelo menor que corresponda melhor às capacidades do seu dispositivo.
Isso pode ocorrer devido à falta de memória no dispositivo ou se a tarefa dada ao Private LLM for particularmente complexa. Nesses casos, considere fechar apps que consomem muita memória e que podem estar rodando em segundo plano e tente dividir a solicitação em tarefas menores e mais gerenciáveis para o LLM processar. No último caso, simplesmente responder com "Continue", "Prossiga" ou "Diga-me" também funciona.
Sim, o Private LLM agora está disponível para Android como um beta inicial! Embora nosso foco principal continue sendo oferecer a melhor experiência de IA para dispositivos Apple, estamos nos expandindo para o Android para atender a mais usuários que valorizam a privacidade e a IA offline. A versão Android está atualmente disponível como um download direto de APK (ainda não na Google Play Store) e inclui muitos dos recursos principais de nossas versões para iOS/macOS. Como este é um lançamento beta inicial, você pode encontrar algumas limitações ou problemas de estabilidade em comparação com nossas versões mais maduras para plataformas Apple. Recomendamos fortemente que você se junte à nossa comunidade no Discord para compartilhar seu feedback, relatar quaisquer problemas e nos ajudar a melhorar a experiência no Android. Sua contribuição nesta fase é incrivelmente valiosa enquanto trabalhamos para um lançamento completo na Google Play Store. Você pode baixar o APK em nosso site.
Lamentamos saber que você está considerando um reembolso. Você pode solicitar um reembolso através da Apple App Store. Basta navegar até o histórico de compras da sua conta Apple, encontrar o Private LLM e clicar em "Relatar um Problema" para iniciar o processo de reembolso. Também adoraríamos ouvir de você sobre como podemos melhorar. Por favor, entre em contato conosco com seu feedback.
Adoraríamos ouvir você! Junte-se à nossa comunidade no Discord para compartilhar suas ideias e obter suporte de outros usuários. Prefere uma conversa privada? Use o formulário de contato em nosso site para nos enviar um e-mail diretamente.