Domande frequenti
Private LLM è il tuo chatbot AI privato, progettato per la privacy, la comodità e la creatività. Funziona interamente offline su iPhone, iPad e Mac, garantendo che i tuoi dati rimangano sicuri e riservati. Private LLM è un acquisto una tantum sull'App Store, che ti consente un accesso illimitato senza costi di abbonamento. nb: Odiamo gli abbonamenti e non siamo così ipocriti da sottoporre i nostri utenti a ciò che odiamo.
In primo luogo, Private LLM si distingue dalle altre soluzioni AI locali grazie alle sue tecniche avanzate di quantizzazione dei modelli come OmniQuant e GPTQ. A differenza della naif quantizzazione Round-To-Nearest (RTN) utilizzata da altre app concorrenti basate sui framework MLX e llama.cpp, la quantizzazione OmniQuant e GPTQ sono metodi basati sull'ottimizzazione. Questi metodi consentono un controllo più preciso sull'intervallo di quantizzazione, mantenendo efficacemente l'integrità della distribuzione originale dei pesi. Di conseguenza, Private LLM ottiene prestazioni e precisione del modello superiori, quasi eguagliando le prestazioni di un modello in virgola mobile a 16 bit (fp16) non quantizzato, ma con requisiti computazionali significativamente ridotti al momento dell'inferenza.
Sebbene il processo di quantizzazione dei modelli con OmniQuant e GPTQ sia computazionalmente intensivo, è un investimento utile. Questo approccio avanzato garantisce che la perplessità (una misura della qualità della generazione del testo del modello) del modello quantizzato rimanga molto più vicina a quella del modello fp16 originale rispetto a quanto sia possibile con la naif quantizzazione RTN. Ciò garantisce che gli utenti di Private LLM godano di un'esperienza AI fluida, efficiente e di alta qualità, distinguendoci da altre applicazioni simili.
In secondo luogo, a differenza di quasi tutte le altre app LLM offline concorrenti, Private LLM non si basa su llama.cpp o MLX. Ciò significa che funzionalità avanzate non disponibili in llama.cpp e MLX (e di conseguenza nelle app che li utilizzano), come gli attention sinks e lo sliding window attention, sono disponibili in Private LLM, ma non altrove[1]. Ciò significa anche che la nostra app è significativamente più veloce della concorrenza sullo stesso hardware (video YouTube che confrontano le prestazioni).
Infine, siamo ingegneri di machine learning e ottimizziamo attentamente la quantizzazione e i parametri in ogni modello per massimizzare la qualità della generazione del testo. Ad esempio, non quantizziamo gli embedding e i layer gate nei modelli Mixtral perché quantizzarli influisce negativamente sulla perplessità del modello (inutile dire che la nostra concorrenza quantizza ingenuamente tutto). Allo stesso modo con i modelli Gemma, quantizzare gli embedding legati ai pesi danneggia la perplessità del modello, quindi non lo facciamo (mentre i nostri concorrenti lo fanno). Inoltre, sul modello Microsoft phi-4, manteniamo selettivamente alcuni layer critici non quantizzati (quantizzazione dinamica) per mantenere una qualità di generazione del testo ottimale.
Dando priorità alla precisione e all'efficienza computazionale senza compromettere la privacy e la funzionalità offline, Private LLM fornisce una soluzione unica per gli utenti iOS e macOS che cercano un'esperienza AI potente, privata e personalizzata.
L'esecuzione di modelli linguistici di grandi dimensioni (LLM) sul dispositivo è un processo che richiede molta memoria, poiché richiede una RAM significativa per caricare ed eseguire i modelli in modo efficiente. Inoltre, Private LLM di solito non è l'unica app in esecuzione sul tuo iPhone, iPad o Mac. Altre app, specialmente quelle che consumano molta memoria, possono competere per le risorse di sistema, influenzando le prestazioni di Private LLM.
Sugli iPhone, i dispositivi più vecchi come l'iPhone SE di 2a generazione (3GB di RAM) possono eseguire modelli più piccoli come Llama 3.2 1B e Qwen 2.5 0.5B/1.5B, ma l'esperienza potrebbe essere limitata a causa dei vincoli hardware. A partire dall'iPhone 12 (4GB di RAM), le prestazioni migliorano con l'accesso a modelli da 3B leggermente più grandi. Per la migliore esperienza, consigliamo di utilizzare l'iPhone 15 Pro o versioni successive, dotate di 8GB di RAM. Questi dispositivi sono in grado di eseguire modelli più grandi come Llama 3.1 8B o Qwen 2.5 7B con facilità. Sebbene Private LLM possa tecnicamente essere installato su dispositivi precedenti all'iPhone 12, non consigliamo più l'acquisto dell'app per tali dispositivi, poiché il feedback degli utenti ha dimostrato che l'hardware obsoleto limita significativamente l'esperienza. Gli utenti con dispositivi più vecchi possono ancora acquistare l'app, ma il supporto e le prestazioni ottimali non sono garantiti.
Sugli iPad, la storia è simile. I dispositivi con almeno 4GB di RAM possono eseguire modelli paragonabili a quelli su iPhone di fascia media. Per i migliori risultati, l'iPad Pro top di gamma con 16GB di RAM è l'ideale, poiché supporta modelli ancora più grandi come Qwen 2.5 14B o Google Gemma 2 9B. Questa capacità senza pari rende l'iPad Pro una scelta potente per l'esecuzione di Private LLM.
Sui Mac, la transizione ad Apple Silicon ha stabilito nuovi parametri di riferimento per le prestazioni dell'AI locale. Sebbene Private LLM possa essere installato su Mac Intel, consigliamo vivamente di utilizzare Mac basati su Apple Silicon per un'esperienza significativamente più fluida. Sui Mac Apple Silicon con 8GB di RAM, puoi eseguire modelli paragonabili a quelli supportati sugli ultimi iPhone, come Llama 3.1 8B e Qwen 2.5 7B. I Mac con 16GB di RAM, come l'iPad Pro top di gamma, possono gestire modelli ancora più grandi come Qwen 2.5 14B o Google Gemma 2 9B. Con 32GB di RAM, i Mac possono eseguire modelli più grandi come Phi-4, Qwen 2.5 32B e per l'esperienza definitiva, i Mac Apple Silicon con almeno 48GB di RAM offrono prestazioni ottimali con modelli come Llama 3.3 70B.
Private LLM è progettato per portare la potenza dell'AI locale su una vasta gamma di dispositivi Apple, ma per le migliori prestazioni, consigliamo vivamente dispositivi con più memoria. Se non sei ancora sicuro della compatibilità del tuo dispositivo o hai bisogno di ulteriore assistenza, unisciti alla nostra community Discord per connetterti con noi e altri utenti che possono aiutarti!
Private LLM è un prodotto autofinanziato creato da due sviluppatori, privo di finanziamenti VC. I nostri concorrenti come Ollama e LM Studio sono aziende sostenute da VC. Alcuni di loro hanno clausole onerose nascoste nei loro termini di utilizzo che vietano l'uso per scopi commerciali o di produzione. Non imponiamo alcuna restrizione su come i nostri utenti utilizzano la nostra app. Il nostro modello di pagamento una tantum autofinanziato non è perfetto e ha i suoi lati negativi, come non poter acquistare annunci, post di influencer e spunte dorate su Twitter. Ma il rovescio della medaglia è che non abbiamo la pressione dei VC per sorvegliare e monetizzare aggressivamente i nostri utenti; e possiamo concentrarci al 100% sulla creazione del prodotto per i nostri utenti e per noi.
In Private LLM, diamo priorità alla qualità e all'indipendenza. Per ottenere prestazioni superiori, quantizziamo attentamente ogni modello utilizzando tecniche avanzate come OmniQuant e GPTQ. Questo processo richiede risorse sostanziali, incluso l'affitto di GPU, che sono tutt'altro che gratuite. Tutti i nostri concorrenti utilizzano la quantizzazione RTN (round to nearest), che è molto economica in termini di risorse ma porta a modelli quantizzati di scarsa qualità. Come piccola azienda indipendente, spendiamo molto tempo e risorse per quantizzare i modelli con algoritmi di quantizzazione SOTA, perché è un compromesso utile in termini di qualità. Il risultato è un'esperienza AI senza pari che si distingue in termini di precisione e velocità.
La privacy è un altro valore fondamentale di Private LLM. Elaboriamo tutto localmente sul tuo dispositivo, con zero raccolta dati o tracciamento. Fare una tale affermazione non è facile, specialmente quando sei sostenuto da VC e sotto pressione per trovare flussi di entrate scalabili. Rimanendo indipendenti, garantiamo che i tuoi dati rimangano sempre privati.
I prodotti gratuiti possono sembrare allettanti, specialmente quando gli influencer li promuovono in modo aggressivo, ma in realtà spesso offrono una qualità di generazione del testo inferiore. Private LLM adotta un approccio diverso, offrendo una generazione di testo che è anni luce avanti in coerenza, precisione e contesto. Addebitando una tariffa una tantum, Private LLM fornisce una soluzione AI incentrata sull'utente, orientata alla privacy e che offre un output di testo di alta qualità a cui i nostri concorrenti non possono nemmeno avvicinarsi.
Private LLM offre una gamma di modelli per soddisfare diverse esigenze linguistiche. La nostra selezione include le famiglie Llama 3, Qwen 2.5 e Gemma 3, tutte supportano più lingue. Llama 3 è competente in inglese, tedesco, francese, italiano, portoghese, hindi, spagnolo e tailandese; Qwen 2.5 estende il supporto a oltre 29 lingue tra cui cinese, inglese, francese, spagnolo, portoghese, tedesco, italiano, russo, giapponese, coreano, vietnamita, tailandese e arabo; e Gemma 3 supporta più di 140 lingue in tutto il mondo. Per gli utenti che cercano modelli su misura per lingue specifiche non inglesi, Private LLM fornisce opzioni come SauerkrautLM Gemma-2 2B IT per il tedesco, DictaLM 2.0 Instruct per l'ebraico, RakutenAI 7B Chat per il giapponese e Yi 6B Chat o Yi 34B Chat per il cinese. Questa vasta selezione garantisce che gli utenti possano scegliere il modello che meglio si adatta alle loro esigenze linguistiche.
Private LLM garantisce una qualità e prestazioni di generazione del testo superiori utilizzando strategie di quantizzazione avanzate come OmniQuant e GPTQ, che richiedono numerose ore per quantizzare attentamente ogni modello sulle GPU. Questo processo meticoloso preserva la distribuzione dei pesi del modello in modo più efficace, risultando in un'inferenza più rapida, una maggiore fedeltà del modello e una generazione di testo di qualità superiore. I nostri modelli OmniQuant a 3 bit superano o eguagliano le prestazioni dei modelli quantizzati RTN a 4 bit utilizzati da altre piattaforme. A differenza delle app che supportano file GGUF prontamente disponibili da Hugging Face, Private LLM quantizza i modelli internamente, assicurando che siano ottimizzati per velocità, precisione e qualità. Questo approccio rigoroso è uno dei motivi per cui Private LLM è un'app a pagamento, offrendo una qualità decisamente migliore rispetto alle app di chat AI locali più lente e meno capaci.
Aggiungiamo regolarmente nuovi modelli a Private LLM in base al feedback degli utenti, come mostrato nelle nostre note di rilascio. Per richiedere un modello specifico, unisciti alla nostra community Discord e condividi il tuo suggerimento nel canale #suggestions. Esaminiamo tutte le richieste e diamo priorità a quelle popolari per i futuri aggiornamenti.
Private LLM attualmente non supporta la lettura di documenti o file, una funzionalità spesso definita Retrieval-Augmented Generation (RAG). Questa funzionalità prevede l'utilizzo di documenti esterni per arricchire le risposte del modello, ma la sua efficacia dipende fortemente dalla lunghezza del contesto, ovvero la quantità massima di testo che il modello può elaborare in un singolo prompt. Una lunghezza del contesto maggiore consente risposte più dettagliate e precise, ma è computazionalmente impegnativa, in particolare sui dispositivi locali. I concorrenti come Ollama supportano tipicamente una lunghezza del contesto predefinita di 2k token, mentre LM Studio imposta per impostazione predefinita una lunghezza del contesto di 1500 token. In confronto, Private LLM fornisce 8K token su iPhone e iPad e ben 32K token su Mac, rendendolo una delle soluzioni AI locali più capaci sotto questo aspetto. Tuttavia, tutte le attuali implementazioni AI locali, inclusa Private LLM, affrontano sfide con le allucinazioni durante l'elaborazione di lunghi contenuti testuali. Questa limitazione sorge perché i modelli possono generare informazioni errate o fabbricate quando sopraffatti da input estesi o incompleti. La quantizzazione OmniQuant di Private LLM riduce significativamente le allucinazioni rispetto alla quantizzazione RTN utilizzata dalla nostra concorrenza, ma non le elimina completamente. Sebbene miriamo a introdurre funzionalità di lettura dei documenti in futuro, le soluzioni basate su server offrono attualmente i risultati più affidabili per RAG, poiché sono meglio attrezzate per gestire lunghezze di contesto maggiori e richieste computazionali.
Assolutamente no. Private LLM si dedica a garantire la tua privacy, operando esclusivamente offline senza alcun accesso a internet per le sue funzioni o per accedere a dati in tempo reale. Una connessione internet è richiesta solo quando scegli di scaricare aggiornamenti o nuovi modelli, durante i quali non vengono raccolti, trasmessi, scambiati o raccolti dati personali. La nostra filosofia sulla privacy è in linea con le rigorose linee guida sulla privacy e la sicurezza di Apple, e la nostra app mantiene i più alti standard di protezione dei dati. Vale la pena notare che, a volte, gli utenti potrebbero chiedere se Private LLM può accedere a internet, portando a potenziali allucinazioni del modello che suggeriscono che possa farlo. Tuttavia, queste risposte non devono essere prese come fattuali. Se gli utenti desiderano verificare in modo indipendente le garanzie di privacy di Private LLM, consigliamo di utilizzare strumenti di monitoraggio della rete come Little Snitch. In questo modo, puoi vedere di persona che la nostra app mantiene rigorosi controlli sulla privacy. Per coloro che sono interessati ad accedere a informazioni in tempo reale, Private LLM si integra perfettamente con Apple Shortcuts, consentendoti di estrarre dati da feed RSS, pagine web e persino app come Calendario, Promemoria, Note e altro. Questa funzione offre una soluzione creativa per incorporare dati attuali nelle tue interazioni con Private LLM, mantenendo comunque il suo ethos di privacy offline. Se hai domande o hai bisogno di ulteriori chiarimenti, non esitare a contattarci.
Dopo un acquisto una tantum, puoi scaricare e utilizzare Private LLM su tutti i tuoi dispositivi Apple. L'app supporta In famiglia, consentendoti di condividerla con i membri della tua famiglia.
Private LLM può analizzare e riassumere lunghi paragrafi di testo in pochi secondi. Basta incollare il contenuto e l'AI genererà un riassunto conciso, tutto offline. Puoi anche usare Private LLM per riformulare e parafrasare con prompt come:
- Dammi un TLDR su questo: [incolla il contenuto qui]
- Sei un copywriter esperto. Per favore, riformula quanto segue con parole tue: [incolla il contenuto]
- Parafrasa il seguente testo in modo che suoni più originale: [incolla il contenuto]
Assolutamente! Private LLM può generare suggerimenti e idee approfondite, rendendolo uno strumento potente per il brainstorming e la risoluzione di problemi. Ecco alcuni esempi di prompt per il brainstorming che puoi provare a chiedere a Private LLM. Sentiti libero di sperimentare e provare i tuoi prompt.
- Puoi darmi alcuni temi potenziali per un romanzo di fantascienza?
- Sto pianificando di aprire un ristorante fast-food vegano. Quali sono i punti deboli di questa idea?
- Gestisco una startup di sviluppo software di due anni con un prodotto che ha PMF, sto pianificando di introdurre un nuovo prodotto software in un mercato molto diverso. Usa il metodo dei sei cappelli per analizzare questo.
- Utilizza il modello del Golden Circle per creare un brand potente per un'attività di consulenza gestionale.
La temperatura di campionamento e il Top-P sono parametri di inferenza universali per tutti i modelli transformer autoregressivi causali solo decoder (noti come GPT) e non sono specifici di Private LLM. L'app li ha impostati su valori predefiniti ragionevoli (0,7 per la temperatura di campionamento e 0,95 per il Top-p), ma puoi sempre modificarli e vedere cosa succede. Tieni presente che le modifiche a questi parametri non hanno effetto finché l'app non viene riavviata.
Questi parametri controllano il compromesso tra generazione di testo deterministica e creatività. Valori bassi portano a risposte noiose ma coerenti, valori più alti portano a risposte creative ma a volte incoerenti.
Private LLM funziona offline e utilizza un modello transformer solo decoder (noto come GPT) con cui puoi conversare liberamente. Può anche aiutarti a riassumere paragrafi di testo, generare idee creative e fornire informazioni su una vasta gamma di argomenti.
Sì. Private LLM ha due intenti app che puoi utilizzare con Siri e l'app Shortcuts. Cerca Private LLM nell'app Shortcuts. Inoltre, Private LLM supporta anche la specifica x-callback-url che è anche supportata da Shortcuts e molte altre app. Ecco un esempio di shortcut che utilizza la funzionalità x-callback-url in Private LLM.
Private LLM è un'app macOS completamente sandbox, il che significa che i modelli sono archiviati all'interno del container dell'app in: ~/Library/Containers/ie.numen.personalgpt/Data/Library/Application Support/ie.numen.personalgpt/models. Su macOS Sequoia e versioni successive, puoi sfruttare la capacità del sistema di spostare app di grandi dimensioni su un disco esterno. Spostare l'app sposterà anche i modelli archiviati al suo interno. Questo è il metodo consigliato per liberare spazio se l'archiviazione interna del tuo Mac sta per esaurirsi.
Se riscontri difficoltà a scaricare modelli in Private LLM, è spesso dovuto a problemi di connettività temporanei con Hugging Face, dove sono ospitati i nostri modelli. Puoi controllare rapidamente la pagina di stato di Hugging Face per vedere se ci sono interruzioni in corso. In alcuni casi, le restrizioni di rete da firewall aziendali, scolastici o nazionali possono limitare l'accesso a Hugging Face, il che può influire sui download. Se ti trovi su una rete di questo tipo, ti consigliamo di passare a un Wi-Fi domestico o a un hotspot mobile, o di utilizzare una VPN per aggirare queste restrizioni.
Per gli utenti in Cina o Hong Kong, Private LLM passa automaticamente a hf-mirror.com per migliorare l'affidabilità del download quando la lingua del dispositivo è impostata su queste regioni. Questo aiuta a garantire un accesso più fluido senza configurazioni aggiuntive da parte tua.
Se riscontri ancora problemi dopo aver controllato la tua connessione, prova a riavviare l'app o il tuo dispositivo. Per problemi continui, entra nella nostra community Discord e condividi i dettagli nel canale di supporto: siamo sempre in giro per aiutare a risolvere i problemi!
La differenza di funzionalità tra iOS e macOS per quanto riguarda l'elaborazione in background deriva principalmente dalle politiche di utilizzo dell'hardware di Apple. Su iOS, Apple limita l'esecuzione in background di attività che richiedono un uso intensivo della GPU. Questa limitazione è applicata per preservare la durata della batteria e mantenere le prestazioni del sistema. Secondo le linee guida di Apple, le app che tentano di eseguire un kernel Metal in background verranno terminate immediatamente per impedire l'uso non autorizzato delle risorse. Per Private LLM, mentre possiamo eseguire operazioni in background su macOS sfruttando la GPU, le versioni iOS sono limitate all'elaborazione CPU quando l'app non è in primo piano. Eseguire le attività basate sull'AI di Private LLM sulla CPU è tecnicamente possibile, ma sarebbe significativamente più lento, oltre 10 volte più lento rispetto all'elaborazione GPU. Queste prestazioni lente non fornirebbero l'esperienza utente fluida ed efficiente a cui aspiriamo. Speriamo che i futuri aggiornamenti di iOS possano offrire maggiore flessibilità nel modo in cui i processi in background possono utilizzare le risorse di sistema, incluso il potenziale accesso alla GPU per app come Private LLM. Fino ad allora, continuiamo a ottimizzare la nostra app iOS entro i vincoli attuali per garantire le migliori prestazioni possibili senza compromettere la salute del tuo dispositivo o l'efficienza delle tue applicazioni. Per ulteriori dettagli tecnici, puoi fare riferimento alla documentazione ufficiale di Apple sulla preparazione della tua app Metal per l'esecuzione in background: Documentazione Apple Developer.
iOS 26 introduce un nuovo entitlement per l'accesso alla GPU in background (com.apple.developer.background-tasks.continued-processing.gpu). Tuttavia, si attiva solo in seguito a un'interazione diretta dell'utente (tocco, scorrimento, ecc.) dall'interno dell'app, quindi non consentirà l'esecuzione di LLM locali da Shortcuts interamente in background.
Quando tenti di caricare modelli in Private LLM, potresti occasionalmente vedere un messaggio di errore che indica "Falling back on built-in model due to a crash while loading the model." (Ripristino del modello integrato a causa di un arresto anomalo durante il caricamento del modello). Ciò si verifica in genere quando il dispositivo non dispone di memoria sufficiente per caricare il modello selezionato. Questi arresti anomali possono verificarsi perché il dispositivo ha una RAM disponibile limitata, altre app stanno utilizzando una memoria significativa in background o più processi ad alta intensità di risorse sono in esecuzione contemporaneamente. Per risolvere questo problema, prova prima a chiudere le app in background che consumano molta memoria. Se il problema persiste dopo aver riavviato Private LLM, puoi passare a un modello più piccolo, riavviare il dispositivo per liberare memoria o verificare se il dispositivo soddisfa i requisiti di RAM consigliati per il modello. Se continui a riscontrare arresti anomali dopo aver provato queste soluzioni, considera l'utilizzo di un modello più piccolo che si adatti meglio alle capacità del tuo dispositivo.
Ciò potrebbe essere dovuto al fatto che il dispositivo ha poca memoria, o se il compito assegnato a Private LLM è particolarmente complesso. In questi casi, considera di chiudere le app che consumano molta memoria che potrebbero essere in esecuzione in background e prova a suddividere la richiesta in compiti più piccoli e gestibili per l'LLM. In quest'ultimo caso, funziona anche rispondere semplicemente con "Continua", "Vai avanti" o "Dimmi".
Sì, Private LLM è ora disponibile per Android come beta iniziale! Sebbene il nostro obiettivo principale rimanga offrire la migliore esperienza AI per i dispositivi Apple, ci stiamo espandendo su Android per servire più utenti che apprezzano la privacy e l'AI offline. La versione Android è attualmente disponibile come download APK diretto (non ancora sul Google Play Store) e include molte delle funzionalità principali delle nostre versioni iOS/macOS. Poiché si tratta di una versione beta iniziale, potresti riscontrare alcune limitazioni o problemi di stabilità rispetto alle nostre versioni per piattaforma Apple più mature. Ti invitiamo vivamente a unirti alla nostra community Discord per condividere il tuo feedback, segnalare eventuali problemi e aiutarci a migliorare l'esperienza Android. Il tuo contributo in questa fase è incredibilmente prezioso mentre lavoriamo verso un rilascio completo sul Google Play Store. Puoi scaricare l'APK dal nostro sito web.
Siamo spiacenti di sapere che stai valutando un rimborso. Puoi richiedere un rimborso tramite l'Apple App Store. Naviga semplicemente nella cronologia degli acquisti del tuo account Apple, trova Private LLM e fai clic su "Segnala un problema" per avviare il processo di rimborso. Ci piacerebbe anche sapere da te come possiamo migliorare. Per favore contattaci con il tuo feedback.
Ci piacerebbe sentirti! Unisciti alla nostra community Discord per condividere i tuoi pensieri e ottenere supporto da altri utenti. Preferisci una conversazione privata? Usa il modulo di contatto sul nostro sito web per inviarci un'email direttamente.