Häufig Gestellte Fragen
Private LLM ist Ihr privater AI-Chatbot, entworfen für Privatsphäre, Bequemlichkeit und Kreativität. Er funktioniert vollständig offline auf Ihrem iPhone, iPad und Mac, sodass Ihre Daten sicher und vertraulich bleiben. Private LLM ist ein Einmalkauf im App Store, der Ihnen unbegrenzten Zugang ohne Abonnementgebühren ermöglicht. nb: Wir hassen Abonnements und wir sind keine Heuchler, die unsere Nutzer dem aussetzen, was wir hassen.
Erstens hebt sich Private LLM von anderen lokalen KI-Lösungen durch fortschrittliche Modellquantisierungstechniken wie OmniQuant und GPTQ ab. Im Gegensatz zur naiven Round-To-Nearest (RTN)-Quantisierung, die von anderen konkurrierenden Apps auf Basis der MLX- und llama.cpp-Frameworks verwendet wird, sind OmniQuant- und GPTQ-Quantisierung optimierungsbasierte Methoden. Diese Methoden ermöglichen eine präzisere Kontrolle über den Quantisierungsbereich und erhalten effektiv die Integrität der ursprünglichen Gewichtsverteilung. Dadurch erreicht Private LLM eine überlegene Modellleistung und Genauigkeit, die nahezu der Leistung eines unquantisierten 16-Bit-Floating-Point-(fp16)-Modells entspricht, jedoch mit erheblich reduzierten Rechenanforderungen zur Inferenzzeit.
Obwohl der Prozess der Quantisierung von Modellen mit OmniQuant und GPTQ rechenintensiv ist, ist dies eine lohnende Investition. Dieser fortschrittliche Ansatz stellt sicher, dass die Perplexität (ein Maß für die Textgenerierungsqualität des Modells) des quantisierten Modells der des ursprünglichen fp16-Modells viel näher kommt als bei der naiven RTN-Quantisierung. Dies stellt sicher, dass Private LLM-Benutzer ein nahtloses, effizientes und qualitativ hochwertiges KI-Erlebnis genießen, das uns von anderen ähnlichen Anwendungen abhebt.
Zweitens basiert Private LLM im Gegensatz zu fast allen anderen konkurrierenden Offline-LLM-Apps nicht auf llama.cpp oder MLX. Das bedeutet, dass fortschrittliche Funktionen, die in llama.cpp und MLX (und damit in Apps, die sie verwenden) nicht verfügbar sind, wie Attention Sinks und Sliding Window Attention, in Private LLM verfügbar sind, anderswo jedoch nicht[1]. Dies bedeutet auch, dass unsere App auf derselben Hardware erheblich schneller ist als die Konkurrenz (YouTube-Videos zum Leistungsvergleich).
Schließlich sind wir Maschinenlern-Ingenieure und stimmen Quantisierung und Parameter in jedem Modell sorgfältig ab, um die Textgenerierungsqualität zu maximieren. Beispielsweise quantisieren wir die Einbettungen und Gate-Layers in Mixtral-Modellen nicht, da deren Quantisierung die Perplexität des Modells stark beeinträchtigt (ganz zu schweigen davon, dass unsere Konkurrenz alles naiv quantisiert). Ebenso beeinträchtigt bei den Gemma-Modellen die Quantisierung der gewichteten Einbettungen die Perplexität des Modells, weshalb wir dies nicht tun (während unsere Konkurrenten dies tun). Auch beim Microsoft phi-4-Modell halten wir selektiv einige kritische Schichten unquantisiert (dynamische Quantisierung), um eine optimale Textgenerierungsqualität beizubehalten.
Indem wir Genauigkeit und Recheneffizienz priorisieren, ohne dabei Abstriche bei der Privatsphäre und Offline-Funktionalität zu machen, bietet Private LLM eine einzigartige Lösung für iOS- und macOS-Benutzer, die ein leistungsfähiges, privates und personalisiertes KI-Erlebnis suchen.
Das Ausführen großer Sprachmodelle (LLMs) auf einem Gerät ist ein speicherintensiver Prozess, da hierfür erheblicher RAM erforderlich ist, um Modelle effizient zu laden und auszuführen. Zudem ist Private LLM in der Regel nicht die einzige App, die auf Ihrem iPhone, iPad oder Mac läuft. Andere Apps, insbesondere speicherintensive, können um Systemressourcen konkurrieren und die Leistung von Private LLM beeinträchtigen.
Auf iPhones können ältere Geräte wie das iPhone SE 2. Generation (3 GB RAM) kleinere Modelle wie Llama 3.2 1B und Qwen 2.5 0.5B/1.5B ausführen, jedoch kann das Erlebnis aufgrund von Hardware-Einschränkungen begrenzt sein. Ab dem iPhone 12 (4 GB RAM) verbessert sich die Leistung, sodass auch etwas größere Modelle mit 3B unterstützt werden. Für das beste Erlebnis empfehlen wir die Verwendung des iPhone 15 Pro oder neuer, die mit 8 GB RAM ausgestattet sind. Diese Geräte können problemlos größere Modelle wie Llama 3.1 8B oder Qwen 2.5 7B ausführen. Obwohl Private LLM technisch auch auf älteren Geräten als dem iPhone 12 installiert werden kann, empfehlen wir den Kauf der App für solche Geräte nicht mehr, da Benutzerfeedback gezeigt hat, dass veraltete Hardware das Erlebnis erheblich einschränkt. Benutzer mit älteren Geräten können die App weiterhin kaufen, aber Support und optimale Leistung sind nicht garantiert.
Auf iPads sieht es ähnlich aus. Geräte mit mindestens 4 GB RAM können Modelle ausführen, die mit denen auf Mittelklasse-iPhones vergleichbar sind. Für die besten Ergebnisse ist das High-End-iPad Pro mit 16 GB RAM ideal, da es sogar größere Modelle wie Qwen 2.5 14B oder Google Gemma 2 9B unterstützt. Diese unvergleichliche Leistung macht das iPad Pro zu einer leistungsstarken Wahl für die Ausführung von Private LLM.
Auf Macs hat der Übergang zu Apple Silicon neue Maßstäbe für lokale KI-Leistung gesetzt. Obwohl Private LLM auf Intel-Macs installiert werden kann, empfehlen wir dringend die Verwendung von Macs mit Apple Silicon für ein deutlich reibungsloseres Erlebnis. Auf Macs mit Apple Silicon und 8 GB RAM können Modelle ausgeführt werden, die mit denen auf den neuesten iPhones vergleichbar sind, wie zum Beispiel Llama 3.1 8B und Qwen 2.5 7B. Macs mit 16 GB RAM, wie das Spitzenmodell des iPad Pro, können noch größere Modelle wie Qwen 2.5 14B oder Google Gemma 2 9B bewältigen. Mit 32 GB RAM können Macs größere Modelle wie Phi-4, Qwen 2.5 32B ausführen, und für das ultimative Erlebnis liefern Apple Silicon-Macs mit mindestens 48 GB RAM optimale Leistung mit Modellen wie Llama 3.3 70B.
Private LLM wurde entwickelt, um die Leistungsfähigkeit lokaler KI auf eine Vielzahl von Apple-Geräten zu bringen. Für die beste Leistung empfehlen wir jedoch dringend Geräte mit mehr Speicher. Wenn Sie sich nicht sicher sind, ob Ihr Gerät kompatibel ist, oder weitere Unterstützung benötigen, treten Sie unserer Discord-Community bei, um sich mit uns und anderen Benutzern zu verbinden, die Ihnen helfen können!
Private LLM ist ein eigenfinanziertes Produkt, das von zwei Entwicklern ohne VC-Finanzierung erstellt wurde. Unsere Wettbewerber wie Ollama und LM Studio sind VC-finanzierte Unternehmen. Einige von ihnen haben in ihren Nutzungsbedingungen versteckte, belastende Klauseln, die die Nutzung für kommerzielle oder produktive Zwecke untersagen. Wir setzen keine Einschränkungen darauf, wie unsere Nutzer unsere App verwenden. Unser eigenfinanziertes Einmalzahlungsmodell ist nicht perfekt und hat Nachteile, wie zum Beispiel die Unmöglichkeit, Anzeigen, Influencer-Posts und goldene Häkchen auf Twitter zu kaufen. Der Vorteil davon ist jedoch, dass wir keinen Druck von VCs haben, unsere Nutzer aggressiv zu überwachen und zu monetarisieren; und wir können uns zu 100 % darauf konzentrieren, das Produkt für unsere Nutzer und uns zu entwickeln.
Bei Private LLM legen wir Wert auf Qualität und Unabhängigkeit. Um eine überlegene Leistung zu erzielen, quantisieren wir jedes Modell sorgfältig mit fortschrittlichen Techniken wie OmniQuant und GPTQ. Dieser Prozess erfordert erhebliche Ressourcen, einschließlich der Anmietung von GPUs, die alles andere als kostenlos sind. Alle unsere Wettbewerber verwenden RTN-Quantisierung (Round to Nearest), die in Bezug auf Ressourcen sehr günstig ist, aber qualitativ minderwertige quantisierte Modelle liefert. Als kleines, unabhängiges Unternehmen investieren wir viel Zeit und Ressourcen in die Quantisierung von Modellen mit SOTA-Quantisierungsalgorithmen, weil sich dies in Bezug auf Qualität lohnt. Das Ergebnis ist eine unvergleichliche KI-Erfahrung, die sich in Genauigkeit und Geschwindigkeit auszeichnet.
Privatsphäre ist ein weiterer Kernwert von Private LLM. Wir verarbeiten alles lokal auf Ihrem Gerät, ohne jegliche Datenerfassung oder -verfolgung. Eine solche Aussage zu machen, ist nicht einfach, insbesondere wenn man VC-finanziert ist und unter Druck steht, skalierbare Einnahmequellen zu finden. Durch unsere Unabhängigkeit stellen wir sicher, dass Ihre Daten stets privat bleiben.
Kostenlose Produkte mögen verlockend erscheinen, besonders wenn sie aggressiv von Influencern beworben werden, aber in Wirklichkeit liefern sie oft minderwertige Textgenerierungsqualität. Private LLM verfolgt einen anderen Ansatz und bietet eine Textgenerierung, die in Kohärenz, Genauigkeit und Kontext weit voraus ist. Durch die Erhebung einer einmaligen Gebühr bietet Private LLM eine KI-Lösung, die benutzerorientiert, datenschutzorientiert und qualitativ hochwertig ist und die unsere Wettbewerber nicht annähernd erreichen können.
Private LLM bietet eine Vielzahl von Modellen, um unterschiedliche Sprachbedürfnisse zu erfüllen. Unsere Auswahl umfasst die Llama-3- und Qwen-2.5-Familien, die beide mehrere Sprachen unterstützen. Llama 3 beherrscht Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch. Qwen 2.5 erweitert die Unterstützung auf über 29 Sprachen, darunter Chinesisch, Englisch, Französisch, Spanisch, Portugiesisch, Deutsch, Italienisch, Russisch, Japanisch, Koreanisch, Vietnamesisch, Thailändisch und Arabisch. Für Benutzer, die Modelle für spezifische nicht-englische Sprachen suchen, bietet Private LLM Optionen wie SauerkrautLM Gemma-2 2B IT für Deutsch, DictaLM 2.0 Instruct für Hebräisch, RakutenAI 7B Chat für Japanisch und Yi 6B Chat oder Yi 34B Chat für Chinesisch. Diese vielfältige Auswahl stellt sicher, dass Benutzer das Modell wählen können, das am besten zu ihren Sprachanforderungen passt.
Private LLM gewährleistet eine überlegene Textgenerierungsqualität und Leistung durch den Einsatz fortschrittlicher Quantisierungsstrategien wie OmniQuant und GPTQ, die zahlreiche Stunden sorgfältiger Quantisierung jedes Modells auf GPUs erfordern. Dieser sorgfältige Prozess bewahrt die Gewichtsverteilung des Modells effektiver, was zu schnellerer Inferenz, verbesserter Modelltreue und qualitativ hochwertigerer Textgenerierung führt. Unsere 3-Bit-OmniQuant-Modelle übertreffen oder entsprechen der Leistung von 4-Bit-RTN-quantisierten Modellen, die von anderen Plattformen verwendet werden. Im Gegensatz zu Apps, die die auf Hugging Face verfügbaren GGUF-Dateien unterstützen, quantisiert Private LLM Modelle intern, um sicherzustellen, dass sie in Bezug auf Geschwindigkeit, Genauigkeit und Qualität optimiert sind. Dieser rigorose Ansatz ist einer der Gründe, warum Private LLM eine kostenpflichtige App ist und eine weitaus bessere Qualität bietet als langsamere und weniger leistungsfähige lokale KI-Chat-Apps.
Wir fügen regelmäßig neue Modelle zu Private LLM hinzu, basierend auf dem Feedback unserer Nutzer, wie in unseren Release Notes beschrieben. Um ein bestimmtes Modell vorzuschlagen, treten Sie unserer Discord-Community bei und teilen Sie Ihren Vorschlag im #suggestions-Kanal. Wir prüfen alle Vorschläge und priorisieren beliebte für zukünftige Updates.
Private LLM unterstützt derzeit nicht das Lesen von Dokumenten oder Dateien, eine Funktion, die oft als Retrieval-Augmented Generation (RAG) bezeichnet wird. Diese Funktionalität beinhaltet die Verwendung externer Dokumente zur Bereicherung der Antworten des Modells, aber ihre Effektivität hängt stark von der Kontextlänge ab – der maximalen Menge an Text, die das Modell in einer einzelnen Eingabe verarbeiten kann. Eine längere Kontextlänge ermöglicht detailliertere und genauere Antworten, ist jedoch besonders auf lokalen Geräten rechnerisch anspruchsvoll. Wettbewerber wie Ollama unterstützen typischerweise eine Standard-Kontaktlänge von 2k Token, während LM Studio standardmäßig eine Kontextlänge von 1500 Token bietet. Im Vergleich dazu bietet Private LLM 8K Token auf iPhone und iPad und beeindruckende 32K Token auf Macs, was es zu einer der leistungsfähigsten lokalen KI-Lösungen in dieser Hinsicht macht. Dennoch stehen alle aktuellen lokalen KI-Implementierungen, einschließlich Private LLM, vor Herausforderungen mit Halluzinationen, wenn lange Textinhalte verarbeitet werden. Diese Einschränkung ergibt sich daraus, dass Modelle bei umfangreichen oder unvollständigen Eingaben falsche oder erfundene Informationen generieren können. Private LLMs OmniQuant-Quantisierung reduziert Halluzinationen erheblich im Vergleich zur RTN-Quantisierung, die von unserer Konkurrenz verwendet wird, beseitigt sie jedoch nicht vollständig. Während wir planen, in Zukunft Dokumentenlesefunktionen einzuführen, bieten serverbasierte Lösungen derzeit die zuverlässigsten Ergebnisse für RAG, da sie besser ausgestattet sind, größere Kontextlängen und Rechenanforderungen zu bewältigen.
Absolut nicht. Private LLM ist darauf ausgerichtet, Ihre Privatsphäre zu gewährleisten und funktioniert ausschließlich offline, ohne jeglichen Internetzugang für seine Funktionen oder den Zugriff auf Echtzeitdaten. Eine Internetverbindung wird nur benötigt, wenn Sie sich entscheiden, Updates oder neue Modelle herunterzuladen, während dieser Zeit werden keine persönlichen Daten gesammelt oder übertragen. Unsere Datenschutzphilosophie steht im Einklang mit den strengen Datenschutz- und Sicherheitsrichtlinien von Apple, und unsere App hält die höchsten Standards des Datenschutzes ein. Es ist erwähnenswert, dass Nutzer gelegentlich fragen könnten, ob Private LLM auf das Internet zugreifen kann, was zu potenziellen Modell-Halluzinationen führen könnte, die suggerieren, dass dies möglich ist. Diese Antworten sollten jedoch nicht als Fakten angesehen werden. Wenn Benutzer die Datenschutzgarantien von Private LLM unabhängig überprüfen möchten, empfehlen wir die Verwendung von Netzwerküberwachungstools wie Little Snitch. So können Sie selbst sehen, dass unsere App strenge Datenschutzkontrollen einhält. Für diejenigen, die an Echtzeitinformationen interessiert sind, integriert sich Private LLM nahtlos in Apple Shortcuts, was es Ihnen ermöglicht, Daten aus RSS-Feeds, Webseiten und sogar Apps wie Kalender, Erinnerungen, Notizen und mehr zu ziehen. Diese Funktion bietet eine kreative Lösung, um aktuelle Daten in Ihre Interaktionen mit Private LLM einzubeziehen, während das Offline- und Datenschutz-Ethos beibehalten wird. Wenn Sie Fragen haben oder weitere Klärungen benötigen, zögern Sie bitte nicht, uns zu kontaktieren.
Nach einem Einmalkauf können Sie Private LLM auf all Ihren Apple-Geräten herunterladen und verwenden. Die App unterstützt Family Sharing, sodass Sie sie mit Ihren Familienmitgliedern teilen können.
Private LLM kann lange Absätze von Text in Sekunden analysieren und zusammenfassen. Fügen Sie einfach den Inhalt ein, und die KI wird eine prägnante Zusammenfassung generieren, alles offline. Sie könnten Private LLM auch für Umformulierungen und Paraphrasierungen mit Aufforderungen wie folgt nutzen:
- Gib mir ein TLDR dazu: [Inhalt hier einfügen]
- Du bist ein erfahrener Texter. Bitte formuliere folgendes in deinen eigenen Worten um: [Inhalt einfügen]
- Paraphrasiere den folgenden Text so, dass er origineller klingt: [Inhalt einfügen]
Absolut! Private LLM kann aufschlussreiche Vorschläge und Ideen generieren, was es zu einem leistungsstarken Werkzeug für Brainstorming- und Problemlösungsaufgaben macht. Hier sind einige Beispiel-Brainstorming-Aufforderungen, die Sie Private LLM stellen können. Bitte experimentieren Sie frei und probieren Sie Ihre eigenen Aufforderungen aus.
- Kannst du mir einige mögliche Themen für einen Science-Fiction-Roman geben?
- Ich plane, ein veganes Fast-Food-Restaurant zu eröffnen. Was sind die Schwächen dieser Idee?
- Ich leite ein zweijähriges Softwareentwicklungs-Startup mit einem Produkt, das PMF hat, und plane, ein neues Softwareprodukt in einem sehr unterschiedlichen Markt einzuführen. Analysiere dies mit der Methode der sechs Hüte.
- Nutze das Golden Circle Modell, um eine starke Marke für ein Beratungsunternehmen im Bereich Management zu schaffen.
Sampling-Temperatur und Top-P sind universelle Inferenzparameter für alle autoregressiven kausalen Decoder-Only Transformer-Modelle (auch bekannt als GPT) und sind nicht spezifisch für Private LLM. Die App hat sie auf vernünftige Standardwerte gesetzt (0.7 für Sampling-Temperatur und 0.95 für Top-p), aber Sie können sie immer anpassen und sehen, was passiert. Bitte beachten Sie, dass Änderungen an diesen Parametern erst nach einem Neustart der App wirksam werden.
Diese Parameter steuern den Kompromiss zwischen deterministischer Textgenerierung und Kreativität. Niedrige Werte führen zu langweiligen, aber kohärenten Antworten, höhere Werte zu kreativen, aber manchmal inkohärenten Antworten.
Private LLM arbeitet offline und verwendet ein Decoder-Only Transformer-Modell (auch bekannt als GPT), mit dem Sie zwanglos kommunizieren können. Es kann Ihnen auch dabei helfen, Absätze zu zusammenzufassen, kreative Ideen zu generieren und Informationen zu einer Vielzahl von Themen zu liefern.
Ja. Private LLM hat zwei App-Intents, die Sie mit Siri und der Shortcuts-App verwenden können. Bitte suchen Sie in der Shortcuts-App nach Private LLM. Zusätzlich unterstützt Private LLM auch die x-callback-url Spezifikation, die auch von Shortcuts und vielen anderen Apps unterstützt wird. Hier ist ein Beispiel-Shortcut mit der x-callback-url-Funktionalität in Private LLM.
Der Unterschied in der Funktionalität zwischen iOS und macOS im Hinblick auf Hintergrundverarbeitung liegt hauptsächlich an den Hardware-Nutzungsrichtlinien von Apple. Auf iOS beschränkt Apple die Hintergrundausführung von Aufgaben, die intensive GPU-Nutzung erfordern. Diese Einschränkung dient der Schonung der Akkulaufzeit und der Aufrechterhaltung der Systemleistung. Laut den Richtlinien von Apple werden Apps, die versuchen, einen Metal-Kernel im Hintergrund auszuführen, sofort beendet, um eine unbefugte Ressourcennutzung zu verhindern. Bei Private LLM können wir auf macOS Hintergrundoperationen mit der GPU durchführen, während die iOS-Versionen auf CPU-Verarbeitung beschränkt sind, wenn die App nicht im Vordergrund ist. Es ist zwar technisch möglich, die KI-gesteuerten Aufgaben von Private LLM auf der CPU auszuführen, aber dies wäre erheblich langsamer – mehr als zehnmal langsamer als mit GPU-Verarbeitung. Diese langsame Leistung würde nicht die nahtlose, effiziente Benutzererfahrung bieten, die wir anstreben. Wir hoffen, dass zukünftige iOS-Updates mehr Flexibilität hinsichtlich der Nutzung von Systemressourcen im Hintergrund ermöglichen, einschließlich eines potenziellen GPU-Zugriffs für Apps wie Private LLM. Bis dahin optimieren wir unsere iOS-App weiterhin innerhalb der aktuellen Einschränkungen, um Ihnen die bestmögliche Leistung zu bieten, ohne die Gesundheit Ihres Geräts oder die Effizienz Ihrer Anwendungen zu beeinträchtigen. Weitere technische Details finden Sie in der offiziellen Apple-Dokumentation zur Vorbereitung Ihrer Metal-App für die Hintergrundausführung: Apple Developer Documentation.
Dies könnte daran liegen, dass das Gerät wenig Speicher hat oder wenn die Aufgabe, die Private LLM gegeben wurde, besonders komplex ist. In solchen Fällen sollten Sie erwägen, speicherintensive Apps, die möglicherweise im Hintergrund laufen, zu schließen und versuchen, die Anfrage in kleinere, handhabbarere Aufgaben für das LLM zur Verarbeitung zu zerlegen. Im letzteren Fall funktioniert auch einfach mit „Fortfahren“, „Weiter“ oder „Erzähl mir“ als Antwort.
Es tut uns leid zu hören, dass Sie eine Rückerstattung in Betracht ziehen. Sie können eine Rückerstattung über den Apple App Store beantragen. Navigieren Sie einfach zu Ihrem Apple-Kontokaufverlauf, finden Sie Private LLM und klicken Sie auf 'Ein Problem melden', um den Rückerstattungsprozess zu starten. Wir würden auch gerne von Ihnen hören, wie wir uns verbessern können. Bitte kontaktieren Sie uns mit Ihrem Feedback.
Wir freuen uns, von Ihnen zu hören! Treten Sie unserer Discord-Community bei, um Ihre Gedanken zu teilen und Unterstützung von anderen Benutzern zu erhalten. Bevorzugen Sie ein privates Gespräch? Nutzen Sie das Kontaktformular auf unserer Website, um uns direkt eine E-Mail zu senden.