# 常见问题解答

关于Private LLM有疑问？您来对地方了！我们的常见问题页面涵盖了从基本设置到高级功能的所有内容，确保您拥有在Apple设备上充分利用Private LLM所需的所有信息。了解Private LLM的独特优势，包括其对隐私的承诺、离线功能和无订阅模式。浏览我们的常见问题以更好地理解和使用Private LLM。

-   ## 什么是 Private LLM？
    
    Private LLM 是您的私人 AI 聊天机器人，旨在实现隐私、便利性和创造力。它完全在您的 iPhone、iPad 和 Mac 上离线运行，确保您的数据安全且保密。Private LLM 是 App Store 上的一次性购买，让您无需任何订阅费用即可无限访问。注：我们厌恶订阅，也不会强迫用户接受我们所厌恶的东西。
    
-   ## Private LLM 如何区别于基于 llama.cpp 和 MLX 的 Ollama、LM Studio 等其他本地 AI 解决方案？
    
    首先，Private LLM 通过其先进的模型量化技术（如 OmniQuant 和 GPTQ）在众多本地 AI 解决方案中脱颖而出。与其他基于 MLX 和 llama.cpp 框架的竞争应用所使用的简单“最接近舍入”（RTN）量化方法不同，OmniQuant 和 GPTQ 是基于优化的量化方法。这些方法允许更精确地控制量化范围，有效保持原始权重分布的完整性。因此，Private LLM 实现了优越的模型性能和精度，其效果几乎可以媲美未经量化的 16 位浮点（fp16）模型，但在推理时显著降低了计算要求。
    
    尽管使用 OmniQuant 和 GPTQ 对模型进行量化的过程计算密集，但这是值得的投资。这种先进的方法确保量化模型的困惑度（衡量模型文本生成质量的指标）比简单的 RTN 量化方法更接近原始 fp16 模型。这确保了 Private LLM 用户能够享受无缝、高效和高质量的 AI 体验，使我们与其他类似应用区别开来。
    
    其次，与几乎所有其他竞争的离线 LLM 应用不同，Private LLM 并非基于 llama.cpp 或 MLX。这意味着在 llama.cpp 和 MLX（以及使用它们的应用）中不可用的高级功能（如注意力汇聚和滑动窗口注意力）在 Private LLM 中可用，而其他地方不可用[\[1\]](https://github.com/ggerganov/llama.cpp/issues/3377)。这也意味着我们的应用在相同硬件上比竞争对手快得多 ([比较性能的 YouTube 视频](https://youtu.be/CdbxM3rkxtc))。
    
    最后，我们是机器学习工程师，在每个模型中仔细调整量化和参数以最大化文本生成质量。例如，在 Mixtral 模型中，我们不会量化嵌入和门控层，因为量化这些会严重影响模型的困惑度（不用说，我们的竞争对手天真地量化了所有内容）。同样，在 Gemma 模型中，量化加权嵌入会损害模型的困惑度，因此我们不会这样做（而我们的竞争对手会）。此外，在 Microsoft phi-4 模型中，我们有选择地保持一些关键层未量化（动态量化），以保持最佳的文本生成质量。
    
    通过在不影响隐私和离线功能的情况下优先考虑准确性和计算效率，Private LLM 为寻求强大、私密和个性化 AI 体验的 iOS 和 macOS 用户提供了独特的解决方案。
    
-   ## 哪些设备可以运行 Private LLM，推荐的规格是什么？
    
    在设备上运行大型语言模型（LLM）是一个内存密集型的过程，因为它需要大量 RAM 来高效加载和运行模型。此外，Private LLM 通常并不是您 iPhone、iPad 或 Mac 上运行的唯一应用程序。其他应用程序，尤其是那些占用大量内存的应用程序，可能会争夺系统资源，从而影响 Private LLM 的性能。
    
    在 iPhone 上，像 iPhone SE 第二代（3GB RAM）这样的较旧设备可以运行较小的模型，例如 Llama 3.2 1B 和 Qwen 2.5 0.5B/1.5B，但由于硬件限制，体验可能有限。从 iPhone 12（4GB RAM）开始，性能有所提升，可以支持稍大的 3B 模型。为了获得最佳体验，我们建议使用配备 8GB RAM 的 iPhone 15 Pro 或更新机型。这些设备能够轻松运行更大的模型，例如 Llama 3.1 8B 或 Qwen 2.5 7B。虽然 Private LLM 可以技术上安装在早于 iPhone 12 的设备上，但我们不再建议为此类设备购买该应用程序，因为用户反馈表明，过时的硬件极大地限制了体验。拥有较旧设备的用户仍然可以购买该应用程序，但不保证支持和最佳性能。
    
    在 iPad 上，情况类似。至少配备 4GB RAM 的设备可以运行与中端 iPhone 类似的模型。为了获得最佳结果，高端 iPad Pro 配备了 16GB RAM，是理想选择，因为它支持更大的模型，例如 Qwen 2.5 14B 或 Google Gemma 2 9B。其无与伦比的能力使 iPad Pro 成为运行 Private LLM 的强大选择。
    
    在 Mac 电脑上，Apple Silicon 的引入为本地 AI 性能设立了新的标杆。虽然 Private LLM 可以安装在 Intel Mac 上，但我们强烈建议使用 Apple Silicon Mac，以获得显著更流畅的体验。在拥有 8GB 内存的 Apple Silicon Mac 上，可以运行与最新 iPhone 支持的型号相当的模型，例如 Llama 3.1 8B 和 Qwen 2.5 7B。拥有 16GB 内存的 Mac（如顶级 iPad Pro）可以处理更大的模型，例如 Qwen 2.5 14B 或 Google Gemma 2 9B。配备 32GB 内存的 Mac 能够运行更大的模型，例如 Phi-4、Qwen 2.5 32B，而对于极致体验，至少拥有 48GB 内存的 Apple Silicon Mac 在运行 Llama 3.3 70B 等模型时可提供最佳性能。
    
    Private LLM 的设计旨在将本地 AI 的强大功能带到各种 Apple 设备，但为了获得最佳性能，我们强烈建议使用内存更多的设备。如果您仍然不确定您的设备是否兼容或需要进一步的帮助，请加入我们的 Discord 社区，与我们和其他可以帮助您的用户联系！
    
-   ## 为什么 Private LLM 不是免费的？
    
    Private LLM 是由两名开发者打造的自筹产品，无需 VC（风险投资）资助。我们的竞争对手如 Ollama 和 LM Studio 是 VC 支持的公司。他们中的一些在其使用条款中隐藏了苛刻的条款，禁止用于商业或生产用途。而我们不对用户如何使用我们的应用程序施加任何限制。我们的自筹资金一次性付费模式并不完美，也有其缺点，比如无法购买广告、网红帖子以及 Twitter 上的金标认证。但其积极的一面是，我们没有来自 VC 的压力去侵入性监控和货币化用户；我们可以百分之百专注于为用户和我们自己打造产品。
    
    在 Private LLM，我们优先考虑质量和独立性。为了实现卓越的性能，我们通过先进的技术，如 OmniQuant 和 GPTQ，精心量化每个模型。这一过程需要大量资源，包括租用 GPU，而这些成本并不低廉。我们的所有竞争对手都使用 RTN（四舍五入）量化，这在资源上非常便宜，但导致量化模型的质量很差。作为一家小型独立企业，我们花费了大量时间和资源使用最先进的量化算法对模型进行量化，因为这是质量上的有益权衡。结果是一个在准确性和速度方面无与伦比的 AI 体验。
    
    隐私是 Private LLM 的另一个核心价值。我们所有处理都在您的设备上本地完成，完全没有数据收集或跟踪。要做到这一点并不容易，特别是当您受到 VC 支持并面临寻找可扩展收入来源的压力时。通过保持独立性，我们确保您的数据始终保持私密。
    
    免费产品可能看起来很诱人，特别是在网红们大力推荐的情况下，但实际上，它们往往提供劣质的文本生成质量。Private LLM 采取了不同的方法，提供的文本生成在连贯性、准确性和上下文方面遥遥领先。通过一次性收费，Private LLM 提供了一个以用户为中心、隐私优先的 AI 解决方案，输出的高质量文本是我们的竞争对手远不能匹敌的。
    
-   ## Private LLM 支持哪些语言？
    
    Private LLM 提供多种模型，以满足不同的语言需求。我们的选择包括 Llama 3、Qwen 2.5 和 Gemma 3 系列，均支持多种语言。Llama 3 擅长英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语；Qwen 2.5 支持超过 29 种语言，包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语和阿拉伯语；而 Gemma 3 则支持全球 140 多种语言。对于寻求专为非英语语言定制的模型的用户，Private LLM 提供例如 SauerkrautLM Gemma-2 2B IT（德语）、DictaLM 2.0 Instruct（希伯来语）、RakutenAI 7B Chat（日语）以及 Yi 6B Chat 或 Yi 34B Chat（中文）等选项。这种多样化的选择确保用户可以选择最符合其语言需求的模型。
    
-   ## 为什么 Private LLM 不能直接从 HuggingFace 加载模型？
    
    Private LLM 通过使用 OmniQuant 和 GPTQ 等高级量化策略，确保优越的文本生成质量和性能。这些策略需要数小时在 GPU 上小心地量化每个模型。这种细致的过程更有效地保留了模型的权重分布，从而提高了推理速度、模型保真度和文本生成质量。我们的 3 位 OmniQuant 模型优于或匹配其他平台使用的 4 位 RTN 量化模型的性能。与支持 Hugging Face 提供的 GGUF 文件的应用程序不同，Private LLM 在内部量化模型，以确保其优化速度、准确性和质量。这种严格的方法是 Private LLM 作为付费应用程序的原因之一，它提供了比更慢、更不可靠的本地 AI 聊天应用程序更好的质量。
    
-   ## 如何请求添加模型？
    
    我们定期根据用户反馈向 Private LLM 添加新模型，如[发布说明](/zh-CN/release-notes)中所示。要请求特定模型，请加入我们的[Discord 社区](https://privatellm.app/discord)，并在 #suggestions 频道中分享您的建议。我们会审查所有请求，并优先考虑流行的请求以进行未来更新。
    
-   ## Private LLM 是否支持读取文档或文件？
    
    Private LLM 当前不支持读取文档或文件，这通常被称为检索增强生成（RAG）。此功能涉及使用外部文档来丰富模型的响应，但其效果很大程度上取决于上下文长度，即模型在单次提示中可以处理的最大文本量。较长的上下文长度可以提供更详细和准确的响应，但在本地设备上计算需求较高。Ollama 等竞争对手通常支持默认上下文长度为 2k tokens，而 LM Studio 的默认上下文长度为 1500 tokens。相比之下，Private LLM 在 iPhone 和 iPad 上提供 8K tokens，在 Mac 上提供高达 32K tokens，这使其成为此方面最强大的本地 AI 解决方案之一。然而，包括 Private LLM 在内的所有当前本地 AI 实现，在处理长文本内容时都会面临幻觉问题。这一限制源于模型在处理过多或不完整的输入时可能生成错误或虚构的信息。Private LLM 的 OmniQuant 量化显著减少了与我们的竞争对手使用的 RTN 量化相比的幻觉，但无法完全消除它们。尽管我们计划在未来引入文档读取功能，但基于服务器的解决方案目前为 RAG 提供了最可靠的结果，因为它们更能应对更大的上下文长度和计算需求。
    
-   ## Private LLM 可以访问互联网或实时数据吗？
    
    绝对不行。Private LLM 专注于确保您的隐私，仅在离线状态下运行，无需互联网访问其功能或实时数据。只有当您选择下载更新或新模型时才需要互联网连接，但此期间不会收集、传输或交换任何个人数据。我们的隐私理念与 Apple 的严格隐私和安全准则保持一致，我们的应用程序遵循最高的数据保护标准。值得注意的是，用户有时可能会询问 Private LLM 是否可以访问互联网，这可能导致模型产生幻觉，暗示它可以访问。但这些响应不应被视为事实。如果用户希望独立验证 Private LLM 的隐私保证，我们建议使用像 Little Snitch 这样的网络监控工具。这样，您可以亲眼看到我们的应用程序保持严格的隐私控制。对于那些希望访问实时信息的用户，Private LLM 无缝集成了 Apple Shortcuts，允许您从 RSS 源、网页，甚至像日历、提醒、备忘录等应用程序中提取数据。这一功能提供了一种创造性的解决方案，可以在与 Private LLM 的交互中纳入当前数据，同时仍然保持其离线隐私优先的原则。如果您有任何问题或需要进一步的说明，请随时 [联系我们](/zh-CN#support)。
    
-   ## 如何在我的所有 Apple 设备上访问 Private LLM？
    
    完成一次性购买后，您可以在所有 Apple 设备上下载并使用 Private LLM。该应用支持[家庭共享](https://www.apple.com/family-sharing/)，允许您与家人共享。
    
-   ## 如何使用 Private LLM 进行总结？
    
    Private LLM 可以在几秒钟内分析并总结冗长的段落。只需粘贴内容，AI 就会生成简洁的摘要，所有操作都在离线状态下完成。您还可以使用 Private LLM 进行重述和改写，提示如下：
    
    -   给我一个 TLDR：*\[在此粘贴内容\]*
    -   您是一位专家文案撰稿人。请用您自己的话重新表述以下内容：*\[粘贴内容\]*
    -   改写以下文本，使其听起来更原创：*\[粘贴内容\]*
    
-   ## Private LLM 可以帮助头脑风暴或解决问题吗？
    
    当然可以！Private LLM 可以生成有洞察力的建议和创意，使其成为头脑风暴和解决问题任务的强大工具。以下是一些示例头脑风暴提示，您可以尝试向 Private LLM 提问。请随意尝试并使用您自己的提示。
    
    -   你能给我一些科幻小说的潜在主题吗？
    -   我计划开一家素食快餐店。这一想法的弱点是什么？
    -   我经营一家成立两年的软件开发初创公司，有一个具有市场契合度的产品，计划在完全不同的市场引入一个新的软件产品。使用六顶思考帽方法分析这个问题。
    -   利用黄金圈模型为管理咨询业务创建一个强有力的品牌。
    
-   ## 什么是采样温度和 Top-P 设置？它们有什么作用？
    
    采样温度和 Top-P 是所有自回归因果解码器（即 GPT）模型的通用推理参数，并非 Private LLM 所独有。应用程序将它们设置为合理的默认值（采样温度为 0.7，Top-p 为 0.95），但您可以随时调整它们并查看效果。请注意，这些参数的更改在应用程序重新启动之前不会生效。
    
    这些参数控制了确定性文本生成和创造性之间的权衡。低值会导致无趣但连贯的响应，高值则可能生成创造性但有时不连贯的响应。
    
-   ## Private LLM 如何工作？
    
    Private LLM 离线运行，并使用仅解码器变压器（即 GPT）模型，您可以随意与之对话。它还可以帮助您总结段落、生成创意并提供广泛主题的信息。
    
-   ## 我可以将 Private LLM 与快捷指令应用程序一起使用吗？
    
    可以。Private LLM 具有两个应用意图，您可以通过 Siri 和快捷指令应用程序使用。请在快捷指令应用程序中查找 Private LLM。此外，Private LLM 还支持[x-callback-url](https://x-callback-url.com/)规范，该规范也受[快捷指令](https://support.apple.com/en-gb/guide/shortcuts/apdcd7f20a6f/ios)和许多其他应用程序支持。以下是使用 Private LLM 的 x-callback-url 功能的[示例快捷指令](https://www.icloud.com/shortcuts/1f43f8c4cb154bea9096b1529a24fbe4)。
    
-   ## 如何在 Mac 版 Private LLM 中将模型权重存储在外部硬盘（DAS/NAS）上？
    
    Private LLM 是一款完全沙盒化的 macOS 应用程序，这意味着模型存储在应用容器内，路径为：~/Library/Containers/ie.numen.personalgpt/Data/Library/Application Support/ie.numen.personalgpt/models。在 macOS Sequoia 及更高版本中，您可以利用系统的功能[将大型应用程序移动到外部磁盘](https://support.apple.com/en-ie/guide/app-store/fir06754f864/mac)。移动应用程序的同时也会移动其中存储的模型。如果您的 Mac 内部存储空间不足，这是推荐的释放空间方法。
    
-   ## 为什么我在 Private LLM 中下载模型时遇到问题？
    
    如果您在 Private LLM 中下载模型时遇到困难，通常是由于与 Hugging Face 的临时连接问题，我们的[模型托管在此](https://huggingface.co/numen-tech)。您可以快速检查[Hugging Face 状态页面](https://status.huggingface.co/)，查看是否有正在进行的故障。在某些情况下，公司、学校或国家防火墙的网络限制可能会限制访问 Hugging Face，从而影响下载。如果您在此类网络中，我们建议您切换到家庭 Wi-Fi 或移动热点，或使用 VPN 来绕过这些限制。
    
    对于中国或香港的用户，当您的设备区域设置为这些地区时，Private LLM 会自动切换到 hf-mirror.com 以提高下载的可靠性。这有助于确保更顺畅的访问，无需您进行额外设置。
    
    如果您在检查连接后仍遇到问题，请尝试重启应用程序或设备。如果问题持续存在，请加入我们的[Discord 社区](https://privatellm.app/discord)，并在支持频道分享详细信息——我们随时准备帮助您解决问题！
    
-   ## 为什么在 iOS 上无法像在 macOS 上那样在后台运行快捷指令？
    
    在后台处理方面，iOS 与 macOS 的功能差异主要源于 Apple 的硬件使用政策。在 iOS 上，Apple 限制需要大量 GPU 使用的任务在后台执行。此限制旨在延长电池寿命并保持系统性能。根据 Apple 的指南，试图在后台运行 Metal 内核的应用会立即被终止，以防止未经授权的资源使用。对于 Private LLM，虽然我们可以在 macOS 上利用 GPU 在后台运行操作，但在 iOS 版本中，应用处于后台时仅能使用 CPU 处理。技术上，Private LLM 的 AI 任务可以在 CPU 上运行，但速度会大幅下降——比 GPU 处理慢 10 倍以上。这种缓慢的性能无法提供我们追求的流畅高效的用户体验。我们希望未来的 iOS 更新能在后台进程如何使用系统资源方面提供更多灵活性，包括为像 Private LLM 这样的应用提供 GPU 访问的可能性。在此之前，我们将继续在当前限制下优化 iOS 应用，确保在不影响设备健康和应用效率的情况下，为您提供最佳性能。更多技术细节可参考 Apple 关于让 Metal 应用在后台运行的官方文档：[Apple Developer Documentation](https://developer.apple.com/documentation/metal/gpu_devices_and_work_submission/preparing_your_metal_app_to_run_in_the_background)。
    
    iOS 26 引入了新的后台 GPU 访问权限 ([com.apple.developer.background-tasks.continued-processing.gpu](https://developer.apple.com/documentation/bundleresources/entitlements/com.apple.developer.background-tasks.continued-processing.gpu))。然而，它只有在应用内发生直接的用户交互（点击、滑动等）后才会激活，因此无法让快捷指令在完全后台运行本地 LLM。
    
-   ## 为什么模型在加载时崩溃或回退到内置模型？
    
    在 Private LLM 中加载模型时，您可能偶尔会看到错误消息，提示“由于加载模型时崩溃，回退到内置模型。” 这通常发生在您的设备没有足够的可用内存来加载所选模型时。这些崩溃可能是由于设备可用内存（RAM）有限，其他应用程序在后台占用大量内存，或多个资源密集型进程同时运行。为解决此问题，首先尝试关闭占用内存较多的后台应用。如果在重启 Private LLM 后问题仍然存在，您可以切换到更小的模型，重启设备以清理内存，或检查设备是否满足该模型的推荐内存要求。如果在尝试这些解决方案后仍然遇到崩溃，请考虑使用更适合您设备性能的较小模型。
    
-   ## 为什么 Private LLM 有时会突然停止生成文本？
    
    这可能是由于设备内存不足，或者分配给 Private LLM 的任务特别复杂。在这种情况下，请考虑关闭可能正在后台运行的占用内存的应用程序，并尝试将请求分解为较小、更易于管理的任务以供 LLM 处理。在后一种情况下，仅需回复“继续”、“接着说”或“告诉我”也可以。
    
-   ## 我可以在 Android 上使用 Private LLM 吗？
    
    是的，Private LLM 现已推出 Android 早期测试版！虽然我们的主要重点仍然是为 Apple 设备提供最佳的 AI 体验，但我们正在扩展到 Android，以满足更多重视隐私和离线 AI 的用户需求。Android 版本目前可作为直接 APK 下载（尚未在 Google Play 商店上架），并包含许多 iOS/macOS 版本的核心功能。由于这是一个早期测试版本，与我们更成熟的 Apple 平台版本相比，可能会遇到一些限制或稳定性问题。我们强烈建议您加入我们的 [Discord 社区](https://privatellm.app/discord)，分享反馈、报告问题，并帮助我们改进 Android 体验。您的意见在这个阶段非常重要，有助于我们推进 Google Play 商店的完整发布。您可以从我们的 [网站](https://privatellm.app/android) 下载 APK。
    
-   ## 如何为 Private LLM 请求退款？
    
    很遗憾听到您考虑退款。您可以通过 Apple App Store 请求退款。只需导航到您的 Apple 帐户的购买历史记录，找到 Private LLM，然后单击“报告问题”以启动退款流程。我们也很乐意听取您的意见，以改进产品。请通过[联系我们](/zh-CN#support)，提供您的反馈。
    
-   ## 我可以在哪里提出更多问题？
    
    我们很高兴听到您的声音！加入我们的[Discord 社区](https://privatellm.app/discord)，分享您的想法并从其他用户那里获得支持。更喜欢私人对话？使用我们网站上的[联系表格](https://privatellm.app/support)直接给我们发送电子邮件。