常见问题解答
Private LLM 是您的私人 AI 聊天机器人,旨在实现隐私、便利性和创造力。它完全在您的 iPhone、iPad 和 Mac 上离线运行,确保您的数据安全且保密。Private LLM 是 App Store 上的一次性购买,让您无需任何订阅费用即可无限访问。注:我们厌恶订阅,也不会强迫用户接受我们所厌恶的东西。
Private LLM 离线运行,并使用仅解码器变压器(即 GPT)模型,您可以随意与之对话。它还可以帮助您总结段落、生成创意并提供广泛主题的信息。
Private LLM 是由两名开发者打造的自筹产品,无需 VC(风险投资)资助。我们的竞争对手如 Ollama 和 LM Studio 是 VC 支持的公司。他们中的一些在其使用条款中隐藏了苛刻的条款,禁止用于商业或生产用途。而我们不对用户如何使用我们的应用程序施加任何限制。我们的自筹资金一次性付费模式并不完美,也有其缺点,比如无法购买广告、网红帖子以及 Twitter 上的金标认证。但其积极的一面是,我们没有来自 VC 的压力去侵入性监控和货币化用户;我们可以百分之百专注于为用户和我们自己打造产品。
在 Private LLM,我们优先考虑质量和独立性。为了实现卓越的性能,我们通过先进的技术,如 OmniQuant 和 GPTQ,精心量化每个模型。这一过程需要大量资源,包括租用 GPU,而这些成本并不低廉。我们的所有竞争对手都使用 RTN(四舍五入)量化,这在资源上非常便宜,但导致量化模型的质量很差。作为一家小型独立企业,我们花费了大量时间和资源使用最先进的量化算法对模型进行量化,因为这是质量上的有益权衡。结果是一个在准确性和速度方面无与伦比的 AI 体验。
隐私是 Private LLM 的另一个核心价值。我们所有处理都在您的设备上本地完成,完全没有数据收集或跟踪。要做到这一点并不容易,特别是当您受到 VC 支持并面临寻找可扩展收入来源的压力时。通过保持独立性,我们确保您的数据始终保持私密。
免费产品可能看起来很诱人,特别是在网红们大力推荐的情况下,但实际上,它们往往提供劣质的文本生成质量。Private LLM 采取了不同的方法,提供的文本生成在连贯性、准确性和上下文方面遥遥领先。通过一次性收费,Private LLM 提供了一个以用户为中心、隐私优先的 AI 解决方案,输出的高质量文本是我们的竞争对手远不能匹敌的。
Private LLM 提供多种模型以满足不同的语言需求。我们的选择包括支持多种语言的 Llama 3 和 Qwen 2.5 系列。Llama 3 精通英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Qwen 2.5 扩展支持超过 29 种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语和阿拉伯语。对于需要特定非英语语言模型的用户,Private LLM 提供如 SauerkrautLM Gemma-2 2B IT(德语)、DictaLM 2.0 Instruct(希伯来语)、RakutenAI 7B Chat(日语)和 Yi 6B Chat 或 Yi 34B Chat(中文)等选项。这种多样化的选择确保用户可以选择最适合其语言需求的模型。
Private LLM 通过使用 OmniQuant 和 GPTQ 等高级量化策略,确保优越的文本生成质量和性能。这些策略需要数小时在 GPU 上小心地量化每个模型。这种细致的过程更有效地保留了模型的权重分布,从而提高了推理速度、模型保真度和文本生成质量。我们的 3 位 OmniQuant 模型优于或匹配其他平台使用的 4 位 RTN 量化模型的性能。与支持 Hugging Face 提供的 GGUF 文件的应用程序不同,Private LLM 在内部量化模型,以确保其优化速度、准确性和质量。这种严格的方法是 Private LLM 作为付费应用程序的原因之一,它提供了比更慢、更不可靠的本地 AI 聊天应用程序更好的质量。
我们定期根据用户反馈向 Private LLM 添加新模型,如发布说明中所示。要请求特定模型,请加入我们的Discord 社区,并在 #suggestions 频道中分享您的建议。我们会审查所有请求,并优先考虑流行的请求以进行未来更新。
Private LLM 当前不支持读取文档或文件,这通常被称为检索增强生成(RAG)。此功能涉及使用外部文档来丰富模型的响应,但其效果很大程度上取决于上下文长度,即模型在单次提示中可以处理的最大文本量。较长的上下文长度可以提供更详细和准确的响应,但在本地设备上计算需求较高。Ollama 等竞争对手通常支持默认上下文长度为 2k tokens,而 LM Studio 的默认上下文长度为 1500 tokens。相比之下,Private LLM 在 iPhone 和 iPad 上提供 8K tokens,在 Mac 上提供高达 32K tokens,这使其成为此方面最强大的本地 AI 解决方案之一。然而,包括 Private LLM 在内的所有当前本地 AI 实现,在处理长文本内容时都会面临幻觉问题。这一限制源于模型在处理过多或不完整的输入时可能生成错误或虚构的信息。Private LLM 的 OmniQuant 量化显著减少了与我们的竞争对手使用的 RTN 量化相比的幻觉,但无法完全消除它们。尽管我们计划在未来引入文档读取功能,但基于服务器的解决方案目前为 RAG 提供了最可靠的结果,因为它们更能应对更大的上下文长度和计算需求。
绝对不行。Private LLM 专注于确保您的隐私,仅在离线状态下运行,无需互联网访问其功能或实时数据。只有当您选择下载更新或新模型时才需要互联网连接,但此期间不会收集、传输或交换任何个人数据。我们的隐私理念与 Apple 的严格隐私和安全准则保持一致,我们的应用程序遵循最高的数据保护标准。值得注意的是,用户有时可能会询问 Private LLM 是否可以访问互联网,这可能导致模型产生幻觉,暗示它可以访问。但这些响应不应被视为事实。如果用户希望独立验证 Private LLM 的隐私保证,我们建议使用像 Little Snitch 这样的网络监控工具。这样,您可以亲眼看到我们的应用程序保持严格的隐私控制。对于那些希望访问实时信息的用户,Private LLM 无缝集成了 Apple Shortcuts,允许您从 RSS 源、网页,甚至像日历、提醒、备忘录等应用程序中提取数据。这一功能提供了一种创造性的解决方案,可以在与 Private LLM 的交互中纳入当前数据,同时仍然保持其离线隐私优先的原则。如果您有任何问题或需要进一步的说明,请随时 联系我们。
首先,Private LLM 通过其称为 OmniQuant 的先进模型量化技术脱颖而出。与其他竞争应用程序使用的简单四舍五入(RTN)量化不同,OmniQuant 量化是一种基于优化的方法,使用可学习的权重剪裁。此方法允许更精确地控制量化范围,有效地保持原始权重分布的完整性。因此,Private LLM 实现了卓越的模型性能和准确性,几乎与未量化的 16 位浮点(fp16)模型相匹配,但推理时的计算需求显著降低。
虽然使用 OmniQuant 进行模型量化的过程计算密集,但这是值得的投资。这种先进的方法确保了量化模型的困惑度(衡量模型文本生成质量的指标)比使用简单 RTN 量化时更接近原始 fp16 模型。这确保了 Private LLM 用户享受无缝、高效和高质量的 AI 体验,使我们与其他类似应用程序区分开来。
其次,与几乎所有其他竞争的离线 LLM 应用程序不同,Private LLM 并不基于 llama.cpp。这意味着 llama.cpp(以及使用它的应用程序)不可用的高级功能,例如 Mistral 模型中的注意力汇点和滑动窗口注意力,在 Private LLM 中可用,但其他地方不可用。这也意味着我们的应用程序在相同硬件上比竞争对手显著更快( YouTube 性能比较视频 )。
最后,我们是机器学习工程师,在每个模型中仔细调整量化和参数,以最大限度地提高文本生成质量。例如,我们不会对 Mixtral 模型中的嵌入和门层进行量化,因为对它们进行量化会严重影响模型的困惑度(不用说,我们的竞争对手天真地对所有内容进行量化)。类似地,对于 Gemma 模型,量化权重绑定的嵌入会损害模型的困惑度,因此我们不会(而我们的竞争对手会)。
通过在不影响隐私和离线功能的情况下优先考虑准确性和计算效率,Private LLM 为寻求强大、私密和个性化 AI 体验的 iOS 和 macOS 用户提供了独特的解决方案。
完成一次性购买后,您可以在所有 Apple 设备上下载并使用 Private LLM。该应用支持家庭共享,允许您与家人共享。
Private LLM 可以在几秒钟内分析并总结冗长的段落。只需粘贴内容,AI 就会生成简洁的摘要,所有操作都在离线状态下完成。您还可以使用 Private LLM 进行重述和改写,提示如下:
- 给我一个 TLDR:[在此粘贴内容]
- 您是一位专家文案撰稿人。请用您自己的话重新表述以下内容:[粘贴内容]
- 改写以下文本,使其听起来更原创:[粘贴内容]
当然可以!Private LLM 可以生成有洞察力的建议和创意,使其成为头脑风暴和解决问题任务的强大工具。以下是一些示例头脑风暴提示,您可以尝试向 Private LLM 提问。请随意尝试并使用您自己的提示。
- 你能给我一些科幻小说的潜在主题吗?
- 我计划开一家素食快餐店。这一想法的弱点是什么?
- 我经营一家成立两年的软件开发初创公司,有一个具有市场契合度的产品,计划在完全不同的市场引入一个新的软件产品。使用六顶思考帽方法分析这个问题。
- 利用黄金圈模型为管理咨询业务创建一个强有力的品牌。
采样温度和 Top-P 是所有自回归因果解码器(即 GPT)模型的通用推理参数,并非 Private LLM 所独有。应用程序将它们设置为合理的默认值(采样温度为 0.7,Top-p 为 0.95),但您可以随时调整它们并查看效果。请注意,这些参数的更改在应用程序重新启动之前不会生效。
这些参数控制了确定性文本生成和创造性之间的权衡。低值会导致无趣但连贯的响应,高值则可能生成创造性但有时不连贯的响应。
可以。Private LLM 具有两个应用意图,您可以通过 Siri 和快捷指令应用程序使用。请在快捷指令应用程序中查找 Private LLM。此外,Private LLM 还支持x-callback-url规范,该规范也受快捷指令和许多其他应用程序支持。以下是使用 Private LLM 的 x-callback-url 功能的示例快捷指令。
iOS 和 macOS 在后台处理功能上的差异主要源于 Apple 的硬件使用政策。在 iOS 上,Apple 限制需要密集 GPU 使用的任务在后台执行。此限制旨在保护电池寿命并保持系统性能。根据 Apple 的指南,试图在后台运行 Metal 内核的应用程序将立即被终止,以防止未经授权的资源使用。对于 Private LLM,虽然我们可以在 macOS 上利用 GPU 在后台运行操作,但 iOS 版本在应用程序不在前台时受限于 CPU 处理。在 CPU 上运行 Private LLM 的 AI 驱动任务在技术上是可能的,但速度会显著变慢——比 GPU 处理慢 10 倍以上。这种慢速性能无法提供我们所追求的无缝、高效用户体验。我们希望未来 iOS 更新可能会在后台进程如何利用系统资源(包括应用程序的 GPU 访问)方面提供更多灵活性。在此之前,我们将继续在当前限制范围内优化我们的 iOS 应用程序,以确保您获得最佳性能,同时不影响设备健康或应用程序效率。有关更多技术细节,您可以参考 Apple 官方文档:Apple Developer Documentation。
这可能是由于设备内存不足,或者分配给 Private LLM 的任务特别复杂。在这种情况下,请考虑关闭可能正在后台运行的占用内存的应用程序,并尝试将请求分解为较小、更易于管理的任务以供 LLM 处理。在后一种情况下,仅需回复“继续”、“接着说”或“告诉我”也可以。
很遗憾听到您考虑退款。您可以通过 Apple App Store 请求退款。只需导航到您的 Apple 帐户的购买历史记录,找到 Private LLM,然后单击“报告问题”以启动退款流程。我们也很乐意听取您的意见,以改进产品。请通过联系我们,提供您的反馈。
我们很高兴听到您的声音!加入我们的Discord 社区,分享您的想法并从其他用户那里获得支持。更喜欢私人对话?使用我们网站上的联系表格直接给我们发送电子邮件。