Question 1

什麼是 Private LLM？

Accepted Answer

Private LLM 是您的私密 AI 聊天機器人，專為隱私、便利與創意而設計。它完全在您的 iPhone、iPad 與 Mac 上離線運作，確保您的資料安全且保密。Private LLM 是 App Store 的一次性購買項目，讓您無需支付任何訂閱費用即可無限存取。附註：我們討厭訂閱制，我們絕不會虛偽地強迫使用者接受我們所厭惡的事物。

Question 2

iPhone、iPad 及 Mac 最好的本機 AI app 是哪一個？

Accepted Answer

Private LLM 是 Apple 裝置上一款領先的本機 AI app。它完全在裝置上運行開源模型，無需帳戶、無需雲端、無需訂閱。請按你的硬件配對模型: 大多數 iPhone 可運行 Llama 3.2 3B 或 Qwen3 4B，iPhone 15 Pro 及更新型號可運行 Llama 3.1 8B，而 48GB Apple Silicon Mac 可運行 Llama 3.3 70B。Private LLM 內置按每個模型調校的 GPTQ 及 OmniQuant 量化，因此其 3-bit OmniQuant 模型在相同硬件上，可媲美基於 llama.cpp 的 app 所用的 4-bit RTN 模型。一次購買即可在 iPhone、iPad 及 Mac 上使用，並支援 Family Sharing，最多六人共享。

Question 3

本機 LLM 安全嗎？

Accepted Answer

安全。使用本機 LLM 時，你的提示及對話會在你的裝置上處理，絕不會傳送到伺服器，因此傳輸途中沒有內容可被截取，也不會有聊天記錄存放在他人的雲端。Private LLM 無需帳戶，亦不收集個人資料，並在 Apple 的 App Store 沙盒內運行。處理法律、醫療或機密商業問題等敏感工作時，將推理保留在裝置上，可避免雲端 AI 帶來的外洩風險。本機 LLM 仍然可能出錯或產生幻覺，因此重要答案仍需核實。

Question 4

Private LLM 與 Ollama、LM Studio 及其他基於 llama.cpp 和 MLX 的在地化 AI 解決方案有何不同？

Accepted Answer

首先，Private LLM 透過 OmniQuant 與 GPTQ 等先進的模型量化技術，從其他在地化 AI 解決方案中脫穎而出。與其他基於 MLX 與 llama.cpp 框架的競爭 App 所使用的原始「四捨五入」(RTN) 量化不同，OmniQuant 與 GPTQ 量化是基於最佳化的方法。這些方法能更精確地控制量化範圍，有效維持原始權重分佈的完整性。因此，Private LLM 達成了卓越的模型效能與準確度，幾乎媲美未量化的 16 位元浮點 (fp16) 模型，但在推論時顯著降低了運算需求。

雖然用 OmniQuant 同 GPTQ 量化模型嘅過程好運算密集，但呢個係值得嘅投資。呢種先進嘅方法確保量化模型嘅困惑度（衡量模型生成文字質素嘅指標）遠比用簡單 RTN 量化更貼近原始 fp16 模型。咁樣可以保持喺裝置上嘅文字生成質素，正正係令 Private LLM 喺同類 app 中脫穎而出嘅原因。

其次，與幾乎所有其他離線 LLM 競爭 App 不同，Private LLM 並非基於 llama.cpp 或 MLX。這意味著 llama.cpp 與 MLX（以及使用它們的 App）中無法使用的進階功能，例如注意力匯集 (attention sinks) 與滑動視窗注意力 (sliding window attention)，在 Private LLM 中皆可使用，但在其他地方則無法使用[1]。這也意味著我們的 App 在相同硬體上比競爭對手顯著更快 (比較效能的 YouTube 影片)。

最後，我們身為機器學習工程師，會仔細調整每個模型的量化與參數，以最大化文字生成品質。例如，我們不會量化 Mixtral 模型中的嵌入層與閘門層，因為量化它們會嚴重影響模型的困惑度（不用說，我們的競爭對手會盲目地量化所有東西）。Gemma 模型也是如此，量化權重綁定的嵌入層會損害模型的困惑度，所以我們不會這樣做（而我們的競爭對手會）。此外，在 Microsoft Phi 4 模型上，我們選擇性地保留一些關鍵層不進行量化（動態量化），以維持最佳的文字生成品質。

Private LLM 重視準確度同運算效率，同時唔會犧牲私隱同離線功能，為 iOS 同 macOS 用家提供一個完全喺自己硬件上運行嘅私隱、裝置內置 AI。

Question 5

哪些裝置可以執行 Private LLM，建議的規格是什麼？

Accepted Answer

在裝置上執行大型語言模型 (LLM) 是一個記憶體密集型的過程，因為它需要大量的 RAM 才能有效地載入與執行模型。此外，Private LLM 通常不是您 iPhone、iPad 或 Mac 上唯一執行的 App。其他 App，特別是記憶體密集型的 App，可能會爭奪系統資源，影響 Private LLM 的效能。

在 iPhone 上，較舊的裝置如 iPhone SE 第 2 代 (3GB RAM) 可以執行較小的模型，如 Llama 3.2 1B 與 Qwen 2.5 0.5B/1.5B，但由於硬體限制，體驗可能會受限。從 iPhone 12 (4GB RAM) 開始，效能隨著對稍大的 3B 模型的存取而提升。為了獲得最佳體驗，我們建議使用配備 8GB RAM 的 iPhone 15 Pro 或更新機型。這些裝置能夠輕鬆執行較大的模型，如 Llama 3.1 8B 或 Qwen 2.5 7B。雖然 Private LLM 在技術上可以安裝在比 iPhone 12 更舊的裝置上，但我們不再建議為此類裝置購買該 App，因為使用者回饋顯示過時的硬體會顯著限制體驗。使用舊裝置的使用者仍然可以購買該 App，但不保證支援與最佳效能。

喺 iPad 上，情況都差唔多。配備至少 4GB RAM 嘅裝置，可以運行同中階 iPhone 相若嘅模型。要達至最佳效果，配備 16GB RAM 嘅頂級 iPad Pro 就最理想，因為佢支援更大嘅模型，例如 Qwen 2.5 14B 或 Google Gemma 2 9B。充裕嘅容量令 iPad Pro 成為運行 Private LLM 嘅強勁之選。

喺 Mac 上，轉用 Apple Silicon 為本地 AI 效能定立咗新標準。雖然 Private LLM 可以安裝喺 Intel Mac 上，但我哋強烈建議使用 Apple Silicon 嘅 Mac，以獲得更流暢嘅體驗。喺配備 8GB RAM 嘅 Apple Silicon Mac 上，你可以運行同最新 iPhone 支援嘅相若模型，例如 Llama 3.1 8B 同 Qwen 2.5 7B。配備 16GB RAM 嘅 Mac，好似頂級 iPad Pro 咁，可以處理更大嘅模型，例如 Qwen 2.5 14B 或 Google Gemma 2 9B。配備 32GB RAM，Mac 可以運行更大嘅模型，例如 Phi 4、Qwen 2.5 32B，而要終極體驗，配備至少 48GB RAM 嘅 Apple Silicon Mac 就可以喺 Llama 3.3 70B 呢類模型上提供最佳效能。

Private LLM 旨在將在地化 AI 的強大功能帶給廣泛的 Apple 裝置，但為了獲得最佳效能，我們強烈建議使用記憶體更大的裝置。如果您仍不確定裝置的相容性或需要進一步協助，請加入我們的 Discord 社群與我們及其他可以提供協助的使用者聯繫！

Question 6

為什麼 Private LLM 不是免費的？

Accepted Answer

Private LLM 是一款由兩位開發者打造的自力更生產品，沒有創投資金。我們的競爭對手如 Ollama 與 LM Studio 是有創投支持的公司。他們中的一些人在使用條款中隱藏了繁重的條款，禁止將其用於商業或生產用途。我們對使用者如何使用我們的 App 不加任何限制。我們自力更生的一次性付款模式並不完美，也有缺點，例如無法購買廣告、網紅貼文以及 Twitter 上的金勾勾。但好處是我們沒有來自創投的壓力去積極監控與變現我們的使用者；我們可以 100% 專注於為我們的使用者與我們自己打造產品。

在 Private LLM，我們優先考慮品質與獨立性。為了達成卓越的效能，我們使用 OmniQuant 與 GPTQ 等先進技術仔細量化每個模型。此過程需要大量資源，包括租用 GPU，這絕非免費。我們所有的競爭對手都使用 RTN（四捨五入）量化，這在資源方面非常便宜，但會導致量化模型品質低劣。身為一家小型獨立企業，我們花費大量時間與資源使用 SOTA 量化演算法來量化模型，因為在品質方面這是一項值得的權衡。結果就是一種在準確度與速度方面脫穎而出的無與倫比的 AI 體驗。

隱私是 Private LLM 的另一個核心價值。我們在您的裝置上在地化處理所有內容，零資料收集或追蹤。做出這樣的聲明並不容易，特別是當您有創投支持並面臨尋找可擴展收入來源的壓力時。透過保持獨立，我們確保您的資料始終保持私密。

免費產品可能看起來很誘人，特別是當網紅積極推銷它們時，但實際上，它們通常提供較差的文字生成品質。Private LLM 採取了不同的方法，提供在連貫性、準確度與上下文方面遙遙領先的文字生成。透過收取一次性費用，Private LLM 提供了一種以使用者為中心、隱私優先的 AI 解決方案，並提供我們的競爭對手無法望其項背的高品質文字輸出。

Question 7

Private LLM 支援哪些語言？

Accepted Answer

Private LLM 提供一系列模型，以滿足唔同嘅語言需求。我哋嘅選擇包括 Llama 3、Qwen 2.5 同 Gemma 3 系列，全部都支援多種語言。Llama 3 擅長英文、德文、法文、意大利文、葡萄牙文、印地文、西班牙文同泰文；Qwen 2.5 更支援超過 29 種語言，包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韓文、越南文、泰文同阿拉伯文；而 Gemma 3 就支援全球超過 140 種語言。對於想搵專為特定非英語語言而設嘅模型，Private LLM 亦有提供，例如專為德文而設嘅 SauerkrautLM Gemma 2 2B IT、希伯來文嘅 DictaLM 2.0 Instruct、日文嘅 RakutenAI 7B Chat，以及中文嘅 Yi 6B Chat 或 Yi 34B Chat。呢個多元化嘅選擇確保用戶可以揀選最適合佢哋語言需求嘅模型。

Question 8

為什麼 Private LLM 無法直接從 Hugging Face 載入模型？

Accepted Answer

Private LLM 透過利用 OmniQuant 與 GPTQ 等先進的量化策略，確保了卓越的文字生成品質與效能，這些策略需要花費數小時在 GPU 上仔細量化每個模型。此細緻的過程更有效地保留了模型的權重分佈，從而實現更快的推論、改進的模型保真度與更高品質的文字生成。我們的 3-bit OmniQuant 模型表現優於或媲美其他平台使用的 4-bit RTN 量化模型。與支援 Hugging Face 上現成 GGUF 檔案的 App 不同，Private LLM 在內部量化模型，確保它們針對速度、準確度與品質進行了最佳化。這種嚴謹的方法是 Private LLM 成為付費 App 的原因之一，與速度較慢且能力較差的在地化 AI 聊天 App 相比，它提供了更好的品質。

Question 9

我該如何請求新增模型？

Accepted Answer

我們根據使用者回饋定期在 Private LLM 中新增模型，如我們的 版本資訊 所示。若要請求特定模型，請加入我們的 Discord 社群 並在 #suggestions 頻道中分享您的建議。我們會審核所有請求，並優先考慮熱門模型以供未來更新使用。

Question 10

Private LLM 支援讀取文件或檔案嗎？

Accepted Answer

Private LLM 目前不支援讀取文件或檔案，這項功能通常稱為檢索增強生成 (RAG)。此功能涉及使用外部文件來豐富模型的回應，但其有效性很大程度上取決於上下文長度 — 模型在單一提示詞中可以處理的最大文字量。較長的上下文長度允許更詳細且準確的回應，但這在在地化裝置上運算需求很高。Ollama 等競爭對手通常支援 2k tokens 的預設上下文長度，而 LM Studio 預設為 1500 tokens。相比之下，Private LLM 在 iPhone 與 iPad 上提供 8K tokens，在 Mac 上提供令人印象深刻的 32K tokens，使其成為這方面最強大的在地化 AI 解決方案之一。然而，所有當前的在地化 AI 實作，包括 Private LLM，在處理長篇文字內容時都面臨幻覺挑戰。此限制是因為模型在被大量或不完整的輸入淹沒時，可能會產生錯誤或捏造的資訊。Private LLM 的 OmniQuant 量化顯著減少了與競爭對手使用的 RTN 量化相比的幻覺，但並未完全消除它們。雖然我們計畫在未來引進文件讀取功能，但基於伺服器的解決方案目前為 RAG 提供了最可靠的結果，因為它們更具備處理更大上下文長度與運算需求的能力。

Question 11

Private LLM 可以存取網際網路或即時資料嗎？

Accepted Answer

絕對唔會。Private LLM 致力保障你嘅私隱，完全離線運作，功能唔需要連接互聯網，亦唔會存取即時數據。只有當你選擇下載更新或新模型時先需要互聯網連接，過程中唔會收集、傳輸或交換任何個人資料。我哋嘅私隱理念同 Apple 嚴格嘅私隱同安全指引一致，而我哋嘅 app 亦遵循最高嘅數據保護標準。值得留意嘅係，有時用家可能會問 Private LLM 係咪可以上網，導致模型有可能出現幻覺，話佢做到。不過，呢啲回覆唔應該當真。如果用戶想獨立驗證 Private LLM 嘅私隱保證，我哋建議使用網絡監察工具，例如 Little Snitch。咁你就可以自己親眼睇到我哋嘅 app 確實有嚴格嘅私隱控制。對於想獲取即時資訊嘅人，Private LLM 可以配合 Apple Shortcuts 使用，令你可以從 RSS feed、網頁，甚至 Calendar、Reminders、Notes 等 app 擷取數據。呢個功能提供咗一個有創意嘅解決方案，可以將即時數據融入你同 Private LLM 嘅互動，同時保持其離線私隱優先嘅理念。如果你有任何問題或者想進一步了解，請隨時聯絡我哋。

Question 12

我該如何在所有 Apple 裝置上存取 Private LLM？

Accepted Answer

一次性購買後，您即可在所有 Apple 裝置上下載並使用 Private LLM。該 App 支援 「家人共享」，讓您可以與家人分享。

Question 13

我該如何使用 Private LLM 進行摘要？

Accepted Answer

Private LLM 可以在幾秒鐘內分析並摘要冗長的文字段落。只需貼上內容，AI 就會產生簡潔的摘要，全程離線。您也可以使用 Private LLM 進行改寫與釋義，使用如下提示詞： 請為我提供這段內容的重點摘要：[在此貼上內容] 您是一位專業文案。請用您自己的話改寫以下內容：[貼上內容] 釋義以下文字，使其聽起來更具原創性：[貼上內容]

Question 14

Private LLM 可以協助腦力激盪或解決問題嗎？

Accepted Answer

當然可以！Private LLM 可以產生建議同諗法，所以對腦力激盪同解決問題好有用。呢度有一啲腦力激盪嘅提示範例，你可以試下問 Private LLM。歡迎隨便試試你自己嘅提示。 您可以給我一些科幻小說的潛在主題嗎？ 我計畫開設一家素食速食餐廳。這個想法有什麼弱點？ 我經營一家兩年的軟體開發新創公司，有一款已具備 PMF 的產品，計畫在截然不同的市場中引進新軟體產品。請使用六頂思考帽方法進行分析。 利用黃金圈法則為管理顧問業務建立強大的品牌。

Question 15

什麼是採樣 Temperature 與 Top-P 設定，它們有什麼作用？

Accepted Answer

採樣 Temperature 與 Top-P 是所有自回歸因果僅解碼器 Transformer (又稱 GPT) 模型的通用推論參數，並非 Private LLM 所特有。App 已將它們設定為合理的預設值（採樣 Temperature 為 0.7，Top-P 為 0.95），但您隨時可以調整它們並觀察結果。請記住，這些參數的變更在 App 重新啟動前不會生效。

這些參數控制了確定性文字生成與創意之間的權衡。低數值會導致枯燥但連貫的回應，高數值則會導致創意豐富但有時不連貫的回應。

Question 16

Private LLM 如何運作？

Accepted Answer

Private LLM 離線運作，並使用您可以隨意對話的僅解碼器 Transformer (又稱 GPT) 模型。它還可以協助您摘要文字段落、產生創意點子，並提供廣泛主題的資訊。

Question 17

我可以使用 Private LLM 搭配「捷徑」App 嗎？

Accepted Answer

可以。Private LLM 有兩個 App 意圖，您可以搭配 Siri 與「捷徑」App 使用。請在「捷徑」App 中搜尋 Private LLM。此外，Private LLM 也支援  x-callback-url  規格，該規格也  受「捷徑」  與許多其他 App 支援。這是一個  捷徑範例 ，使用了 Private LLM 中的 x-callback-url 功能。

Question 18

我該如何在 Mac 版 Private LLM 中將模型權重儲存到外部磁碟機 (DAS/NAS)？

Accepted Answer

Private LLM 是一款完全沙盒化的 macOS App，這意味著模型儲存在 App 的容器中，路徑為：~/Library/Containers/ie.numen.personalgpt/Data/Library/Application Support/ie.numen.personalgpt/models。在 macOS Sequoia 及更新版本上，您可以利用系統將 大型 App 移動到外部磁碟 的能力。移動 App 也會移動儲存在其中的模型。如果您的 Mac 內部儲存空間不足，這是釋放空間的建議方法。

Question 19

為什麼我在 Private LLM 中下載模型時遇到問題？

Accepted Answer

如果您在 Private LLM 中下載模型時遇到困難，通常是因為與 Hugging Face 的連線暫時不穩定，我們的模型皆託管於此。您可以快速查看 Hugging Face 狀態頁面以查看是否有任何持續的服務中斷。在某些情況下，來自公司、學校或國家防火牆的網路限制可能會限制對 Hugging Face 的存取，這會影響下載。如果您處於此類網路中，我們建議切換到家用 Wi-Fi 或行動熱點，或使用 VPN 來繞過這些限制。

對於中國或香港的使用者，當您的裝置地區設定為這些區域時，Private LLM 會自動切換至 hf-mirror.com 以提高下載可靠性。這有助於確保更流暢的存取，而無需您進行額外設定。

如果您在檢查連線後仍遇到問題，請嘗試重新啟動 App 或裝置。若問題持續存在，請加入我們的 Discord 社群並在支援頻道中分享詳細資訊 — 我們隨時樂意協助排除故障！

Question 20

為什麼我無法像在 macOS 上使用 Private LLM 那樣在 iOS 上背景執行捷徑？

Accepted Answer

iOS 同 macOS 喺背景處理功能上嘅差異，主要源於 Apple 嘅硬件使用政策。喺 iOS 上，Apple 限制咗需要大量 GPU 使用嘅背景執行作業。呢項限制係為咗慳電同保持系統效能。根據 Apple 嘅指引，試圖喺背景執行 Metal kernel 嘅 app 會即刻被終止，以防未經授權使用資源。對 Private LLM 嚟講，雖然我哋可以喺 macOS 上利用 GPU 喺背景執行運算，但 iOS 版本喺 app 唔係前景嘅時候，就只能用 CPU 處理。技術上係可以用 CPU 執行 Private LLM 嘅 AI 工作，但會慢好多 — 比 GPU 處理慢超過 10 倍。呢種 CPU 速度唔係我哋想帶俾用戶嘅體驗。我哋期望將來 iOS 嘅更新可以喺背景處理使用系統資源方面更靈活，包括可能俾 Private LLM 呢類 app 用到 GPU。喺呢個情況出現之前，我哋會繼續喺現有嘅限制下優化我哋嘅 iOS app，確保你可以得到最佳效能，同時唔影響裝置健康或者你其他 app 嘅效率。想了解更詳細嘅技術資訊，你可以參考 Apple 嘅官方文件，了解點樣準備你嘅 Metal app 喺背景運作：Apple Developer Documentation。

iOS 26 引進了一項新的背景 GPU 存取授權 (com.apple.developer.background-tasks.continued-processing.gpu)。然而，它僅在 App 內發生直接使用者互動（點擊、滑動等）後才會啟動，因此無法讓「捷徑」完全在背景執行在地化 LLM。

Question 21

為什麼模型在載入過程中會崩潰或回退到內建模型？

Accepted Answer

當嘗試在 Private LLM 中載入模型時，您偶爾可能會看到一則錯誤訊息，顯示「因載入模型時發生崩潰，回退至內建模型」。這通常發生在您的裝置沒有足夠的可用記憶體來載入您選擇的模型時。這些崩潰可能發生是因為您的裝置可用 RAM 有限、其他 App 在背景使用了大量記憶體，或多個資源密集型程序同時執行。若要解決此問題，請先嘗試關閉記憶體密集型的背景 App。如果重新啟動 Private LLM 後問題仍然存在，您可以切換到較小的模型、重新啟動裝置以清除記憶體，或檢查您的裝置是否符合該模型的建議 RAM 要求。如果您在嘗試這些解決方案後仍持續遇到崩潰，請考慮使用更符合您裝置能力的較小模型。

Question 22

為什麼 Private LLM 有時會突然停止生成文字？

Accepted Answer

這可能是因為裝置記憶體不足，或者給予 Private LLM 的任務特別複雜。在這種情況下，請考慮關閉背景中可能正在執行的記憶體密集型 App，並嘗試將請求拆解為更小、更容易處理的任務讓 LLM 執行。在後一種情況下，只需回覆「繼續」、「請繼續」或「告訴我」也有效。

Question 23

我可以在 Android 上使用 Private LLM 嗎？

Accepted Answer

可以，Private LLM 現已作為早期測試版在 Android 上推出！雖然我們的首要任務仍然是為 Apple 裝置提供最佳的 AI 體驗，但我們正在擴展到 Android，以服務更多重視隱私與離線 AI 的使用者。Android 版本目前以直接 APK 下載方式提供（尚未在 Google Play 商店上架），並包含我們 iOS/macOS 版本中的許多核心功能。由於這是早期測試版發布，與我們更成熟的 Apple 平台版本相比，您可能會遇到一些限制或穩定性問題。我們強烈建議您加入我們的 Discord 社群 分享您的回饋、回報任何問題，並協助我們改進 Android 體驗。您在此階段的意見對於我們邁向 Google Play 商店正式發布的過程極為寶貴。您可以從我們的 網站 下載 APK。

Question 24

我該如何申請 Private LLM 的退款？

Accepted Answer

很遺憾聽到您考慮退款。您可以透過 Apple App Store 申請退款。只需導覽至您 Apple 帳號的購買記錄，找到 Private LLM，然後點擊「回報問題」以啟動退款程序。我們也很樂意聽取您的意見，了解我們如何改進。請 與我們聯繫 提供您的回饋。

Question 25

我可以在哪裡詢問更多問題？

Accepted Answer

我們很樂意聽取您的意見！加入我們的 Discord 社群 分享您的想法並從其他使用者那裡獲得支援。偏好私下對話？使用我們網站上的 聯繫表單 直接給我們發送電子郵件。

Private LLM FAQ: 在 iPhone、iPad 及 Mac 上使用本機 AI

開始使用

裝置與模型

私隱與離線使用

使用 Private LLM

購買及退款

疑難排解

我可以在哪裡詢問更多問題？