Question 1

什麼是 Private LLM？

Accepted Answer

Private LLM 是您的私密 AI 聊天機器人，專為隱私、便利與創意而設計。它完全離線運作於 iPhone、iPad 與 Mac 上，確保您的資料安全且保密。Private LLM 是 App Store 上的單次購買應用程式，讓您無需支付任何訂閱費用即可無限使用。註：我們討厭訂閱制，我們不會成為自己所厭惡的那種人，也不會強迫使用者接受。

Question 2

Private LLM 與其他基於 llama.cpp 與 MLX 的本機 AI 解決方案（如 Ollama、LM Studio 等）有何不同？

Accepted Answer

首先，Private LLM 透過 OmniQuant 與 GPTQ 等先進的模型量化技術，在其他本機 AI 解決方案中脫穎而出。與其他基於 MLX 與 llama.cpp 框架的競爭應用程式所使用的原始「四捨五入」(RTN) 量化不同，OmniQuant 與 GPTQ 量化是基於最佳化的方法。這些方法允許更精確地控制量化範圍，有效地維持原始權重分佈的完整性。因此，Private LLM 實現了卓越的模型效能與準確度，幾乎達到未量化的 16 位元浮點 (fp16) 模型的效能，但在推論時顯著降低了運算需求。

雖然使用 OmniQuant 與 GPTQ 量化模型的過程運算密集，但這是一項值得的投資。這種先進的方法確保了量化模型的困惑度 (衡量模型文字生成品質的指標) 遠比使用原始 RTN 量化更接近原始 fp16 模型。這確保了 Private LLM 使用者能享受流暢、高效且高品質的 AI 體驗，使我們與其他類似應用程式區隔開來。

其次，與幾乎所有其他競爭的離線 LLM 應用程式不同，Private LLM 並非基於 llama.cpp 或 MLX。這意味著 llama.cpp 與 MLX（以及使用它們的應用程式）中無法使用的進階功能，例如注意力匯點 (attention sinks) 與滑動視窗注意力 (sliding window attention)，在 Private LLM 中皆可使用，但在其他地方則無法使用[1]。這也意味著我們的應用程式在相同硬體上的速度顯著快於競爭對手 (比較效能的 YouTube 影片)。

最後，我們是機器學習工程師，並仔細調整每個模型中的量化與參數，以最大化文字生成品質。例如，我們不會量化 Mixtral 模型中的嵌入層與門控層，因為量化它們會嚴重影響模型的困惑度（不用說，我們的競爭對手會天真地量化所有東西）。同樣地，對於 Gemma 模型，量化權重綁定的嵌入層會損害模型的困惑度，所以我們不會這樣做（而我們的競爭對手會）。此外，在 Microsoft phi-4 模型上，我們選擇性地保留一些關鍵層不進行量化（動態量化），以維持最佳的文字生成品質。

透過在不犧牲隱私與離線功能的情況下優先考慮準確度與運算效率，Private LLM 為尋求強大、私密且個人化 AI 體驗的 iOS 與 macOS 使用者提供了獨特的解決方案。

Question 3

哪些裝置可以執行 Private LLM，建議的規格是什麼？

Accepted Answer

在裝置上執行大型語言模型 (LLM) 是一個記憶體密集型的過程，因為它需要大量的 RAM 才能有效地載入與執行模型。此外，Private LLM 通常不是您 iPhone、iPad 或 Mac 上唯一執行的應用程式。其他應用程式，特別是記憶體密集型的應用程式，可能會爭奪系統資源，影響 Private LLM 的效能。

在 iPhone 上，較舊的裝置如 iPhone SE 第 2 代 (3GB RAM) 可以執行較小的模型，如 Llama 3.2 1B 與 Qwen 2.5 0.5B/1.5B，但由於硬體限制，體驗可能會受到限制。從 iPhone 12 (4GB RAM) 開始，效能因存取稍大的 3B 模型而有所改善。為了獲得最佳體驗，我們建議使用配備 8GB RAM 的 iPhone 15 Pro 或更新機型。這些裝置能夠輕鬆執行較大的模型，如 Llama 3.1 8B 或 Qwen 2.5 7B。雖然 Private LLM 在技術上可以安裝在比 iPhone 12 更舊的裝置上，但我們不再建議為此類裝置購買該應用程式，因為使用者回饋顯示過時的硬體會顯著限制體驗。使用舊裝置的使用者仍然可以購買該應用程式，但不保證支援與最佳效能。

在 iPad 上，情況類似。至少具備 4GB RAM 的裝置可以執行與中階 iPhone 相當的模型。為了獲得最佳結果，配備 16GB RAM 的頂級 iPad Pro 是理想選擇，因為它支援更大的模型，如 Qwen 2.5 14B 或 Google Gemma 2 9B。這種無與倫比的功能使 iPad Pro 成為執行 Private LLM 的強大選擇。

在 Mac 上，向 Apple Silicon 的過渡為本機 AI 效能設定了新的基準。雖然 Private LLM 可以安裝在 Intel Mac 上，但我們強烈建議使用基於 Apple Silicon 的 Mac 以獲得顯著更流暢的體驗。在配備 8GB RAM 的 Apple Silicon Mac 上，您可以執行與最新 iPhone 上支援的模型相當的模型，如 Llama 3.1 8B 與 Qwen 2.5 7B。配備 16GB RAM 的 Mac，如頂級 iPad Pro，可以處理更大的模型，如 Qwen 2.5 14B 或 Google Gemma 2 9B。配備 32GB RAM，Mac 可以執行更大的模型，如 Phi-4、Qwen 2.5 32B，而為了極致體驗，配備至少 48GB RAM 的 Apple Silicon Mac 在執行如 Llama 3.3 70B 等模型時可提供最佳效能。

Private LLM 旨在將本機 AI 的力量帶給廣泛的 Apple 裝置，但為了獲得最佳效能，我們強烈建議使用記憶體更多的裝置。如果您仍不確定裝置的相容性或需要進一步協助，請加入我們的 Discord 社群與我們及其他可以提供協助的使用者聯繫！

Question 4

為什麼 Private LLM 不是免費的？

Accepted Answer

Private LLM 是一款由兩位開發者打造的自力更生產品，沒有創投資金。我們的競爭對手如 Ollama 與 LM Studio 是有創投支持的公司。其中一些在他們的使用條款中隱藏了繁重的條款，禁止用於商業或生產目的。我們對使用者如何使用我們的應用程式不設任何限制。我們自力更生的單次付款模式並不完美，也有其缺點，例如無法購買廣告、網紅貼文與 Twitter 上的金色勾勾。但其好處是我們沒有來自創投的壓力去積極監控與變現我們的使用者；我們可以 100% 專注於為使用者與我們自己打造產品。

在 Private LLM，我們優先考慮品質與獨立性。為了實現卓越的效能，我們使用 OmniQuant 與 GPTQ 等先進技術仔細量化每個模型。此過程需要大量資源，包括租用 GPU，這些絕非免費。我們所有的競爭對手都使用 RTN (四捨五入) 量化，這在資源方面非常便宜，但導致量化模型的品質較差。作為一家小型獨立企業，我們花費大量時間與資源使用 SOTA 量化演算法來量化模型，因為在品質方面這是一項值得的權衡。結果是無與倫比的 AI 體驗，在準確度與速度方面脫穎而出。

隱私是 Private LLM 的另一個核心價值。我們在您的裝置上本機處理所有內容，零資料收集或追蹤。做出這樣的聲明並不容易，特別是當您有創投支持且面臨尋找可擴展收入來源的壓力時。透過保持獨立，我們確保您的資料始終保持私密。

免費產品可能看起來很誘人，特別是當網紅積極推銷它們時，但實際上，它們通常提供較差的文字生成品質。Private LLM 採取了不同的方法，提供的文字生成在連貫性、準確度與上下文方面遙遙領先。透過收取一次性費用，Private LLM 提供了一種以使用者為中心、隱私優先的 AI 解決方案，並提供我們的競爭對手無法企及的高品質文字輸出。

Question 5

Private LLM 支援哪些語言？

Accepted Answer

Private LLM 提供一系列模型以滿足多樣化的語言需求。我們的選擇包括 Llama 3、Qwen 2.5 與 Gemma 3 系列，皆支援多種語言。Llama 3 精通英語、德語、法語、義大利語、葡萄牙語、印地語、西班牙語與泰語；Qwen 2.5 擴展支援超過 29 種語言，包括中文、英語、法語、西班牙語、葡萄牙語、德語、義大利語、俄語、日語、韓語、越南語、泰語與阿拉伯語；而 Gemma 3 支援全球超過 140 種語言。對於尋求針對特定非英語語言量身打造模型的使用者，Private LLM 提供了如 SauerkrautLM Gemma-2 2B IT（德語）、DictaLM 2.0 Instruct（希伯來語）、RakutenAI 7B Chat（日語）以及 Yi 6B Chat 或 Yi 34B Chat（中文）等選項。這種多樣化的選擇確保使用者能選擇最符合其語言要求的模型。

Question 6

為什麼 Private LLM 無法直接從 HuggingFace 載入模型？

Accepted Answer

Private LLM 透過利用 OmniQuant 與 GPTQ 等先進的量化策略，確保了卓越的文字生成品質與效能，這些策略需要花費數小時在 GPU 上仔細量化每個模型。此細緻的過程更有效地保留了模型的權重分佈，從而實現更快的推論、改進的模型保真度與更高品質的文字生成。我們的 3 位元 OmniQuant 模型表現優於或等同於其他平台使用的 4 位元 RTN 量化模型。與支援 Hugging Face 上現成 GGUF 檔案的應用程式不同，Private LLM 在內部量化模型，確保它們針對速度、準確度與品質進行了最佳化。這種嚴謹的方法是 Private LLM 成為付費應用程式的原因之一，與速度較慢且功能較差的本機 AI 聊天應用程式相比，它提供了更好的品質。

Question 7

我該如何請求新增模型？

Accepted Answer

我們根據使用者回饋定期在 Private LLM 中新增模型，如我們的 版本資訊 所示。若要請求特定模型，請加入我們的 Discord 社群 並在 #suggestions 頻道中分享您的建議。我們會審查所有請求，並優先考慮熱門模型以供未來更新使用。

Question 8

Private LLM 支援讀取文件或檔案嗎？

Accepted Answer

Private LLM 目前不支援讀取文件或檔案，這項功能通常稱為檢索增強生成 (RAG)。此功能涉及使用外部文件來豐富模型的回應，但其有效性很大程度上取決於上下文長度 — 模型在單一提示詞中可以處理的最大文字量。更長的上下文長度允許更詳細與準確的回應，但這在本地裝置上運算需求很高。競爭對手如 Ollama 通常支援 2k tokens 的預設上下文長度，而 LM Studio 預設為 1500 tokens 的上下文長度。相比之下，Private LLM 在 iPhone 與 iPad 上提供 8K tokens，在 Mac 上提供令人印象深刻的 32K tokens，使其成為這方面最強大的本機 AI 解決方案之一。然而，所有當前的本機 AI 實作，包括 Private LLM，在處理長文字內容時都面臨幻覺挑戰。此限制是因為模型在被大量或不完整的輸入淹沒時，可能會產生錯誤或虛構的資訊。Private LLM 的 OmniQuant 量化顯著減少了與我們的競爭對手所使用的 RTN 量化相比的幻覺，但並未完全消除它們。雖然我們計畫在未來引入文件讀取功能，但基於伺服器的解決方案目前為 RAG 提供了最可靠的結果，因為它們更適合處理更大的上下文長度與運算需求。

Question 9

Private LLM 能存取網際網路或即時資料嗎？

Accepted Answer

絕對不能。Private LLM 致力於確保您的隱私，僅離線運作，不具備任何網際網路存取功能，也不會存取即時資料。只有在您選擇下載更新或新模型時才需要網際網路連線，在此過程中不會收集、傳輸、交換或收集任何個人資料。我們的隱私理念與 Apple 嚴格的隱私與安全準則一致，我們的應用程式秉持最高標準的資料保護。值得注意的是，有時使用者可能會詢問 Private LLM 是否能存取網際網路，導致潛在的模型幻覺暗示它可以。然而，這些回應不應被視為事實。如果使用者希望獨立驗證 Private LLM 的隱私保證，我們建議使用網路監控工具，如 Little Snitch。這樣，您就可以親眼看到我們的應用程式維持嚴格的隱私控制。對於有興趣存取即時資訊的使用者，Private LLM 與 Apple Shortcuts 無縫整合，讓您可以從 RSS 訂閱、網頁，甚至如行事曆、提醒事項、備忘錄等應用程式中提取資料。此功能為將當前資料納入與 Private LLM 的互動中提供了一種創意的解決方案，同時仍維持其離線、隱私優先的理念。如果您有任何疑問或需要進一步說明，請隨時 與我們聯繫。

Question 10

我該如何在所有 Apple 裝置上存取 Private LLM？

Accepted Answer

單次購買後，您即可在所有 Apple 裝置上下載並使用 Private LLM。該應用程式支援 家人共享，讓您可以與家人共享。

Question 11

我該如何使用 Private LLM 進行總結？

Accepted Answer

Private LLM 可以在幾秒鐘內分析並總結冗長的文字段落。只需貼上內容，AI 就會產生簡潔的總結，全程離線。您也可以使用 Private LLM 進行改寫與釋義，使用如下提示詞：給我這段內容的重點摘要：[在此貼上內容]您是一位專業文案。請用您自己的話改寫以下內容：[在此貼上內容]釋義以下文字，使其聽起來更原創：[在此貼上內容]

Question 12

Private LLM 能協助腦力激盪或解決問題嗎？

Accepted Answer

絕對可以！Private LLM 可以產生富有洞察力的建議與點子，使其成為腦力激盪與解決問題任務的強大工具。以下是您可以嘗試詢問 Private LLM 的腦力激盪提示詞範例。請隨意嘗試並使用您自己的提示詞。你能給我一些科幻小說的潛在主題嗎？我計畫開設一家素食速食餐廳。這個點子的弱點是什麼？我經營一家兩年的軟體開發新創公司，有一款產品已獲得 PMF，計畫在截然不同的市場中推出新軟體產品。請使用六頂思考帽法來分析此情況。利用黃金圈模型為管理顧問業務建立強大的品牌。

Question 13

什麼是取樣溫度與 Top-P 設定，它們有什麼作用？

Accepted Answer

取樣溫度與 Top-P 是所有自回歸因果僅解碼器 Transformer (又稱 GPT) 模型的通用推論參數，並非 Private LLM 所特有。應用程式已將其設為合理的預設值（取樣溫度為 0.7，Top-p 為 0.95），但您隨時可以調整它們並觀察結果。請記住，這些參數的變更在應用程式重新啟動前不會生效。

這些參數控制了確定性文字生成與創造力之間的權衡。低值會導致枯燥但連貫的回應，高值則會導致有創意但有時不連貫的回應。

Question 14

Private LLM 如何運作？

Accepted Answer

Private LLM 離線運作，並使用您可以隨意對話的僅解碼器 Transformer (又稱 GPT) 模型。它還可以協助您總結文字段落、產生創意點子，並提供廣泛主題的資訊。

Question 15

我可以使用 Private LLM 搭配 Shortcuts 應用程式嗎？

Accepted Answer

可以。Private LLM 有兩個應用程式意圖，您可以搭配 Siri 與 Shortcuts 應用程式使用。請在 Shortcuts 應用程式中尋找 Private LLM。此外，Private LLM 也支援  x-callback-url  規範，該規範也受到  Shortcuts  與許多其他應用程式的支援。這是一個使用 Private LLM 中 x-callback-url 功能的  捷徑範例 。

Question 16

我該如何在 Mac 版 Private LLM 中將模型權重儲存在外部磁碟機 (DAS/NAS) 上？

Accepted Answer

Private LLM 是一款完全沙盒化的 macOS 應用程式，這意味著模型儲存在應用程式容器內：~/Library/Containers/ie.numen.personalgpt/Data/Library/Application Support/ie.numen.personalgpt/models。在 macOS Sequoia 及更高版本上，您可以利用系統將大型應用程式移至外部磁碟的能力 move large apps to an external disk。移動應用程式也會移動儲存在其中的模型。如果您的 Mac 內部儲存空間不足，這是釋放空間的建議方法。

Question 17

為什麼我在 Private LLM 中下載模型時遇到問題？

Accepted Answer

如果您在 Private LLM 中下載模型時遇到困難，通常是因為與 Hugging Face 的連線暫時不穩定，我們的模型託管在那裡。您可以快速查看 Hugging Face 狀態頁面以查看是否有任何持續的中斷。在某些情況下，來自公司、學校或國家防火牆的網路限制可能會限制對 Hugging Face 的存取，這可能會影響下載。如果您處於此類網路中，我們建議切換到家用 Wi-Fi 或行動熱點，或使用 VPN 來繞過這些限制。

對於中國或香港的使用者，當您的裝置地區設定為這些地區時，Private LLM 會自動切換至 hf-mirror.com 以提高下載可靠性。這有助於確保更流暢的存取，而無需您進行額外設定。

如果您在檢查連線後仍遇到問題，請嘗試重新啟動應用程式或裝置。對於持續存在的問題，請進入我們的 Discord 社群并在支援頻道中分享詳細資訊 — 我們隨時樂意協助疑難排解！

Question 18

為什麼我無法像在 macOS 上使用 Private LLM 那樣在 iOS 上背景執行捷徑？

Accepted Answer

iOS 與 macOS 在背景處理方面的功能差異，主要源於 Apple 的硬體使用政策。在 iOS 上，Apple 限制了需要密集 GPU 使用的任務進行背景執行。此限制旨在節省電池壽命並維持系統效能。根據 Apple 的準則，嘗試在背景執行 Metal 核心的應用程式將被立即終止，以防止未經授權的資源使用。對於 Private LLM，雖然我們可以在 macOS 上利用 GPU 在背景執行操作，但 iOS 版本在應用程式未處於前景時僅限於 CPU 處理。在 CPU 上執行 Private LLM 的 AI 驅動任務在技術上是可行的，但速度會顯著變慢 — 比 GPU 處理慢 10 倍以上。這種緩慢的效能無法提供我們所追求的流暢、高效的使用者體驗。我們希望未來 iOS 的更新能提供更多彈性，讓背景處理程序能利用系統資源，包括為像 Private LLM 這樣的應用程式提供潛在的 GPU 存取權。在此之前，我們持續在現有限制內最佳化我們的 iOS 應用程式，以確保您在不損害裝置健康或應用程式效率的情況下獲得最佳效能。如需更多技術細節，您可以參考 Apple 關於準備 Metal 應用程式在背景執行的官方文件：Apple 開發者文件。

iOS 26 引入了一項新的背景 GPU 存取權限 (com.apple.developer.background-tasks.continued-processing.gpu)。然而，它僅在應用程式內發生直接使用者互動（點擊、滑動等）後才會啟動，因此無法實現完全在背景從捷徑執行本機 LLM。

Question 19

為什麼模型在載入時會崩潰或回退到內建模型？

Accepted Answer

當嘗試在 Private LLM 中載入模型時，您偶爾可能會看到一則錯誤訊息，指出「因載入模型時崩潰，回退至內建模型」。這通常發生在您的裝置沒有足夠的可用記憶體來載入您選擇的模型時。這些崩潰可能因為您的裝置可用 RAM 有限、其他應用程式在背景佔用了大量記憶體，或多個資源密集型程序同時執行。若要解決此問題，請先嘗試關閉記憶體密集型的背景應用程式。如果重新啟動 Private LLM 後問題仍然存在，您可以切換到較小的模型、重新啟動裝置以清除記憶體，或檢查您的裝置是否符合該模型的建議 RAM 要求。如果您在嘗試這些解決方案後仍持續遇到崩潰，請考慮使用更符合您裝置能力的較小模型。

Question 20

為什麼 Private LLM 有時會突然停止生成文字？

Accepted Answer

這可能是因為裝置記憶體不足，或者給予 Private LLM 的任務特別複雜。在這種情況下，請考慮關閉背景中可能正在執行的記憶體密集型應用程式，並嘗試將請求拆解為更小、更易於處理的任務讓 LLM 處理。在後一種情況下，只需回覆「繼續」、「請繼續」或「告訴我」也有效。

Question 21

我可以在 Android 上使用 Private LLM 嗎？

Accepted Answer

可以，Private LLM 現已作為早期測試版在 Android 上推出！雖然我們的首要任務仍然是為 Apple 裝置提供最佳的 AI 體驗，但我們正在擴展到 Android，以服務更多重視隱私與離線 AI 的使用者。Android 版本目前可作為直接 APK 下載（尚未在 Google Play 商店上架），並包含許多來自我們 iOS/macOS 版本的核心功能。由於這是早期測試版發布，與我們更成熟的 Apple 平台版本相比，您可能會遇到一些限制或穩定性問題。我們強烈建議您加入我們的 Discord 社群 分享您的回饋、回報任何問題，並協助我們改進 Android 體驗。您在此階段的意見對於我們努力在 Google Play 商店正式發布至關重要。您可以從我們的 網站 下載 APK。

Question 22

我該如何申請 Private LLM 的退款？

Accepted Answer

很遺憾聽到您考慮退款。您可以透過 Apple App Store 申請退款。只需導覽至您 Apple 帳號的購買記錄，找到 Private LLM，然後點擊「回報問題」以啟動退款程序。我們也很樂意聽取您的意見，了解我們如何改進。請 與我們聯繫 提供您的回饋。

Question 23

我可以在哪裡詢問更多問題？

Accepted Answer

我們很樂意聽取您的意見！加入我們的 Discord 社群 分享您的想法並從其他使用者那裡獲得支援。偏好私密對話？使用我們網站上的 聯繫表單 直接給我們發送電子郵件。

常見問題