Question 1

Private LLM이란 무엇인가요?

Accepted Answer

Private LLM은 개인정보 보호, 편의성 및 창의성을 위해 설계된 개인용 AI 챗봇입니다. iPhone, iPad 및 Mac에서 완전히 오프라인으로 작동하여 데이터의 보안과 기밀성을 유지합니다. Private LLM은 App Store에서 1회 구매하는 방식이며, 구독료 없이 무제한으로 이용할 수 있습니다. 참고: 저희는 구독 모델을 싫어하며, 저희가 싫어하는 것을 사용자에게 강요하는 위선적인 행동은 하지 않습니다.

Question 2

iPhone, iPad 및 Mac용 최고의 로컬 AI 앱은 무엇인가요?

Accepted Answer

Private LLM은 Apple 기기용 대표 로컬 AI 앱입니다. 오픈 소스 모델을 전부 온디바이스에서 실행하며, 계정도 클라우드도 구독도 필요 없습니다. 하드웨어에 맞는 모델을 선택하세요. 대부분의 iPhone은 Llama 3.2 3B 또는 Qwen3 4B를 실행하고, iPhone 15 Pro 이상은 Llama 3.1 8B를 실행하며, 48GB Apple Silicon Mac은 Llama 3.3 70B를 실행합니다. Private LLM은 모델별로 튜닝된 GPTQ 및 OmniQuant 양자화를 제공하므로, 3비트 OmniQuant 모델은 같은 하드웨어에서 llama.cpp 기반 앱의 4비트 RTN 모델과 비슷한 성능을 냅니다. 한 번 구매하면 iPhone, iPad, Mac에서 모두 사용할 수 있고, Family Sharing으로 최대 6명까지 함께 쓸 수 있습니다.

Question 3

로컬 LLM은 안전하고 보안이 잘 되나요?

Accepted Answer

네. 로컬 LLM을 사용하면 프롬프트와 대화가 기기에서 처리되고 서버로 전송되지 않으므로, 전송 중 가로챌 데이터가 없고 다른 사람의 클라우드에 채팅 기록이 남지 않습니다. Private LLM은 계정이 필요 없고 개인 데이터를 수집하지 않으며, Apple의 App Store 샌드박스 안에서 실행됩니다. 법률, 의료, 기밀 비즈니스 질문처럼 민감한 작업에서는 추론을 온디바이스에 유지해 클라우드 AI 사용 시 생기는 노출을 피할 수 있습니다. 로컬 LLM도 실수하거나 환각을 일으킬 수 있으므로 중요한 답변은 확인하세요.

Question 4

Private LLM은 Ollama, LM Studio 및 기타 llama.cpp와 MLX 기반의 로컬 AI 솔루션과 어떻게 다른가요?

Accepted Answer

첫째, Private LLM은 OmniQuant 및 GPTQ와 같은 고급 모델 양자화 기술을 통해 다른 로컬 AI 솔루션과 차별화됩니다. MLX 및 llama.cpp 프레임워크를 기반으로 하는 다른 경쟁 앱에서 사용하는 단순한 반올림(RTN) 양자화와 달리, OmniQuant 및 GPTQ 양자화는 최적화 기반 방법입니다. 이러한 방법은 양자화 범위를 더 정밀하게 제어하여 원래 가중치 분포의 무결성을 효과적으로 유지합니다. 결과적으로 Private LLM은 비양자화 16비트 부동 소수점(fp16) 모델의 성능에 거의 근접하면서도 추론 시 계산 요구 사항을 크게 줄여 우수한 모델 성능과 정확도를 달성합니다.

OmniQuant와 GPTQ로 모델을 양자화하는 과정은 많은 연산을 필요로 하지만, 그만한 가치가 있는 투자입니다. 이 고급 방식은 양자화된 모델의 perplexity(모델의 텍스트 생성 품질을 측정하는 지표)가 단순한 RTN 양자화로 가능한 수준보다 원본 fp16 모델에 훨씬 더 가깝게 유지되도록 합니다. 그래서 기기 내 텍스트 생성 품질을 높게 유지할 수 있으며, 이것이 Private LLM을 비슷한 앱과 구분해 주는 점입니다.

둘째, 거의 모든 다른 오프라인 LLM 앱과 달리 Private LLM은 llama.cpp나 MLX를 기반으로 하지 않습니다. 즉, 어텐션 싱크(attention sinks)나 슬라이딩 윈도우 어텐션(sliding window attention)과 같이 llama.cpp 및 MLX(그리고 이를 사용하는 앱)에서 사용할 수 없는 고급 기능을 Private LLM에서는 사용할 수 있습니다[1]. 이는 또한 저희 앱이 동일한 하드웨어에서 경쟁 제품보다 훨씬 빠르다는 것을 의미합니다(성능 비교 YouTube 영상).

마지막으로, 저희는 머신러닝 엔지니어로서 각 모델의 양자화와 파라미터를 세심하게 튜닝하여 텍스트 생성 품질을 극대화합니다. 예를 들어, Mixtral 모델의 임베딩과 게이트 레이어는 양자화하면 퍼플렉서티에 악영향을 미치기 때문에 양자화하지 않습니다(경쟁사들은 모든 것을 단순하게 양자화합니다). Gemma 모델도 마찬가지로 가중치가 연결된 임베딩을 양자화하면 퍼플렉서티가 저하되므로 양자화하지 않습니다(경쟁사들은 수행합니다). 또한 Microsoft Phi 4 모델의 경우, 최적의 텍스트 생성 품질을 유지하기 위해 몇 가지 중요한 레이어를 선택적으로 비양자화(동적 양자화)합니다.

Private LLM은 개인정보 보호와 오프라인 기능을 타협하지 않으면서 정확도와 연산 효율을 우선시해, iOS 및 macOS 사용자에게 자신의 하드웨어에서만 실행되는 비공개 온디바이스 AI를 제공합니다.

Question 5

Private LLM을 실행할 수 있는 기기는 무엇이며 권장 사양은 어떻게 되나요?

Accepted Answer

로컬 기기에서 거대 언어 모델(LLM)을 실행하는 것은 모델을 효율적으로 로드하고 실행하기 위해 상당한 RAM이 필요하므로 메모리 집약적인 과정입니다. 또한 Private LLM은 일반적으로 iPhone, iPad 또는 Mac에서 실행되는 유일한 앱이 아닙니다. 다른 앱, 특히 메모리를 많이 사용하는 앱은 시스템 리소스를 놓고 경쟁하여 Private LLM의 성능에 영향을 줄 수 있습니다.

iPhone의 경우, iPhone SE 2세대(3GB RAM)와 같은 구형 기기는 Llama 3.2 1B 및 Qwen 2.5 0.5B/1.5B와 같은 작은 모델을 실행할 수 있지만 하드웨어 제약으로 인해 경험이 제한될 수 있습니다. iPhone 12(4GB RAM)부터는 약간 더 큰 3B 모델에 액세스하여 성능이 향상됩니다. 최상의 경험을 위해 8GB RAM을 탑재한 iPhone 15 Pro 이상을 권장합니다. 이러한 기기는 Llama 3.1 8B 또는 Qwen 2.5 7B와 같은 더 큰 모델을 쉽게 실행할 수 있습니다. Private LLM은 기술적으로 iPhone 12 이전 기기에도 설치할 수 있지만, 구형 하드웨어가 경험을 크게 제한한다는 사용자 피드백에 따라 더 이상 해당 기기용 앱 구매를 권장하지 않습니다. 구형 기기 사용자도 앱을 구매할 수는 있지만 지원 및 최적의 성능은 보장되지 않습니다.

iPad에서도 상황은 비슷합니다. RAM이 4GB 이상인 기기는 중급 iPhone에서 실행되는 모델과 비슷한 수준의 모델을 실행할 수 있습니다. 최상의 결과를 원한다면 RAM 16GB를 갖춘 최상위 iPad Pro가 이상적이며, Qwen 2.5 14B 또는 Google Gemma 2 9B 같은 더 큰 모델도 지원합니다. 이런 여유 성능 덕분에 iPad Pro는 Private LLM을 실행하기에 좋은 선택입니다.

Mac에서는 Apple Silicon으로의 전환이 로컬 AI 성능의 새로운 기준을 세웠습니다. Private LLM은 Intel Mac에도 설치할 수 있지만, 훨씬 더 매끄러운 사용 경험을 위해 Apple Silicon 기반 Mac 사용을 강력히 권장합니다. RAM 8GB의 Apple Silicon Mac에서는 최신 iPhone에서 지원되는 모델과 비슷한 Llama 3.1 8B, Qwen 2.5 7B 같은 모델을 실행할 수 있습니다. 최상위 iPad Pro처럼 RAM 16GB를 갖춘 Mac은 Qwen 2.5 14B 또는 Google Gemma 2 9B 같은 더 큰 모델도 처리할 수 있습니다. RAM 32GB의 Mac은 Phi 4, Qwen 2.5 32B 같은 더 큰 모델을 실행할 수 있으며, 최고의 경험을 원한다면 RAM 48GB 이상의 Apple Silicon Mac에서 Llama 3.3 70B 같은 모델을 사용할 때 최적의 성능을 제공합니다.

Private LLM은 다양한 Apple 기기에 로컬 AI의 힘을 가져오도록 설계되었지만, 최상의 성능을 위해 메모리가 더 많은 기기를 강력히 권장합니다. 기기 호환성에 대해 여전히 확신이 없거나 추가 도움이 필요하면 Discord 커뮤니티에 가입하여 저희 및 도움을 줄 수 있는 다른 사용자와 연결하세요!

Question 6

Private LLM은 왜 무료가 아닌가요?

Accepted Answer

Private LLM은 VC 투자 없이 두 명의 개발자가 만든 부트스트랩 제품입니다. Ollama나 LM Studio와 같은 경쟁사는 VC의 지원을 받는 회사입니다. 그들 중 일부는 이용 약관에 상업적 또는 생산적 목적의 사용을 금지하는 까다로운 조항을 숨겨두기도 합니다. 저희는 사용자가 앱을 사용하는 방식에 어떠한 제한도 두지 않습니다. 저희의 부트스트랩 1회 결제 모델은 완벽하지 않으며 광고나 인플루언서 게시물, Twitter의 골드 체크마크를 구매할 수 없다는 단점이 있습니다. 하지만 그 이면에는 사용자를 공격적으로 감시하고 수익화하라는 VC의 압박이 없으며, 사용자와 저희 자신을 위해 제품을 만드는 데 100% 집중할 수 있다는 장점이 있습니다.

Private LLM은 품질과 독립성을 최우선으로 합니다. 우수한 성능을 달성하기 위해 OmniQuant 및 GPTQ와 같은 고급 기술을 사용하여 모든 모델을 세심하게 양자화합니다. 이 과정에는 무료가 아닌 GPU 대여를 포함한 상당한 리소스가 필요합니다. 모든 경쟁사는 리소스 측면에서 매우 저렴하지만 품질이 낮은 양자화 모델을 생성하는 RTN(반올림) 양자화를 사용합니다. 소규모 독립 기업으로서 저희는 SOTA 양자화 알고리즘으로 모델을 양자화하는 데 많은 시간과 리소스를 투자하며, 이는 품질 측면에서 가치 있는 타협이기 때문입니다. 그 결과 정확도와 속도 면에서 독보적인 AI 경험을 제공합니다.

개인정보 보호는 Private LLM의 또 다른 핵심 가치입니다. 저희는 기기에서 모든 것을 로컬로 처리하며 데이터 수집이나 추적은 전혀 없습니다. 특히 VC의 지원을 받고 확장 가능한 수익원을 찾아야 한다는 압박을 받을 때 이러한 주장을 하는 것은 쉽지 않습니다. 독립성을 유지함으로써 귀하의 데이터가 항상 비공개로 유지되도록 보장합니다.

무료 제품은 인플루언서들이 공격적으로 홍보할 때 매력적으로 보일 수 있지만, 실제로는 열등한 텍스트 생성 품질을 제공하는 경우가 많습니다. Private LLM은 일관성, 정확도 및 맥락 면에서 훨씬 앞선 텍스트 생성을 제공하는 다른 접근 방식을 취합니다. 1회 요금을 부과함으로써 Private LLM은 사용자 중심적이고 개인정보 보호를 우선시하며 경쟁사가 따라올 수 없는 고품질 텍스트 출력을 제공하는 AI 솔루션을 제공합니다.

Question 7

Private LLM은 어떤 언어를 지원하나요?

Accepted Answer

Private LLM은 다양한 언어 요구에 맞출 수 있도록 여러 모델을 제공합니다. 제공 모델에는 Llama 3, Qwen 2.5, Gemma 3 계열이 포함되며, 모두 여러 언어를 지원합니다. Llama 3는 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어에 능숙합니다. Qwen 2.5는 중국어, 영어, 프랑스어, 스페인어, 포르투갈어, 독일어, 이탈리아어, 러시아어, 일본어, 한국어, 베트남어, 태국어, 아랍어를 포함해 29개 이상의 언어를 지원합니다. Gemma 3는 전 세계 140개 이상의 언어를 지원합니다. 영어가 아닌 특정 언어에 맞춘 모델을 찾는 사용자를 위해 Private LLM은 독일어용 SauerkrautLM Gemma 2 2B IT, 히브리어용 DictaLM 2.0 Instruct, 일본어용 RakutenAI 7B Chat, 중국어용 Yi 6B Chat 또는 Yi 34B Chat 같은 옵션을 제공합니다. 이렇게 다양한 선택지를 통해 사용자는 자신의 언어 요구에 가장 잘 맞는 모델을 고를 수 있습니다.

Question 8

Private LLM은 왜 HuggingFace에서 모델을 직접 불러올 수 없나요?

Accepted Answer

Private LLM은 GPU에서 각 모델을 세심하게 양자화하는 데 수많은 시간이 소요되는 OmniQuant 및 GPTQ와 같은 고급 양자화 전략을 활용하여 우수한 텍스트 생성 품질과 성능을 보장합니다. 이 세심한 과정은 모델의 가중치 분포를 더 효과적으로 보존하여 더 빠른 추론, 향상된 모델 충실도 및 더 높은 품질의 텍스트 생성을 가능하게 합니다. 저희의 3비트 OmniQuant 모델은 다른 플랫폼에서 사용하는 4비트 RTN 양자화 모델보다 뛰어난 성능을 보이거나 동등합니다. Hugging Face에서 쉽게 구할 수 있는 GGUF 파일을 지원하는 앱과 달리, Private LLM은 모델을 자체적으로 양자화하여 속도, 정확도 및 품질에 최적화되도록 합니다. 이 엄격한 접근 방식은 Private LLM이 유료 앱인 이유 중 하나이며, 느리고 성능이 떨어지는 로컬 AI 채팅 앱보다 훨씬 더 나은 품질을 제공합니다.

Question 9

모델 추가 요청은 어떻게 하나요?

Accepted Answer

저희는 릴리스 노트에서 볼 수 있듯이 사용자 피드백을 바탕으로 Private LLM에 새로운 모델을 정기적으로 추가합니다. 특정 모델을 요청하려면 Discord 커뮤니티에 가입하여 #suggestions 채널에 제안을 공유해 주세요. 모든 요청을 검토하고 인기 있는 모델을 향후 업데이트에 우선적으로 반영합니다.

Question 10

Private LLM은 문서나 파일 읽기를 지원하나요?

Accepted Answer

Private LLM은 현재 문서나 파일 읽기 기능(RAG, 검색 증강 생성)을 지원하지 않습니다. 이 기능은 외부 문서를 사용하여 모델의 응답을 풍부하게 하지만, 그 효과는 모델이 단일 프롬프트에서 처리할 수 있는 최대 텍스트 양인 컨텍스트 길이에 크게 의존합니다. 컨텍스트 길이가 길수록 더 자세하고 정확한 응답이 가능하지만, 특히 로컬 기기에서는 계산 요구량이 많습니다. Ollama와 같은 경쟁사는 일반적으로 2k 토큰의 기본 컨텍스트 길이를 지원하고, LM Studio는 1500 토큰을 기본값으로 합니다. 이에 비해 Private LLM은 iPhone 및 iPad에서 8K 토큰, Mac에서 32K 토큰을 제공하여 이 분야에서 가장 뛰어난 로컬 AI 솔루션 중 하나입니다. 그러나 Private LLM을 포함한 모든 현재 로컬 AI 구현은 긴 텍스트 콘텐츠를 처리할 때 할루시네이션(환각) 문제에 직면합니다. 이 제한은 모델이 방대하거나 불완전한 입력에 압도될 때 부정확하거나 조작된 정보를 생성할 수 있기 때문에 발생합니다. Private LLM의 OmniQuant 양자화는 경쟁사에서 사용하는 RTN 양자화보다 할루시네이션을 크게 줄이지만 완전히 제거하지는 못합니다. 향후 문서 읽기 기능을 도입할 예정이지만, 현재 서버 기반 솔루션은 더 긴 컨텍스트 길이와 계산 요구 사항을 처리할 수 있어 RAG에 가장 안정적인 결과를 제공합니다.

Question 11

Private LLM이 인터넷이나 실시간 데이터에 액세스할 수 있나요?

Accepted Answer

전혀 아닙니다. Private LLM은 개인정보 보호를 위해 설계되어 있으며, 기능 실행이나 실시간 데이터 접근에 인터넷을 사용하지 않고 오프라인에서만 작동합니다. 인터넷 연결은 업데이트나 새 모델을 다운로드하기로 선택한 경우에만 필요하며, 이때 개인 데이터는 수집되거나 전송, 교환, 저장되지 않습니다. 저희의 개인정보 보호 철학은 Apple의 엄격한 개인정보 보호 및 보안 지침과 일치하며, 앱은 높은 수준의 데이터 보호 기준을 지킵니다. 다만 사용자가 Private LLM이 인터넷에 접근할 수 있는지 묻는 경우가 있고, 그 과정에서 모델이 접근할 수 있다고 암시하는 환각 응답을 할 수 있습니다. 하지만 이러한 응답은 사실로 받아들여서는 안 됩니다. 사용자가 Private LLM의 개인정보 보호 보장을 직접 확인하고 싶다면 Little Snitch 같은 네트워크 모니터링 도구를 사용하는 것을 권장합니다. 이를 통해 앱이 엄격한 개인정보 보호 제어를 유지한다는 점을 직접 확인할 수 있습니다. 실시간 정보 접근에 관심이 있는 사용자를 위해 Private LLM은 Apple Shortcuts와 함께 작동하며, RSS 피드, 웹 페이지, Calendar, Reminders, Notes 같은 앱 등에서 데이터를 가져올 수 있습니다. 이 기능은 오프라인 개인정보 보호 우선 원칙을 유지하면서도 최신 데이터를 Private LLM과의 상호작용에 포함할 수 있는 창의적인 우회 방법을 제공합니다. 질문이 있거나 추가 설명이 필요하시면 언제든지 문의해 주세요.

Question 12

모든 Apple 기기에서 Private LLM에 어떻게 액세스하나요?

Accepted Answer

1회 구매 후 모든 Apple 기기에서 Private LLM을 다운로드하여 사용할 수 있습니다. 이 앱은 가족 공유를 지원하여 가족 구성원과 공유할 수 있습니다.

Question 13

Private LLM을 요약에 어떻게 사용할 수 있나요?

Accepted Answer

Private LLM은 긴 텍스트 단락을 몇 초 만에 분석하고 요약할 수 있습니다. 콘텐츠를 붙여넣기만 하면 AI가 오프라인 상태에서 간결한 요약을 생성합니다. 또한 다음과 같은 프롬프트를 사용하여 Private LLM을 다시 쓰기나 의역에 활용할 수도 있습니다. 다음 내용을 요약해 줘: [내용 붙여넣기] 당신은 전문 카피라이터입니다. 다음 내용을 당신만의 언어로 다시 작성해 주세요: [내용 붙여넣기] 다음 텍스트를 더 독창적으로 들리도록 의역해 줘: [내용 붙여넣기]

Question 14

Private LLM이 브레인스토밍이나 문제 해결에 도움이 될 수 있나요?

Accepted Answer

물론입니다! Private LLM은 제안과 아이디어를 생성할 수 있어 브레인스토밍과 문제 해결에 유용합니다. Private LLM에 물어볼 수 있는 브레인스토밍 프롬프트 예시는 다음과 같습니다. 자유롭게 실험해 보고 자신만의 프롬프트도 시도해 보세요. 공상 과학 소설을 위한 몇 가지 잠재적인 테마를 제시해 줄 수 있나요? 비건 패스트푸드점을 열 계획입니다. 이 아이디어의 약점은 무엇인가요? PMF를 갖춘 제품 하나로 2년 된 소프트웨어 개발 스타트업을 운영 중이며, 매우 다른 시장에 새로운 소프트웨어 제품을 도입할 계획입니다. 여섯 가지 사고 모자(six hats method) 기법을 사용하여 이를 분석해 줘. 골든 서클 모델을 활용하여 경영 컨설팅 비즈니스를 위한 강력한 브랜드를 만들어 줘.

Question 15

샘플링 Temperature 및 Top-P 설정이란 무엇이며 어떤 역할을 하나요?

Accepted Answer

샘플링 Temperature와 Top-P는 모든 자기회귀 인과 디코더 전용 트랜스포머(일명 GPT) 모델의 공통 추론 파라미터이며 Private LLM에만 국한된 것은 아닙니다. 앱에는 합리적인 기본값(Temperature 0.7, Top-p 0.95)이 설정되어 있지만, 언제든지 조정하여 결과를 확인할 수 있습니다. 이러한 파라미터 변경은 앱을 재시작해야 적용된다는 점을 유의해 주세요.

이 파라미터들은 결정론적 텍스트 생성과 창의성 사이의 균형을 제어합니다. 낮은 값은 지루하지만 일관된 응답을 유도하고, 높은 값은 창의적이지만 때로는 일관성이 없는 응답을 유도합니다.

Question 16

Private LLM은 어떻게 작동하나요?

Accepted Answer

Private LLM은 오프라인에서 작동하며 자유롭게 대화할 수 있는 디코더 전용 트랜스포머(일명 GPT) 모델을 사용합니다. 또한 텍스트 단락 요약, 창의적인 아이디어 생성 및 다양한 주제에 대한 정보 제공을 도와줄 수 있습니다.

Question 17

Shortcuts 앱에서 Private LLM을 사용할 수 있나요?

Accepted Answer

네. Private LLM에는 Siri 및 Shortcuts 앱에서 사용할 수 있는 두 가지 앱 인텐트가 있습니다. Shortcuts 앱에서 Private LLM을 찾아보세요. 또한 Private LLM은  x-callback-url  사양을 지원하며, 이는  Shortcuts  및 기타 여러 앱에서도 지원됩니다. Private LLM의 x-callback-url 기능을 사용하는  예시 단축어 입니다.

Question 18

Mac용 Private LLM에서 모델 가중치를 외장 드라이브(DAS/NAS)에 저장할 수 있나요?

Accepted Answer

Private LLM은 완전히 샌드박스화된 macOS 앱이므로 모델은 앱 컨테이너 내의 ~/Library/Containers/ie.numen.personalgpt/Data/Library/Application Support/ie.numen.personalgpt/models에 저장됩니다. macOS Sequoia 이상에서는 시스템의 대용량 앱을 외장 디스크로 이동하는 기능을 활용할 수 있습니다. 앱을 이동하면 그 안에 저장된 모델도 함께 이동합니다. Mac의 내부 저장 공간이 부족할 경우 공간을 확보하기 위해 권장되는 방법입니다.

Question 19

Private LLM에서 모델 다운로드에 문제가 있는 이유는 무엇인가요?

Accepted Answer

Private LLM에서 모델을 다운로드하는 데 어려움이 있다면, 모델이 호스팅되는 Hugging Face와의 일시적인 연결 문제 때문일 가능성이 높습니다. Hugging Face 상태 페이지를 빠르게 확인하여 진행 중인 중단이 있는지 확인할 수 있습니다. 경우에 따라 기업, 학교 또는 국가 방화벽의 네트워크 제한으로 인해 Hugging Face에 대한 액세스가 제한되어 다운로드에 영향을 줄 수 있습니다. 이러한 네트워크를 사용 중이라면 홈 Wi-Fi나 모바일 핫스팟으로 전환하거나 VPN을 사용하여 이러한 제한을 우회하는 것을 권장합니다.

중국이나 홍콩에 있는 사용자의 경우, 기기 로캘이 해당 지역으로 설정되어 있으면 Private LLM이 다운로드 신뢰성을 높이기 위해 자동으로 hf-mirror.com으로 전환합니다. 이는 사용자가 별도의 설정 없이 더 원활하게 액세스할 수 있도록 돕습니다.

연결을 확인한 후에도 문제가 발생하면 앱이나 기기를 재시작해 보세요. 지속적인 문제는 Discord 커뮤니티에 참여하여 지원 채널에 세부 정보를 공유해 주세요. 언제든지 문제 해결을 도와드리겠습니다!

Question 20

macOS에서는 Private LLM으로 백그라운드에서 단축어를 실행할 수 있는데, 왜 iOS에서는 안 되나요?

Accepted Answer

백그라운드 처리와 관련해 iOS와 macOS의 기능 차이는 주로 Apple의 하드웨어 사용 정책에서 비롯됩니다. iOS에서는 Apple이 GPU 사용량이 많은 작업의 백그라운드 실행을 제한합니다. 이 제한은 배터리 사용 시간을 보존하고 시스템 성능을 유지하기 위해 적용됩니다. Apple 지침에 따르면, 백그라운드에서 Metal 커널을 실행하려는 앱은 승인되지 않은 리소스 사용을 막기 위해 즉시 종료됩니다. Private LLM의 경우 macOS에서는 GPU를 활용해 백그라운드에서 작업을 실행할 수 있지만, iOS 버전은 앱이 포그라운드에 있지 않을 때 CPU 처리로 제한됩니다. Private LLM의 AI 기반 작업을 CPU에서 실행하는 것은 기술적으로 가능하지만, GPU 처리와 비교해 10배 이상 훨씬 느립니다. 그 CPU 기반 속도는 저희가 제공하고 싶은 경험이 아닙니다. 향후 iOS 업데이트에서 Private LLM 같은 앱이 GPU 접근 가능성을 포함해 백그라운드 프로세스에서 시스템 리소스를 활용하는 방식에 더 많은 유연성을 제공하기를 기대하고 있습니다. 그때까지는 현재 제약 안에서 iOS 앱을 계속 최적화해, 기기의 상태나 앱의 효율을 해치지 않으면서 가능한 최고의 성능을 제공하겠습니다. 더 자세한 기술 정보는 Metal 앱을 백그라운드에서 실행하도록 준비하는 방법에 대한 Apple 공식 문서를 참고하세요: Apple Developer Documentation.

iOS 26은 새로운 백그라운드 GPU 액세스 권한(com.apple.developer.background-tasks.continued-processing.gpu)을 도입합니다. 하지만 이는 앱 내에서 직접적인 사용자 상호작용(탭, 스와이프 등)이 있어야만 활성화되므로, Shortcuts에서 로컬 LLM을 완전히 백그라운드에서 실행할 수는 없습니다.

Question 21

모델이 로딩 중에 충돌하거나 내장 모델로 돌아가는 이유는 무엇인가요?

Accepted Answer

Private LLM에서 모델을 로드하려고 할 때 "모델을 로드하는 동안 충돌이 발생하여 내장 모델로 돌아갑니다"라는 오류 메시지가 가끔 나타날 수 있습니다. 이는 일반적으로 기기에 선택한 모델을 로드할 충분한 메모리가 없을 때 발생합니다. 이러한 충돌은 기기의 RAM이 제한적이거나, 다른 앱이 백그라운드에서 상당한 메모리를 사용 중이거나, 여러 리소스 집약적인 프로세스가 동시에 실행 중일 때 발생할 수 있습니다. 이 문제를 해결하려면 먼저 메모리 소모가 큰 백그라운드 앱을 종료해 보세요. Private LLM을 재시작해도 문제가 지속되면 더 작은 모델로 전환하거나, 기기를 재시작하여 메모리를 확보하거나, 모델의 권장 RAM 요구 사항을 충족하는지 확인하세요. 이러한 해결책을 시도한 후에도 계속 충돌이 발생하면 기기 성능에 더 적합한 작은 모델을 사용해 보세요.

Question 22

Private LLM이 가끔 텍스트 생성을 갑자기 멈추는 이유는 무엇인가요?

Accepted Answer

기기의 메모리가 부족하거나 Private LLM에 주어진 작업이 특히 복잡할 경우 발생할 수 있습니다. 이럴 때는 백그라운드에서 실행 중인 메모리 소모가 큰 앱을 종료하고, 요청을 LLM이 처리하기 더 쉬운 작은 작업으로 나누어 보세요. 후자의 경우, 단순히 "Continue", "Go on" 또는 "Tell me"라고 응답하는 것도 효과적입니다.

Question 23

Android에서 Private LLM을 사용할 수 있나요?

Accepted Answer

네, Private LLM이 이제 Android용 얼리 베타 버전으로 출시되었습니다! Apple 기기를 위한 최고의 AI 경험을 제공하는 것이 여전히 저희의 주요 목표이지만, 개인정보 보호와 오프라인 AI를 중요하게 생각하는 더 많은 사용자에게 서비스를 제공하기 위해 Android로 확장하고 있습니다. Android 버전은 현재 직접 APK 다운로드(아직 Google Play Store에는 없음)로 제공되며 iOS/macOS 버전의 핵심 기능 중 다수를 포함합니다. 초기 베타 릴리스이므로 더 성숙한 Apple 플랫폼 버전과 비교하여 몇 가지 제한 사항이나 안정성 문제가 발생할 수 있습니다. Discord 커뮤니티에 가입하여 피드백을 공유하고 문제를 보고하며 Android 경험을 개선하는 데 도움을 주시기를 적극 권장합니다. 이 단계에서의 여러분의 의견은 Google Play Store 정식 출시를 위해 노력하는 데 매우 소중합니다. 저희 웹사이트에서 APK를 다운로드할 수 있습니다.

Question 24

Private LLM 환불은 어떻게 요청하나요?

Accepted Answer

환불을 고려하고 계시다니 안타깝습니다. Apple App Store를 통해 환불을 요청하실 수 있습니다. Apple 계정의 구매 내역으로 이동하여 Private LLM을 찾은 다음 '문제 신고'를 클릭하여 환불 절차를 시작하세요. 또한 저희가 어떻게 개선할 수 있을지에 대한 의견도 듣고 싶습니다. 피드백을 저희에게 보내주세요.

Question 25

더 궁금한 점은 어디서 물어볼 수 있나요?

Accepted Answer

여러분의 의견을 기다립니다! 저희 Discord 커뮤니티에 참여하여 생각을 공유하고 다른 사용자로부터 지원을 받으세요. 비공개 대화를 원하시나요? 웹사이트의 문의 양식을 사용하여 이메일을 직접 보내주세요.

Private LLM FAQ: iPhone, iPad 및 Mac에서 쓰는 로컬 AI

시작하기

기기 및 모델

개인정보 보호 및 오프라인

Private LLM 사용하기

구매 및 환불

문제 해결

더 궁금한 점은 어디서 물어볼 수 있나요?