Question 1

Что такое Private LLM?

Accepted Answer

Private LLM — это ваш личный ИИ-чат-бот, созданный для конфиденциальности, удобства и творчества. Он работает полностью офлайн на iPhone, iPad и Mac, обеспечивая безопасность и конфиденциальность ваших данных. Private LLM — это разовая покупка в App Store, дающая неограниченный доступ без абонентской платы. Примечание: мы ненавидим подписки и не будем заставлять наших пользователей терпеть то, что ненавидим сами.

Question 2

Чем Private LLM отличается от других локальных ИИ-решений, таких как Ollama, LM Studio и других на базе llama.cpp и MLX?

Accepted Answer

Во-первых, Private LLM выделяется среди других локальных ИИ-решений передовыми методами квантования моделей, такими как OmniQuant и GPTQ. В отличие от наивного квантования Round-To-Nearest (RTN), используемого в конкурирующих приложениях на базе MLX и llama.cpp, OmniQuant и GPTQ — это методы, основанные на оптимизации. Они позволяют более точно контролировать диапазон квантования, эффективно сохраняя целостность исходного распределения весов. В результате Private LLM достигает превосходной производительности и точности, почти соответствуя уровню неквантованной 16-битной модели (fp16), но со значительно меньшими вычислительными требованиями при инференсе.

Хотя процесс квантования моделей с помощью OmniQuant и GPTQ вычислительно затратен, это стоящая инвестиция. Такой продвинутый подход гарантирует, что перплексия (мера качества генерации текста) квантованной модели остается намного ближе к исходной fp16-модели, чем это возможно при наивном RTN-квантовании. Это обеспечивает пользователям Private LLM бесшовный, эффективный и качественный ИИ-опыт, выделяя нас на фоне других подобных приложений.

Во-вторых, в отличие от почти всех других конкурирующих офлайн-приложений, Private LLM не основан на llama.cpp или MLX. Это означает, что продвинутые функции, недоступные в llama.cpp и MLX (и, как следствие, в приложениях на их основе), такие как attention sinks и sliding window attention, доступны в Private LLM, но отсутствуют[1] в других местах. Это также означает, что наше приложение значительно быстрее конкурентов на том же оборудовании (видео на YouTube со сравнением производительности).

Наконец, мы — инженеры по машинному обучению и тщательно настраиваем квантование и параметры каждой модели, чтобы максимизировать качество генерации текста. Например, мы не квантуем эмбеддинги и gate-слои в моделях Mixtral, потому что их квантование плохо влияет на перплексию (не говоря уже о том, что конкуренты квантуют всё подряд). Аналогично с моделями Gemma: квантование weight-tied эмбеддингов вредит перплексии, поэтому мы этого не делаем (в то время как конкуренты делают). Также в модели Microsoft Phi-4 мы выборочно оставляем несколько критических слоев неквантованными (динамическое квантование) для поддержания оптимального качества генерации.

Приоритизируя точность и вычислительную эффективность без ущерба для конфиденциальности и офлайн-функций, Private LLM предоставляет уникальное решение для пользователей iOS и macOS, ищущих мощный, приватный и персонализированный ИИ-опыт.

Question 3

Какие устройства могут запускать Private LLM и каковы рекомендуемые спецификации?

Accepted Answer

Запуск больших языковых моделей (LLM) на устройстве — процесс, интенсивный по памяти, так как требует значительного объема ОЗУ для эффективной загрузки и выполнения моделей. Более того, Private LLM обычно не единственное приложение, работающее на вашем iPhone, iPad или Mac. Другие приложения, особенно ресурсоемкие, могут конкурировать за системные ресурсы, влияя на производительность Private LLM.

На iPhone старые устройства, такие как iPhone SE 2-го поколения (3 ГБ ОЗУ), могут запускать небольшие модели, такие как Llama 3.2 1B и Qwen 2.5 0.5B/1.5B, но опыт может быть ограничен из-за аппаратных ограничений. Начиная с iPhone 12 (4 ГБ ОЗУ), производительность улучшается с доступом к чуть более крупным моделям 3B. Для наилучшего опыта мы рекомендуем использовать iPhone 15 Pro или новее, оснащенный 8 ГБ ОЗУ. Эти устройства способны легко запускать более крупные модели, такие как Llama 3.1 8B или Qwen 2.5 7B. Хотя Private LLM технически можно установить на устройства старше iPhone 12, мы больше не рекомендуем покупать приложение для таких устройств, так как отзывы пользователей показали, что устаревшее оборудование значительно ограничивает опыт. Пользователи со старыми устройствами все еще могут купить приложение, но поддержка и оптимальная производительность не гарантируются.

На iPad ситуация аналогична. Устройства с минимум 4 ГБ ОЗУ могут запускать модели, сопоставимые с теми, что работают на iPhone среднего уровня. Для наилучших результатов идеально подходит топовый iPad Pro с 16 ГБ ОЗУ, так как он поддерживает еще более крупные модели, такие как Qwen 2.5 14B или Google Gemma 2 9B. Эта непревзойденная способность делает iPad Pro мощным выбором для запуска Private LLM.

На Mac переход на Apple Silicon установил новые стандарты производительности локального ИИ. Хотя Private LLM можно установить на Intel Mac, мы настоятельно рекомендуем использовать Mac на базе Apple Silicon для значительно более плавной работы. На Mac с Apple Silicon и 8 ГБ ОЗУ можно запускать модели, сопоставимые с теми, что поддерживаются на новейших iPhone, такие как Llama 3.1 8B и Qwen 2.5 7B. Mac с 16 ГБ ОЗУ, как и топовый iPad Pro, могут справляться с еще более крупными моделями, такими как Qwen 2.5 14B или Google Gemma 2 9B. С 32 ГБ ОЗУ Mac могут запускать более крупные модели, такие как Phi-4, Qwen 2.5 32B, а для ультимативного опыта Mac на Apple Silicon с минимум 48 ГБ ОЗУ обеспечивают оптимальную производительность с моделями вроде Llama 3.3 70B.

Private LLM создан, чтобы принести мощь локального ИИ на широкий спектр устройств Apple, но для лучшей производительности мы настоятельно рекомендуем устройства с большим объемом памяти. Если вы все еще не уверены в совместимости вашего устройства или нужна помощь, присоединяйтесь к нашему Discord-сообществу, чтобы связаться с нами и другими пользователями, которые могут помочь!

Question 4

Почему Private LLM не бесплатный?

Accepted Answer

Private LLM — это продукт, созданный двумя разработчиками на собственные средства, без венчурного финансирования. Наши конкуренты, такие как Ollama и LM Studio, — это компании, поддерживаемые венчурными капиталистами. У некоторых из них есть обременительные пункты, скрытые в условиях использования, которые запрещают использование в коммерческих или производственных целях. Мы не накладываем никаких ограничений на то, как наши пользователи используют наше приложение. Наша модель разовой оплаты не идеальна и имеет свои минусы, например, невозможность покупать рекламу, посты у инфлюенсеров и золотые галочки в Twitter. Но обратная сторона в том, что у нас нет давления со стороны венчурных капиталистов, требующих агрессивно следить за пользователями и монетизировать их; и мы можем на 100% сосредоточиться на создании продукта для наших пользователей и нас самих.

В Private LLM мы ставим во главу угла качество и независимость. Для достижения превосходной производительности мы тщательно квантуем каждую модель, используя передовые методы, такие как OmniQuant и GPTQ. Этот процесс требует значительных ресурсов, включая аренду GPU, которые стоят денег. Все наши конкуренты используют RTN (round to nearest) квантование, которое очень дешево с точки зрения ресурсов, но приводит к низкому качеству квантованных моделей. Как малый независимый бизнес, мы тратим много времени и ресурсов на квантование моделей с помощью SOTA-алгоритмов, потому что это стоящий компромисс в плане качества. Результат — непревзойденный ИИ-опыт, который выделяется точностью и скоростью.

Конфиденциальность — еще одна ключевая ценность Private LLM. Мы обрабатываем всё локально на вашем устройстве, без сбора данных или отслеживания. Сделать такое заявление непросто, особенно когда вы поддерживаетесь венчурными капиталистами и находитесь под давлением необходимости поиска масштабируемых источников дохода. Оставаясь независимыми, мы гарантируем, что ваши данные всегда остаются приватными.

Бесплатные продукты могут казаться заманчивыми, особенно когда инфлюенсеры агрессивно их рекламируют, но на самом деле они часто обеспечивают низкое качество генерации текста. Private LLM использует другой подход, предлагая генерацию текста, которая на голову выше в плане связности, точности и контекста. Взимая разовую плату, Private LLM предоставляет ИИ-решение, ориентированное на пользователя, ставящее конфиденциальность на первое место и обеспечивающее высокое качество текста, к которому наши конкуренты даже близко не могут подойти.

Question 5

Какие языки поддерживает Private LLM?

Accepted Answer

Private LLM предлагает ряд моделей для удовлетворения различных языковых потребностей. Наш выбор включает семейства Llama 3, Qwen 2.5 и Gemma 3, все из которых поддерживают несколько языков. Llama 3 владеет английским, немецким, французским, итальянским, португальским, хинди, испанским и тайским; Qwen 2.5 расширяет поддержку до более чем 29 языков, включая китайский, английский, французский, испанский, португальский, немецкий, итальянский, русский, японский, корейский, вьетнамский, тайский и арабский; а Gemma 3 поддерживает более 140 языков по всему миру. Для пользователей, ищущих модели для конкретных неанглийских языков, Private LLM предоставляет варианты, такие как SauerkrautLM Gemma-2 2B IT для немецкого, DictaLM 2.0 Instruct для иврита, RakutenAI 7B Chat для японского, и Yi 6B Chat или Yi 34B Chat для китайского. Этот разнообразный выбор гарантирует, что пользователи могут выбрать модель, которая лучше всего соответствует их языковым требованиям.

Question 6

Почему Private LLM не может загружать модели напрямую с HuggingFace?

Accepted Answer

Private LLM обеспечивает превосходное качество генерации текста и производительность за счет использования продвинутых стратегий квантования, таких как OmniQuant и GPTQ, которые требуют многих часов для тщательного квантования каждой модели на GPU. Этот кропотливый процесс более эффективно сохраняет распределение весов модели, что приводит к более быстрому инференсу, улучшенной точности модели и более качественной генерации текста. Наши 3-битные модели OmniQuant превосходят или соответствуют производительности 4-битных моделей RTN, используемых другими платформами. В отличие от приложений, поддерживающих готовые файлы GGUF с Hugging Face, Private LLM квантует модели внутри компании, гарантируя их оптимизацию по скорости, точности и качеству. Этот строгий подход — одна из причин, почему Private LLM является платным приложением, предлагающим гораздо лучшее качество по сравнению с более медленными и менее способными локальными ИИ-чат-приложениями.

Question 7

Как запросить добавление модели?

Accepted Answer

Мы регулярно добавляем новые модели в Private LLM на основе отзывов пользователей, как показано в наших истории версий. Чтобы запросить конкретную модель, присоединитесь к нашему Discord-сообществу и поделитесь предложением в канале #suggestions. Мы рассматриваем все запросы и приоритизируем популярные для будущих обновлений.

Question 8

Поддерживает ли Private LLM чтение документов или файлов?

Accepted Answer

В настоящее время Private LLM не поддерживает чтение документов или файлов, функция, часто называемая Retrieval-Augmented Generation (RAG). Эта функциональность предполагает использование внешних документов для обогащения ответов модели, но ее эффективность сильно зависит от длины контекста — максимального объема текста, который модель может обработать за один промпт. Большая длина контекста позволяет получать более детальные и точные ответы, но она вычислительно требовательна, особенно на локальных устройствах. Конкуренты, такие как Ollama, обычно поддерживают длину контекста по умолчанию в 2k токенов, а LM Studio — 1500 токенов. Для сравнения, Private LLM предоставляет 8K токенов на iPhone и iPad и впечатляющие 32K токенов на Mac, что делает его одним из самых способных локальных ИИ-решений в этом отношении. Однако все текущие локальные ИИ-реализации, включая Private LLM, сталкиваются с галлюцинациями при обработке длинного текстового контента. Это ограничение возникает из-за того, что модели могут генерировать неверную или вымышленную информацию, когда перегружены обширным или неполным вводом. Квантование OmniQuant в Private LLM значительно снижает количество галлюцинаций по сравнению с RTN-квантованием, используемым конкурентами, но не устраняет их полностью. Хотя мы планируем внедрить возможности чтения документов в будущем, серверные решения в настоящее время предлагают наиболее надежные результаты для RAG, так как они лучше приспособлены для обработки больших длин контекста и вычислительных нагрузок.

Question 9

Может ли Private LLM получить доступ к интернету или данным в реальном времени?

Accepted Answer

Категорически нет. Private LLM нацелен на обеспечение вашей конфиденциальности, работая исключительно офлайн без доступа к интернету для своих функций или получения данных в реальном времени. Интернет-соединение требуется только при загрузке обновлений или новых моделей, во время чего никакие личные данные не собираются, не передаются и не обмениваются. Наша философия конфиденциальности соответствует строгим рекомендациям Apple, и наше приложение поддерживает высочайшие стандарты защиты данных. Стоит отметить, что иногда пользователи спрашивают, может ли Private LLM выйти в интернет, что может привести к галлюцинациям модели, предполагающим, что она может. Однако эти ответы не следует воспринимать как факты. Если пользователи хотят независимо проверить гарантии конфиденциальности Private LLM, мы рекомендуем использовать инструменты сетевого мониторинга, такие как Little Snitch. Так вы сами увидите, что наше приложение поддерживает строгий контроль конфиденциальности. Для тех, кто хочет получать информацию в реальном времени, Private LLM бесшовно интегрируется с Apple Shortcuts, позволяя извлекать данные из RSS-лент, веб-страниц и даже приложений вроде Календаря, Напоминаний, Заметок и других. Эта функция предлагает творческий способ включения актуальных данных в ваши взаимодействия с Private LLM, сохраняя при этом офлайн-приоритет конфиденциальности. Если у вас есть вопросы или нужны уточнения, пожалуйста, свяжитесь с нами.

Question 10

Как получить доступ к Private LLM на всех моих устройствах Apple?

Accepted Answer

После разовой покупки вы можете скачать и использовать Private LLM на всех своих устройствах Apple. Приложение поддерживает Family Sharing, позволяя делиться им с членами семьи.

Question 11

Как использовать Private LLM для суммаризации?

Accepted Answer

Private LLM может анализировать и суммировать длинные тексты за секунды. Просто вставьте контент, и ИИ создаст краткое резюме, полностью офлайн. Вы также можете использовать Private LLM для перефразирования с помощью промптов вроде:Дай краткое содержание (TLDR) этого: [вставьте контент здесь]Ты эксперт-копирайтер. Пожалуйста, перефразируй следующее своими словами: [вставьте контент]Перефразируй следующий текст так, чтобы он звучал более оригинально: [вставьте контент]

Question 12

Может ли Private LLM помочь с мозговым штурмом или решением задач?

Accepted Answer

Безусловно! Private LLM может генерировать глубокие предложения и идеи, что делает его мощным инструментом для мозгового штурма и решения задач. Вот несколько примеров промптов, которые можно попробовать. Не стесняйтесь экспериментировать и пробовать свои собственные промпты.Можешь предложить несколько тем для научно-фантастического романа?Я планирую открыть веганский фастфуд-ресторан. Какие слабые стороны у этой идеи?Я управляю двухлетним софтверным стартапом с одним продуктом, который нашел PMF, и планирую запуск нового продукта на другом рынке. Используй метод шести шляп для анализа этого.Используй модель Золотого круга (Golden Circle) для создания мощного бренда для консалтингового бизнеса.

Question 13

Что такое настройки Sampling Temperature и Top-P и что они делают?

Accepted Answer

Sampling temperature и Top-P — это универсальные параметры инференса для всех авторегрессионных моделей типа decoder-only transformer (GPT), они не специфичны для Private LLM. В приложении установлены разумные значения по умолчанию (0.7 для температуры и 0.95 для Top-P), но вы всегда можете настроить их и посмотреть, что получится. Пожалуйста, имейте в виду, что изменения вступают в силу только после перезапуска приложения.

Эти параметры контролируют баланс между детерминированной генерацией текста и креативностью. Низкие значения ведут к скучным, но связным ответам, высокие — к креативным, но иногда несвязным.

Question 14

Как работает Private LLM?

Accepted Answer

Private LLM работает офлайн и использует модель типа decoder-only transformer (также известную как GPT), с которой можно свободно общаться. Он также может помочь с суммаризацией текста, генерацией творческих идей и предоставить информацию по широкому кругу тем.

Question 15

Могу ли я использовать Private LLM с приложением Shortcuts?

Accepted Answer

Да. У Private LLM есть два интента, которые можно использовать с Siri и Shortcuts. Пожалуйста, найдите Private LLM в приложении Shortcuts. Кроме того, Private LLM поддерживает спецификацию x-callback-url, которая также поддерживается Shortcuts и многими другими приложениями. Вот пример шортката, использующего функциональность x-callback-url в Private LLM.

Question 16

Как хранить веса моделей на внешнем диске (DAS/NAS) в Private LLM для Mac?

Accepted Answer

Private LLM — это полностью изолированное (sandboxed) приложение для macOS, что означает, что модели хранятся внутри контейнера приложения по адресу: ~/Library/Containers/ie.numen.personalgpt/Data/Library/Application Support/ie.numen.personalgpt/models. В macOS Sequoia и новее вы можете воспользоваться системной возможностью перемещения больших приложений на внешний диск. Перемещение приложения также переместит модели, хранящиеся внутри него. Это рекомендуемый метод для освобождения места, если внутренняя память вашего Mac заканчивается.

Question 17

Почему у меня проблемы со скачиванием моделей в Private LLM?

Accepted Answer

Если вы испытываете трудности со скачиванием моделей в Private LLM, это часто связано с временными проблемами соединения с Hugging Face, где размещены наши модели. Вы можете быстро проверить страницу статуса Hugging Face, чтобы увидеть, есть ли текущие сбои. В некоторых случаях сетевые ограничения корпоративных, школьных или национальных файерволов могут ограничивать доступ к Hugging Face, что может повлиять на скачивание. Если вы находитесь в такой сети, мы рекомендуем переключиться на домашний Wi-Fi, мобильную точку доступа или использовать VPN для обхода этих ограничений.

Для пользователей в Китае или Гонконге Private LLM автоматически переключается на hf-mirror.com для улучшения надежности скачивания, когда локаль устройства установлена на эти регионы. Это помогает обеспечить более плавный доступ без дополнительных настроек с вашей стороны.

Если вы все еще сталкиваетесь с проблемами после проверки соединения, попробуйте перезапустить приложение или устройство. При сохранении проблем заходите в наше Discord-сообщество и поделитесь деталями в канале поддержки — мы всегда рядом, чтобы помочь с устранением неполадок!

Question 18

Почему я не могу запускать шорткаты в фоне на iOS, как на macOS с Private LLM?

Accepted Answer

Разница в функциональности между iOS и macOS в отношении фоновой обработки обусловлена прежде всего политикой Apple в отношении использования оборудования. На iOS Apple ограничивает фоновое выполнение задач, требующих интенсивного использования GPU. Это ограничение введено для сохранения заряда батареи и поддержания производительности системы. Согласно рекомендациям Apple, приложения, пытающиеся запустить ядро Metal в фоне, будут немедленно завершены для предотвращения несанкционированного использования ресурсов. В Private LLM, хотя мы можем выполнять операции в фоне на macOS, используя GPU, версии для iOS ограничены использованием CPU, когда приложение не активно. Запуск ИИ-задач Private LLM на CPU технически возможен, но это будет значительно медленнее — более чем в 10 раз по сравнению с GPU. Такая медленная работа не обеспечила бы бесшовный и эффективный опыт, к которому мы стремимся. Мы надеемся, что будущие обновления iOS предложат больше гибкости в том, как фоновые процессы могут использовать системные ресурсы, включая потенциальный доступ к GPU для приложений вроде Private LLM. До тех пор мы продолжаем оптимизировать наше приложение для iOS в рамках текущих ограничений, чтобы обеспечить наилучшую производительность без ущерба для состояния вашего устройства или эффективности приложений. Для получения более подробной технической информации вы можете обратиться к официальной документации Apple по подготовке вашего Metal-приложения к работе в фоне: Apple Developer Documentation.

iOS 26 вводит новый entitlement для фонового доступа к GPU (com.apple.developer.background-tasks.continued-processing.gpu). Однако он активируется только после прямого взаимодействия с пользователем (нажатие, свайп и т.д.) внутри приложения, поэтому он не позволит запускать локальные LLM из Shortcuts полностью в фоне.

Question 19

Почему модели вылетают или переключаются на встроенные модели во время загрузки?

Accepted Answer

При попытке загрузить модели в Private LLM вы можете иногда видеть сообщение об ошибке: "Falling back on built-in model due to a crash while loading the model." Обычно это происходит, когда на устройстве недостаточно свободной памяти для загрузки выбранной модели. Такие вылеты могут случаться, потому что на устройстве мало доступной ОЗУ, другие приложения используют много памяти в фоне или одновременно запущено несколько ресурсоемких процессов. Чтобы решить эту проблему, сначала попробуйте закрыть ресурсоемкие фоновые приложения. Если проблема сохраняется после перезапуска Private LLM, вы можете переключиться на меньшую модель, перезагрузить устройство для очистки памяти или проверить, соответствует ли устройство рекомендуемым требованиям к ОЗУ для модели. Если вы продолжаете сталкиваться с вылетами после попытки этих решений, рассмотрите использование меньшей модели, которая лучше соответствует возможностям вашего устройства.

Question 20

Почему Private LLM иногда внезапно перестает генерировать текст?

Accepted Answer

Это может быть связано с нехваткой памяти на устройстве или если задача для Private LLM особенно сложная. В таких случаях попробуйте закрыть ресурсоемкие приложения, работающие в фоне, и разбить запрос на более мелкие, управляемые задачи. В последнем случае также помогает просто ответить “Continue”, “Go on” или “Tell me”.

Question 21

Могу ли я использовать Private LLM на Android?

Accepted Answer

Да, Private LLM теперь доступен для Android в виде ранней бета-версии! Хотя наш основной фокус остается на предоставлении лучшего ИИ-опыта для устройств Apple, мы расширяемся на Android, чтобы служить большему количеству пользователей, которые ценят конфиденциальность и офлайн-ИИ. Версия для Android в настоящее время доступна как прямая загрузка APK (еще не в Google Play Store) и включает многие ключевые функции из наших версий для iOS/macOS. Поскольку это ранняя бета-версия, вы можете столкнуться с некоторыми ограничениями или проблемами стабильности по сравнению с нашими более зрелыми версиями для платформ Apple. Мы настоятельно рекомендуем вам присоединиться к нашему Discord-сообществу, чтобы поделиться своим отзывом, сообщить о любых проблемах и помочь нам улучшить опыт на Android. Ваш вклад на этом этапе невероятно ценен, пока мы работаем над полноценным релизом в Google Play Store. Вы можете скачать APK с нашего сайта.

Question 22

Как запросить возврат средств за Private LLM?

Accepted Answer

Нам жаль слышать, что вы рассматриваете возврат средств. Вы можете запросить его через Apple App Store. Просто перейдите в историю покупок вашего аккаунта Apple, найдите Private LLM и нажмите “Сообщить о проблеме”, чтобы начать процесс возврата. Мы также были бы рады узнать, как мы можем стать лучше. Пожалуйста, свяжитесь с нами с вашим отзывом.

Question 23

Где я могу задать больше вопросов?

Accepted Answer

Мы будем рады услышать вас! Присоединяйтесь к нашему Discord-сообществу, чтобы поделиться своими мыслями и получить поддержку от других пользователей. Предпочитаете приватный разговор? Используйте контактную форму на нашем сайте, чтобы отправить нам email напрямую.

Часто задаваемые вопросы