Рабочая станция с четырьмя видеокартами Intel Arc Pro B70 32GB позволяет компании локально запускать корпоративный чатбот, RAG-поиск по документам, подготовку ответов клиентам, классификацию обращений и пакетный анализ текстов. Эта конфигурация рассчитана на параллельную работу нескольких специалистов и запуск больших моделей, которым недостаточно одной видеокарты на 32 ГБ. Такая рабочая станция позволяет самостоятельно управлять доступом к моделям, не передавать корпоративные документы внешним AI-сервисам и прогнозировать затраты при постоянном потоке запросов.
Купить сервер с Intel Arc Pro B70
Для тестирования конфигурации была собрана рабочая станция с 4xIntel Arc Pro B70, процессором Intel Xeon 658X на 24 ядра и 48 потоков и 128 ГБ DDR5. Языковые модели запускались в FP16 через Intel LLM Scaler для vLLM. Производительность измерялась с одним, четырьмя и восемью одновременными пользователями.
Мы разобрались, какие LLM запускаются на одной и четырех Intel Arc Pro B70, как меняется скорость под параллельной нагрузкой, которую нужно учесть в программном стеке и при каких условиях локальный AI оправдывает инвестиции.
Что дают четыре Intel Arc Pro B70
Четыре Intel Arc Pro B70 32GB GDDR6 дают 128 ГБ суммарной видеопамяти. Этого достаточно для запуска моделей 27B–35B в FP16 и обслуживания нескольких параллельных сессий.
В режиме тензорного параллелизма (tensor parallelism) весы языковой модели распределяются между всеми видеокартами. Благодаря этому рабочая станция загружает Qwen 27B или Qwen 35B-A3B, которые занимают приблизительно 54-70 ГБ и не помещаются на одну B70.
Для бизнеса эта конфигурация дает:
- Работа с большими моделями корпоративного AI. Компания может использовать LLM класса 27B–35B для анализа технической документации, подготовки кода или обработки договоров.
- Параллельный доступ для нескольких сотрудников. Практика показывает, что multi-GPU Intel Arc Pro B70 конфигурация может обслуживать до восьми рабочих мест одновременно.
- Запуск FP16-моделей без обязательного сжатия до 4 битов. Это упрощает развертывание проверенных весов и исключает изменение качества из-за агрессивной квантизации.
- Используйте ECC-память для защиты от единичных ошибок. Такая функция полезна для продолжительного инференса, обработки больших массивов документов и ежедневной эксплуатации AI-сервиса.
Но важно помнить, что суммарные 128 ГБ не превращаются в один физический буфер для какой-либо программы. Распределение памяти работает в средах, поддерживающих тензорный параллелизм или другой способ поддержания производительности нескольких GPU.
О характеристиках и результатах тестирования видеокарты вы можете прочитать в нашем обзоре Intel Arc Pro B70 32 GB.
Which LLMs основан на 32 and 128 GB of VRAM
Как только Intel Arc Pro B70 для AI runs FP16 модели в классе 3B-8B, и четырех карт расширения 27B-35B. For more details, viz the table:
| Модель | Архитектура | Объем весов у FP16 | 1× B70, 32 ГБ | 4× B70, 128 ГБ |
| Qwen 2.5 3B Instruct | Dense, 3B | ≈6 ГБ | Помещается | Помещается |
| Qwen 3 8B | Dense, 8,2B | ≈16 ГБ | Помещается | Помещается |
| Llama 3.1 8B Instruct | Dense, 8B | ≈16 ГБ | Помещается | Помещается |
| DeepSeek R1 Distill 8B | Dense, 8B | ≈16 ГБ | Помещается | Помещается |
| Qwen 3.6 27B | Dense, 27B | ≈54 ГБ | Требуется несколько GPU | Помещается |
| Qwen 3.6 35B-A3B | MoE, 35B / 3B активных | ≈70 ГБ | Требуется несколько GPU | Помещается |
| Gemma 2 9B | Dense, 9B | ≈18 ГБ | Помещается, но требуется поддержка BF1616** | Помещается, но требуется поддержка BF16 |
| Gemma 4 31B | Dense, 31B | ≈62 ГБ | Требуется несколько GPU | Помещается, но требуется поддержка BF16 |
| Llama 4 Scout | MoE, 109B | ≈218 ГБ | Требуется другая конфигурация* | Требуется другая конфигурация |
| DeepSeek V4 Flash | MoE, 284B | ≈568 ГБ | Требуется другая конфигурация | Требуется другая конфигурация |
* Большие языковые модели объемом более 128 ГБ нуждаются в квантизации или большей GPU-системе. К примеру, Llama 4 Scout занимает около 218 ГБ у FP16, поэтому четырех B70 для полноразмерных весов недостаточно.
** Gemma зависит от поддержки BF16 в программной среде. Arc Pro B70 выполняет такие вычисления аппаратно, но для их практической реализации требуется соответствующий программный стек.
Как масштабируется скорость на 1 и 4 GPU
Четыре Intel Arc Pro B70 почти вдвое ускоряют Llama 3.1 8B и DeepSeek R1 Distill 8B для одного пользователя, а при восьми параллельных сессиях повышают суммарную производительность до 472-905 токенов в секунду. Далее – результаты тестирования видеокарт для искусственного интеллекта:
| Модель | 1× B70, 1 пользователь | 4× B70, 1 пользователь | 4× B70, 8 пользователей | Средняя задержка при 8 пользователях |
| Qwen 2.5 3B | 72,9 токена/с | 62,6 токена/с | 410 токенов/с | 6,4 с |
| Llama 3.1 8B | 35,4 токена/с | 70,3 токенов/с | 472 токена/с | 5,6 с |
| DeepSeek R1 Distill 8B | 66,9 токена/с | 136 токена/с | 905 токенов/с | 7,5 с |
| Qwen 3.6 27B | Не помещается | 13,1 токена/с | 95,9 токена/с | 41,1 с |
| Qwen 3.6 35B-A3B | Не помещается | 16,3 токена/с | 122 токена/с | 32,8 с |
Ключевые выводы:
- Llama 3.1 8B ускорилась с 35,4 до 70,3 токена в секунду. Средняя продолжительность тестового ответа снизилась с 9,9 до 4,2 секунды. При восьми пользователях она выросла всего до 5,6 секунды, поэтому модель подходит для внутреннего чата с несколькими одновременными диалогами.
- DeepSeek R1 Distill 8B достигла 136 токенов в секунду на четырех картах. В режиме восьми параллельных сессий суммарный показатель поднялся до 905 токенов в секунду, а средняя задержка составила 7,5 секунды. Такая скорость подходит для пакетной генерации, анализа обращений и командного AI ассистента.
- Qwen 3.6 27B обрабатывала восемь сессий со скоростью 95,9 токена в секунду. Средняя продолжительность ответа выросла с 38,2 секунды при одном пользователе до 41,1 секунды при восьми. Система почти не увеличила время выполнения отдельного запроса, хотя одновременно обслуживала в восемь раз больше сессий.
- Qwen 3.6 35B-A3B показала 122 токена в секунду при восьми пользователях. Модель имеет 35 млрд общих параметров, но на каждом этапе активирует примерно 3 млрд. Такая MoE-архитектура дала более высокую скорость и меньшее энергопотребление, чем у dense-модели на 27B.
- DeepSeek генерировала около 840 выходных токенов по запросу против примерно 300 у обычных 8B-моделей. Ее более длинные ответы повысили общую производительность. Задержка между токенами оставалась на уровне 7–9 мс, что подтверждает высокую скорость модели в нашей multi-GPU конфигурации.
Когда четыре видеокарты работают медленнее одной
Одна Intel Arc Pro B70 обрабатывает компактную Qwen 2.5 3B для одного пользователя, поскольку такая модель полностью помещается в 32 ГБ и не получает пользы от распределения между четырьмя GPU.
На одной карте Qwen 2.5 3B показала 72,9 токена в секунду. После распределения на четыре GPU скорость снизилась до 62,6 токена в секунду, то есть примерно на 14%. Передача данных и синхронизация заняли больше времени, чем удалось сэкономить на параллельных вычислениях.
Поэтому для одного работника с моделью 3B–8B более практична рабочая станция с одной Intel Arc Pro B70. Она дешевле, проще в охлаждении и не тратит электроэнергию на три незадействованных карты.
Хотя компания с четырьмя компактными AI-сервисами может найти другой сценарий параллельных вычислений на GPU:
- Первая карта запускает корпоративного чата.
- Второй вычисляет embeddings и reranking для RAG.
- Третья обрабатывает изображения или документы.
- Четвёртая обслуживает отдельную модель для разработчиков или аналитиков.
Эта схема не использует тензорный параллелизм, зато устраняет затраты на синхронизацию между картами. Каждый процесс получает свои 32 ГБ видеопамяти и работает независимо от других.
Программные ограничения Intel Arc Pro B70 в локальном AI
Intel Arc Pro B70 стабильно работает с FP16-моделями Llama, Qwen и DeepSeek через Intel LLM Scaler для vLLM. Перед построением системы обратите внимание на следующие нюансы:
- BF16. Gemma 2 может не запускаться из-за ограничения XPU-бэкенда vLLM, хотя сама карта поддерживает bfloat16.
- CUDA-зависимые инструменты. AWQ/GPTQ Marlin, плагины и отдельные библиотеки нуждаются в XPU- или SYCL-совместимых аналогах.
- Multi-GPU. Платформа должна иметь достаточное количество PCIe-линий для нескольких видеокарт Intel Arc Pro B70.
Систему следует подбирать под конкретную модель, формат весов, длину контекста, количество пользователей и набор библиотек.
Сколько будет стоить локальный инференс в Украине
При расчетном тарифе 11 грн/кВтч инференс искусственного интеллекта на четырех Intel Arc Pro B70 стоит 135–194 грн за миллион выходных токенов. Для моделей 3B–8B на одной активной карте расходы составляют 18–40 грн. Более подробный расчет:
| Модель | Конфигурация | Мощность системы | Стоимость 1 млн токенов |
| Qwen 2.5 3B | 1× B70 | ≈438 Вт | 18 грн |
| DeepSeek R1 8B | 1× B70 | ≈460 Вт | 21 грн |
| Qwen 3 8B | 1× B70 | ≈403 Вт | 35 грн |
| Llama 3.1 8B | 1× B70 | ≈460 Вт | 40 грн |
| Qwen 3.6 35B-A3B | 4× B70 | ≈720 Вт | 135 грн |
| Qwen 3.6 27B | 4× B70 | ≈832 Вт | 194 грн |
При 8 параллельных сессиях с моделями 3B–8B одна карта тратит примерно 3–6 грн на миллион токенов. Поэтому локальный AI inference наиболее выгоден для постоянно загруженного корпоративного сервиса, а не для нескольких запросов одного работника.
Работа Qwen 27B будет стоить около 1600 грн в месяц в режиме 8 часов в день или 6600 грн при погрузке 24/7. Для Qwen 35B-A3B – примерно 1400 и 5700 грн соответственно.
Расчетная стоимость тестовой станции составляет около 800 тысяч гривен. Если локальная Qwen 27B полностью заменяет облачную модель по тарифу $12 за миллион выходных токенов, разница в стоимости компенсирует закупку оборудования после обработки примерно 2,35 млрд. токенов. При производительности 95,9 токена/с этот объем требует около 294 дней непрерывной нагрузки 24/7 или примерно 851 восьмичасового рабочего дня.
Какую конфигурацию выбрать для вашего бизнеса
Одной профессиональной видеокарты Intel Arc Pro достаточно для моделей 3B–8B локального ассистента одного отдела и умеренного количества параллельных запросов. Четыре видеокарты Intel для AI целесообразны для FP16-моделей 27B–35B, восьми параллельных сессий или нескольких независимых AI-сервисов.
Вот практические сценарии сборки рабочих станций и GPU-серверов для AI:
- 1×Intel Arc Pro B70 – корпоративный чатбот, небольшая RAG-система, классификация обращений, подготовка ответов и локальный ассистент одного отдела. Модели 3B–8B полностью помещаются в 32 ГБ VRAM, поэтому распределять их между четырьмя GPU для одной сессии невыгодно.
- 4×Intel Arc Pro B70 - Qwen 27B, Qwen 35B-A3B и другие FP16-модели объемом более 32 ГБ. Такая конфигурация подходит для анализа договоров и технической документации, генерации кода, корпоративного RAG и AI-ассистента с 4-8 одновременными пользователями.
- 4×Intel Arc Pro B70 как независимые ускорители – несколько компактных сервисов на одном оборудовании. Одна карта может обслуживать LLM, вторая – embeddings и reranking, третья – обработку документов, четвертая – тестовая среда для разработчиков. Каждый процесс получает собственные 32 GB видеопамяти без затрат на синхронизацию.
- GPU-сервер с Intel Arc Pro B70 – централизованный доступ, нагрузка 24/7, удаленные пользователи и несколько производственных AI-сервисов. Серверный формат добавляет резервированное питание, удаленное управление, более плотное размещение GPU и более простое масштабирование инфраструктуры.
Финансовая система с четырьмя B70 оправдана при стабильном потоке запросов и высокой загрузке в течение всего дня. Для Qwen 27B электроэнергия стоит около 194 грн. за миллион токенов, а расчетная стоимость тестовой станции составляет около 800 тыс. грн.
Если локальная модель заменяет облачный сервис по тарифу 12 долларов за миллион токенов, стоимость оборудования компенсируется после обработки примерно 2,35 млрд токенов. При измеренной скорости 95,9 токена/с это около 294 суток работы 24/7 или 851 восьмичасовой рабочий день. При объеме 4 млн токенов в день требуется около 588 дней, а при 1 млн – около 2350 дней.
Итак, четыре Intel Arc Pro B70 следует покупать для загруженного корпоративного AI, которым ежедневно пользуется команда. Для нерегулярных запросов одного специалиста более экономными остаются одна B70 или облачный API.
Если вы ищете оптимальную конфигурацию для локального запуска LLM, напишите нам и укажите параметры AI-модели. Специалисты Alfa Server предложат вам оптимальное решение под конкретный сценарий – рабочую станцию с одной видеокартой, multi-GPU конфигурацию или мощный сервер для обслуживания нескольких параллельных процессов.