Китайский стартап DeepSeek представил новую языковую ИИ-модель. Во многих аспектах она не уступает ChatGPT, но стоит на порядок дешевле

Китайская компания DeepSeek из Ханчжоу анонсировала запуск новой крупной языковой модели (LLM) DeepSeek V3. Согласно тестам, она превзошла аналогичные разработки компаний Meta (запрещенная в России организация) и OpenAI. Об этом представители стартапа сообщила в своем аккаунте в WeChat — популярном китайском мессенджере.

У DeepSeek V3 671 млрд параметров, и она была обучена за два месяца. На создание модели было потрачено $5,58 млн, что значительно меньше затрат на разработку аналогов у крупных технологических компаний. Для обучения использовались оптимизированные ресурсы — всего 2,78 млн часов работы графических процессоров (GPU).
Модель DeepSeek V3 основана на новой архитектуре, которая позволяет снизить расходы на обучение. Для этого использовались графические процессоры Nvidia H800, разработанные специально для китайского рынка. Для сравнения: Meta потратила 30,8 млн GPU-часов на обучение модели Llama 3.1 с использованием более современных чипов H100, которые не экспортируются в Китай из-за санкций США.
DeepSeek V3 показала отличные результаты в тестах, оценивающих понимание текста, генерацию контента, знание в специализированных областях, решение математических задач и написание кода. Модель превзошла Meta Llama 3.1 и Qwen 2.5 от Alibaba, а также продемонстрировала результаты на уровне GPT-4 от OpenAI и Claude 3.5 Sonnet от Anthropic.
DeepSeek является дочерней компанией High-Flyer Quant, крупного китайского фонда, использующего искусственный интеллект. С момента своего основания в 2022 году компания разрабатывает инструменты, которые могут быть использованы для создания приложений и общения с пользователями через чат-ботов. DeepSeek заявляет, что ее цель — создавать технологии, полезные для всего человечества.

Как вам статья?