Китайская компания DeepSeek из Ханчжоу анонсировала запуск новой крупной языковой модели (LLM) DeepSeek V3. Согласно тестам, она превзошла аналогичные разработки компаний Meta (запрещенная в России организация) и OpenAI. Об этом представители стартапа сообщила в своем аккаунте в WeChat — популярном китайском мессенджере.
- У DeepSeek V3 671 млрд параметров, и она была обучена за два месяца. На создание модели было потрачено $5,58 млн, что значительно меньше затрат на разработку аналогов у крупных технологических компаний. Для обучения использовались оптимизированные ресурсы — всего 2,78 млн часов работы графических процессоров (GPU).
- Модель DeepSeek V3 основана на новой архитектуре, которая позволяет снизить расходы на обучение. Для этого использовались графические процессоры Nvidia H800, разработанные специально для китайского рынка. Для сравнения: Meta потратила 30,8 млн GPU-часов на обучение модели Llama 3.1 с использованием более современных чипов H100, которые не экспортируются в Китай из-за санкций США.
- DeepSeek V3 показала отличные результаты в тестах, оценивающих понимание текста, генерацию контента, знание в специализированных областях, решение математических задач и написание кода. Модель превзошла Meta Llama 3.1 и Qwen 2.5 от Alibaba, а также продемонстрировала результаты на уровне GPT-4 от OpenAI и Claude 3.5 Sonnet от Anthropic.
- DeepSeek является дочерней компанией High-Flyer Quant, крупного китайского фонда, использующего искусственный интеллект. С момента своего основания в 2022 году компания разрабатывает инструменты, которые могут быть использованы для создания приложений и общения с пользователями через чат-ботов. DeepSeek заявляет, что ее цель — создавать технологии, полезные для всего человечества.