DeepSeek перед выпуском V4: особенности, организация и уникальные цели Лян Вэньфэна

金色财经_ · 2026-04-02T11:49:09+00:00

DeepSeek находится на переломном этапе изменений. С конца 2025 года и по настоящее время ясно, что участники DeepSeek, которые покинули компанию или нашли новое место работы, включают: В конце прошлого года Ван Бинсюань был приглашен Тенсентом Юань Шунью, он является основным автором DeepSeek LLM (первого поколения больших языковых моделей DeepSeek) и с тех пор участвовал в обучении всех поколений моделей. Около новогодних праздников ушел Вэй Хаорань, он является ключевым автором серии DeepSeek-OCR и, возможно, устроится в крупную компанию. Недавно официально уволился Го Дая, он — основной автор DeepSeek-R1 и, вероятно, присоединится к крупной компании. А также в начале 2025 года ушел на пенсию Руан Чун, который в январе этого года официально объявил о присоединении к стартапу в области автономного вождения Юаньжун Цихэн; Руан Чун — из

金色财经_

2026-04-02 11:49:09

DeepSeek находится на переломном этапе: с конца 2025 года и по настоящее время уже ушли, нашли новое пристанище и в ясном смысле определились с дальнейшим путём следующие участники DeepSeek:

Ван Бинсюань, которого в конце прошлого года переманила компания Tencent — Яо Шуньюй; он является ключевым автором DeepSeek LLM (первого поколения крупной языковой модели DeepSeek), после чего участвовал в обучении всех последующих поколений моделей.
Вэй Хаорань, который ушёл примерно накануне Праздника весны; он является ключевым автором серии DeepSeek-OCR, возможно, он устроится в какой-то крупный производственный технологический гигант.
Го ДаЯ, официально ушедшая совсем недавно: она является ключевым автором DeepSeek-R1, возможно, она устроится в какой-то крупный производственный технологический гигант.
А также Цинь Чунь, который покинул компанию в начале 2025 года и перешёл в пенсионный статус; в январе этого года он публично объявил о присоединении к стартапу в сфере автономного вождения Yuanrong Qixing (元戎启行). Цинь Чунь — ветеран, который пришёл в компанию ещё в период X team, он — один из ключевых вкладчиков мульти-модальных достижений DeepSeek, включая Janus-Pro и т. п.

Ранее DeepSeek не привлекала финансирование, и у неё не было чёткой оценки компании. Когда у других AI-компаний резко растут капитализация или оценка, Лян Вэньфэн уже пытается найти ответ на вопросы команды: сколько же в итоге стоит компания? Это напрямую определяет, какую фактическую ценность имеют опционные соглашения, подписанные сотрудниками.

С осени 2025 года Лян Вэньфэн также начал больше уделять внимания продуктованию и коммерциализации. В DeepSeek уже есть продуктовая команда из нескольких десятков человек, но компания пока не выходила в популярные направления вроде AI-программирования и универсальных Agent. На стороне C-энда у них по-прежнему только типичный продукт Chatbot.

Новая тема для Ляна Вэньфэн — масштабирование менеджмента. Численность DeepSeek уже превысила X team; это самая крупная организация, которой он когда-либо управлял.

Над всем этим множеством изменений всё ещё нависает тот факт, что DeepSeek V4 так и не был официально выпущен.

На самом деле, примерно в январе 26-го один вариант V4 с небольшим количеством параметров уже был передан некоторым сообществам с открытым кодом для начала адаптаций. Согласно прежним относительно оптимистичным ожиданиям, версия V4 с большим числом параметров изначально могла быть выпущена и с открытым исходным кодом примерно в середине февраля — в районе Праздника весны. По имеющимся сведениям, DeepSeek V4 может быть выпущен в апреле.

Кто-то уходит — больше людей выбирают остаться. DeepSeek перестраивается, но при этом у неё остаётся множество неизменных качеств.

Это один из немногих в мире “не участвующих в гонке” (не прогоняющих друг друга по принципу вендоров) ключевой AI Lab. Когда ключевые AI-разработчики компаний из Китая и США, включая Google, OpenAI, xAI, ByteDance и т. п., работают по 70~80 часов в неделю, в будни большинство сотрудников DeepSeek уходят из офиса примерно в 18:00~19:00, а утром они тоже не отмечаются на входе.

Лян Вэньфэн считает: время, в которое один человек способен выдавать высококачественный результат в день, трудно превысить 6~8 часов.

В DeepSeek нет чётко определённых KPI или DDL (дедлайн). Эта компактная организация с чрезвычайно высокой плотностью талантов по-прежнему сохраняет “естественное распределение ролей”: исследователи могут свободно объединяться в команды или самостоятельно углубляться в какие-то новые идеи.

“Помимо главной линии, в DeepSeek также есть люди, которые занимаются некоторыми долгосрочными исследованиями, результаты которых, возможно, не проявятся даже за целый год”. “DeepSeek — это компания, где по-настоящему хотят заниматься исследованиями; в Китае, и даже в мире, едва ли можно найти лучшее место”. Так говорят люди, близкие к DeepSeek.

Конечно, у DeepSeek есть и ещё одна особенность: она таинственная. Особенно после 2025 года, кроме публично публикуемых технических отчётов, от основателя Ляна Вэньфэна до всех участников команды — коллективное “молчание”. На активных в среде AI социальных медиа или в сообществах трудно услышать их голос.

В этом материале мы показываем особенности DeepSeek, фокус на работе, способы организации и то, какие изменения происходят в этой команде из менее чем 200 человек — всё, что мы узнали из разных источников. Источник всего этого — уникальные цели, которые Лян Вэньфэн поставил перед DeepSeek.

Лян Вэньфэн: делать немногое — и доводить до предела

Цели Ляна Вэньфэна в AI заданы гораздо раньше, чем появление DeepSeek в 2023 году.

В 2016 году один из создателей DeepMind и автор идеи AGI Хассабис собрал команду по количественной торговле, пытаясь получить доход от тогдашнего DeepMind, чтобы тот мог заработать отдельно от Google; в итоге денег не заработали.

В тот же год Лян Вэньфэн, выпускник Zhejiang University (бакалавр и магистр), делал количественные инвестиции уже 8 лет. В 2015 году он основал X team; начиная с 2016 года он запускал глубокое обучение на GPU для торговых операций в реальном времени; к концу 2017 года он добился “практически всех торговых стратегий, AI-化” (“автоматизации торговых стратегий с помощью ИИ”). В 2019 году он начал строить первый вычислительный кластер X team — “Светляк 1” (Yinghuo 1), который включал 1100 GPU.

Точно в 2019 году X team AI (Huanfang Artificial Intelligence Institute, Huanfang Artificial Intelligence Research Co., Ltd.) была официально зарегистрирована как компания, работающая в сфере AI. Сейчас Ло Фули, отвечающая за AI в Xiaomi, и Цинь Чунь, который недавно присоединился к Yuanrong, — это люди, которые пришли в X team после этого, а затем в 2023 году перешли в DeepSeek.

Как человек, который к менее чем 30 годам оказался финансово свободным, жизнь Ляна Вэньфэна одновременно проста и загадочна.

По впечатлениям окружающих, он может носить одну и ту же одежду несколько дней подряд. В Ханчжоу он долго жил в гостинице, а в Пекине — где находится большинство R&D-сотрудников DeepSeek — он снимал жильё. Он худощавый, с привычкой к тренировкам; о его увлечениях, которые стали известны людям, чаще всего говорят как о походах и других видах активного отдыха на природе.

Жэнь Суньсюн (黄仁勋) приглашает сотрудников Nvidia к себе домой, пьёт немного вина, болтает “как в семейном кругу”, радостно демонстрирует гоночные машины. А Лян Вэньфэн не участвует в квартальных мероприятиях командообразования, редко собирается с участниками на совместные ужины; даже большое командное мероприятие в конце года он появляется только во время выступления, но не проходит его полностью вместе со всеми.

В 2022 году сотрудник X team под псевдонимом “Обыкновенная маленькая свинья” лично пожертвовал благотворительным организациям 138 миллионов юаней. Позже многие гадали, что эта “свинья” — и есть Лян Вэньфэн. Ответ сотрудников X team был таким: “Пожертвования сотрудников — анонимные; внутри компании также никто не знает, кто эта ‘свинья’ на самом деле”.

В рамках своих рабочих обязанностей Лян Вэньфэн делает лишь несколько вещей. Он не делает то, что делают большинство CEO в стартапах, например, не занимается привлечением финансирования.

В 2023 году Лян Вэньфэн в небольшом круге встретился с некоторыми инвесторами. Но по нашим сведениям, он выдвинул нестандартное требование: по аналогии с инвестиционными соглашениями OpenAI и Microsoft Лян Вэньфэн хотел, чтобы инвесторы приняли потолок по возврату. По итогам этой серии встреч никто из институциональных инвесторов не вложил средства в DeepSeek.

В последующие два года в Китае разгорелось финансирование в больших моделях: повсюду мелькали многомиллиардные (в миллиарды долларов) раунды, однако Лян Вэньфэн перестал встречаться с инвесторами и даже не завёл новых контактов. Даже находясь вне “окна” финансирования, большинство основателей не отказались бы познакомиться с партнёрами ведущих институциональных структур — но Лян Вэньфэн отказал большинству таких просьб.

Почти всё своё время Лян Вэньфэн направлял на “несколько вещей, на которых, как он считал, нужно сосредоточиться”, и выполнял их внимательно, тщательно, доводя до предела.

Один из ключевых факторов успеха DeepSeek ранее — “выжимать из одной дыры” (力出一孔): компания чётко поставила языковую модель на более высокий приоритет и не пошла в популярные направления вроде мультимодальной генерации.

На выбранной главной линии Лян Вэньфэн “hands on” глубоко погружается в детали. Он учится у участников команды с разными бэкграундами знаниям по алгоритмам, архитектуре, Infra и данным; при этом он сам участвует в обсуждениях деталей модели и продукта.

Многие из тех, кто видел Ляна Вэньфэна, упоминают, что у него нет “ауры CEO” или так называемой “ауры гениальности”; скорее он похож на исследователя. С ним чаще всего обсуждают конкретные технические вопросы.

Соучредитель и управляющий партнёр Oasis Capital Чжан Цзиньцзян в своей публикации “Те, кто прожил свою жизнь” рассказывал небольшой эпизод: он спрашивал у инвестируемого им основателя MiniMax Янь Цзюньцзе: “Есть ли кто-то ещё более сосредоточенный, чем ты?” Янь Цзюньцзе рассказал, что однажды он договорился встретиться на ужин с другом, которого раньше не видел. Пришли чуть раньше, и он увидел парня в футболке; решил, что это помощник. Тот не представился сам и задал Янь Цзюньцзе много вопросов по технике. Через полчаса Янь Цзюньцзе сказал: “Когда придёт Лян-цзун?” Собеседник ответил: “Я и есть Лян Вэньфэн”.

Организация DeepSeek: плоская структура, перекрёстное разделение функций, без переработок

В соответствии со стилем Ляна Вэньфэна организация DeepSeek крайне плоская: в разных звеньях есть перекрёстное распределение обязанностей, компания осторожно расширяет масштаб, и при этом нет переработок.

Когда создавался X team, у Ляна Вэньфэна были партнёры, а в DeepSeek нет “второго лица” (заместителя). Особенно в исследовательской команде есть только два уровня: Лян Вэньфэн и другие исследователи. Лян Вэньфэн принимает ключевые решения и несёт на себе максимум последствий.

Эта часть исследовательской команды сейчас насчитывает примерно 100+ человек; она похожа на большой лабораторный комплекс. Исследователи DeepSeek, в основном родившиеся примерно в 2000 году и около, обычно называют Ляна Вэньфэна (родившегося в 1985 году) “Лян лаобань”. Этот “босс” больше похож на наставника: он организует разработку, координирует ресурсы и при этом сам ведёт конкретные исследования. На общих результатах он подписывается в качестве автора корреспонденции (communications author).

В самом Лян Вэньфэн лично больше всего вовлечён в команду базовой архитектуры: он глубоко обсуждает с командой, а затем утверждает архитектурную спецификацию каждой итерации базовой модели. В этой команде несколько десятков человек; они являются основной силой, отвечающей за pretraining.

Тесно связаны с базовой архитектурой Infra и команда по данным — в обеих областях также по несколько десятков человек. В некоторых компаниях Infra-команда больше похожа на “внутреннего подрядчика” под потребности алгоритмов; но у DeepSeek Infra-команда подключается уже на стадии проработки (定版) до тренировки модели — в обсуждения, даёт рекомендации.

Тесное сотрудничество между этими модулями делает границы команды менее чёткими, формируя “перекрёстное распределение функций”. По сути, это наиболее подходящая форма сотрудничества под особенности обучения моделей: в экспериментах модели и в стадии определения версии (定版) нужно одновременно учитывать выбор данных и реализацию Infra.

Лян Вэньфэн выступает как “детектор” и “клей”, связывающий эти разные модули: он присутствует на каждом собрании каждой команды, чтобы понимать общую прогрессию и узкие места. Большинство еженедельных встреч в DeepSeek также открыты для людей из других команд — можно присутствовать через команды.

И стиль “первого номера” (идущего вглубь деталей) плюс спонтанно сформировавшееся тесное сотрудничество очень трудно воспроизвести в крупной организации. Поэтому DeepSeek весьма осторожен, когда расширяет масштаб своей основной R&D-команды.

Одна из самых необычных вещей в мировом AI-круге — то, что DeepSeek не перерабатывает. У них нет отметок на входе, нет чёткой системы оценки по KPI, и в будни большинство сотрудников уходят из офиса примерно в 6–7 вечера. DeepSeek предоставляет сотрудникам бесплатные “после работы” льготы: например, курсы по командным видам спорта, компенсация расходов на спортивные площадки и т. п.

Лян Вэньфэн считает: время, в которое один человек способен выдавать высококачественную работу в день, трудно превысить 6–8 часов. При усталости после переработок даже “тупые” (ошибочные) решения приводят к пустой трате драгоценного вычислительного ресурса — это недопустимо и экономически невыгодно.

По составу персонала DeepSeek ранее почти не нанимал опытных специалистов со стороны (соц-наём), а в основном удерживал выпускников и стажёров. В начале 2025 года 《晚点》 проанализировал 172 исследователя (включая стажёров), которые участвовали в разработке трёх поколений моделей DeepSeek (LLM, V2, V3&R1), и нашёл резюме 84 человек: более 70% из них — выпускники бакалавриата и магистратуры, и более 70% — моложе 30 лет.

До V3 и R1 DeepSeek, по оценке, была в режиме “примерно 1/10 численности сотрудников у крупной компании” и “примерно 1/2 среднего рабочего времени на человека”, но при этом за счёт чрезвычайно высокой сосредоточенности и фокуса компания входила в первую мировую “лигу” больших моделей.

Однако по мере того, как количество направлений, которые нужно исследовать для достижения топовых возможностей AI, становится всё больше, поддерживать такой же размер организации, такой же способ коммуникации и такую же атмосферу сотрудничества становится всё труднее.

За последние 15 месяцев DeepSeek продолжает быть собой, а внешний мир резко меняется

После того как в начале 2025 года V3 и R1 стали взрывными по популярности, DeepSeek не пошёл “в разнос” и не выдавал ещё более мощный “финальный удар”. Вместо этого компания продолжила разработку в рамках своих фокусных направлений; публично доступные результаты в целом можно разделить на три категории:

Первое — оптимизация эффективности: максимально “выжимать” вычислительную мощность GPU, повышая интеллект, который можно произвести на единицу вычислений. Это включает целый набор open-source на стороне “обучение + инференс Infra”, который DeepSeek выпустил в начале 2025 года: туда входят inference kernel, библиотеки для коммуникаций, библиотеки матричного умножения и фреймворки обработки данных. (Примечание: kernel — это код, который выполняет вычисления самого нижнего уровня на GPU; он используется для реализации базовых операций вроде матричного умножения.)

Также — постоянные улучшения “mechanism of attention” (механизм внимания): например, NSA (native sparse attention — нативное разрежённое внимание) в начале 25 года и последующие DSA (dynamic sparse attention — динамическое разрежённое внимание). Плюс более ранняя MLA (multi-head latent attention — многоголовочное латентное внимание) в V2. Их общая цель — обрабатывать более длинный контекст без существенного увеличения вычислительных мощностей.

Даже по обновлённой DeepSeek-V3.2, актуальной с конца сентября 25 года, можно увидеть, что DeepSeek вообще перенесла фундаментальную библиотеку операторов с доминирующих языков CUDA и Triton на TileLang. CUDA — самый нижний язык, предоставляемый Nvidia; Triton был open-sourced OpenAI; а TileLang — open-source проект, инициированный командой Ян Чжи (杨智) из Пекинского университета.

Второе — улучшения архитектуры моделей: например, mHC (popular constraint hyperconnection — “популярная ограничивающая гиперсвязь”), выпущенная в начале 26 года. Она направлена на повышение стабильности при крупномасштабном обучении; и Engram — конструкция долгосрочной памяти, формируемая вне модели. Внешний мир в целом считает, что mHC будет использована в тренинге V4.

Третье — некоторые “нетривиальные” (не главные) исследования: например, DeepSeek-OCR, где текст переводят в изображение, а затем подают на вход модели. Идея в том, чтобы модель понимала абзацы и иерархические структуры в более близкой к человеку манере “видеть текст”, повышая способность понимать сложные документы.

Внутри DeepSeek таких параллельных попыток ещё больше: непрерывное обучение, самостоятельное обучение и т. п.

Лян Вэньфэн также в 2025 году нанял нескольких консультантов с фоном в нейронауках и науках о мозге, чтобы исследовать механизмы обучения, более приближённые к мозгу человека.

В то же время в 2025 году и по настоящее время внешний AI-среда резко менялась. Самые обсуждаемые конкурирующие “главные линии” — две:

Первая — Agentic модели и приложения, основанные на coding-способностях. Это поле, где сейчас самая острая конкуренция у Anthropic и OpenAI; сформировались две “пары” последних моделей: Opus 4.6 vs GPT-5.4, а также два продуктовых противостояния: Claude Code vs Codex. OpenClaw (маленький омар), который взорвался в начале года, тоже является самым новым воплощением Agentic-приложений.

Вторая — мультимодальная генерация. Этот домен многократно “вылазил” в мейнстрим из-за “магических эффектов”: OpenAI GPT-4o весной 2025 года, затем Google NanoBanana осенью, и далее Byte Seedance 2.0 до китайского Нового года 2026 года. А генерация видео также связана с более передовым направлением — “world model” (модель мира).

DeepSeek изначально почти не вкладывалась в мультимодальную генерацию, потому что Лян Вэньфэн считает мультимодальную генерацию не главной линией интеллекта.

В направлении Agent DeepSeek-V3.2 усилил Agentic-способности, но общая частота итераций DeepSeek была ниже, чем после R1, из-за чего какое-то время у компании было ощущение тревоги из-за того, что “другие маленькие тигры” (конкуренты) обгоняют.

С начала 2025 года и по настоящее время Zhipu, MiniMax и Kimi обновили свои модели соответственно по 5, 4 и 3 версии — в сторону усиления Agent или coding.

По данным OpenRouter за последние 30 дней (24 февраля — 26 марта) среди top-10 по потреблению токенов моделей приложением OpenClaw шесть моделей были из Китая, а DeepSeek-V3.2 находится на 12 месте. (Примечание: OpenRouter сильнее отражает сценарии использования частных пользователей и небольших разработчиков, поэтому это можно рассматривать только как ориентир по общему потреблению токенов.)

Цели DeepSeek не самые мейнстримные: кто-то уходит, кто-то остаётся

“Отклонение от нормы” DeepSeek связано с пониманием AGI-целей, которое разделяет Лян Вэньфэн. Помимо стремления к верхней границе интеллекта больших моделей он считает важными ещё две вещи:

Первая — строить большие модели на базе отечественной экосистемы.

DeepSeek будет инвестировать в адаптацию под отечественные GPU, чтобы решить реальность, в которой предложение high-performance GPU ограничено. Например, после обновления V3.1 в прошлом году они упоминали, что используемый ими UE8M0 FP8 — это формат сжатия данных — “разработан для следующего поколения отечественных чипов”. Упомянутая ранее замена Triton на TileLang с использованием отечественного open-source — это также работа такого типа: на фундаментальном уровне компания получает больше инициативы.

В беседах с людьми из индустрии AI Лян Вэньфэн также высказывал подобную гипотезу: “А можно ли, используя часть уже существующих вычислительных мощностей, получить весь тот интеллект, который мы видим сейчас?”

Вторая — “инновации в стиле авторства”: делать те направления, которые не стали бы пробовать крупные фабрики или другие стартапы, и которые они не хотят пробовать.

Например, во второй половине 2024 года DeepSeek начала серию Janus и попыталась унифицировать понимание и генерацию в мультимодальных задачах. DeepSeek также делала серию Prover, исследуя формальные доказательства. Ещё был OCR в 25 году и продолжающиеся внутри компании попытки по непрерывному обучению и исследованиям в направлении бионического мозга.

Как основателю, Лян Вэньфэн важнее всего не только эффект сам по себе, но и те более сущностные, оригинальные открытия на пути к достижению эффекта.

Но сейчас ожидания внешнего мира к DeepSeek не совпадают с этим: некоторые хотят, чтобы каждый раз DeepSeek “выстреливала” так же, как R1 — эффектно и сотрясающе; но это, во-первых, трудно реализуемо, во-вторых, не совпадает с закономерностями технического развития.

Лян Вэньфэн может не обращать внимания на внешние ожидания, но он должен иметь дело с внутренними ожиданиями.

Для большего числа молодых исследователей делать больше передовых исследований — значит принимать и больше неопределённости. Более надёжный путь — постоянно участвовать в создании самых сильных моделей отрасли, подписывать своё имя под теми техническими отчётами, которые привлекают внимание, и иметь богатые GPU-ресурсы для экспериментов и исследований.

Помимо почёта и влияния, для членов DeepSeek внешний мир также предлагает обещание большой финансовой выгоды.

Абсолютная зарплата в DeepSeek неплохая, но снаружи платят выше. Нам рассказывали некоторые рекрутеры: конкуренты предлагают “цифры, от которых трудно отказаться”, “увеличение в 2–3 раза — без проблем”, а другие компании предлагают “пакеты с 8-значными суммами (в виде акций или опционов)”.

Новое обстоятельство заключается в том, что MiniMax и Zhipu вышли на биржу, их цены выросли; вопрос IPO также затронул Kimi и вышел на повестку. Это заставило некоторых сотрудников DeepSeek ещё больше сомневаться в той части опционов, которые у них есть “без чёткого ценника”.

Перед лицом таких грандиозных предложений многие выбирают остаться. Они признают подход Ляна Вэньфэна к AGI, готовы делать исследования, которые не мотивируются исключительно конкуренцией; также они привыкли к относительно свободной и спокойной атмосфере исследований в DeepSeek.

Некоторые внешние слухи в последнее время оказываются неточными: у DeepSeek действительно происходят изменения в команде, но при этом “группового исхода” нет.

“Те, кто остаётся, всё равно в какой-то степени сохраняют идеализм”. Так говорят люди, близкие к DeepSeek. Они считают, что Лян Вэньфэн понимает: помимо главной линии по повышению эффективности и производительности моделей, нужно делать и такие направления, где отдача сейчас может быть неясной. Потому что “за рубежом у компаний с большими вычислительными мощностями — например, у Google или OpenAI — внутри наверняка пытаются любые возможные направления”.

До сих пор относительная малочисленность команды DeepSeek и прозрачная, плоская атмосфера после основания компании позволяют людям между собой естественно распределять роли: иногда старт нового направления происходит потому, что несколько человек считают, что идея хорошая, и они просто начинают делать её вместе.

Это перекликается с тем, что Лян Вэньфэн описывал в интервью 《暗涌》 в 2024 году: “Обычно мы не делаем предварительное распределение обязанностей. У каждого свой уникальный путь роста, и он сам приходит с идеями — не нужно его ‘push’… Но когда идея показывает потенциал, мы также сверху распределяем ресурсы”.

“DeepSeek — это компания, где по-настоящему хотят заниматься исследованиями; в стране, и даже в мире, можно найти одно из лучших мест”. Так говорят люди, близкие к DeepSeek.

Изменить мир — и быть изменённым миром

Уникальное понимание и разбор целей AGI — одно из самых ценных качеств DeepSeek. Именно из-за этого компания сейчас сталкивается с внутренним напряжением. Потому что экосистемное строительство и оригинальные исследования, которые Лян Вэньфэн ценит, пересекаются с тем, как отрасль в целом воспринимает “быть самым сильным” как приоритет №1, но при этом не совпадают полностью.

Кроме того, на сегодняшнем этапе развития больших моделей стандарты “сильности” и “оригинальности” становятся всё более размытыми и субъективными.

Результаты Benchmark больше не могут полностью измерять уровень моделей. Особенно после входа в конкуренцию в Agentic-моделях продуктовые “руки” (прикладные точки) и связанные с ними сценарии использования в long-tail, а также разнообразные данные, становятся ещё более важными. Это как раз то, куда DeepSeek раньше не вкладывалось слишком много, потому что фокусировалась на R&D моделей.

Ожидаемый V4, который скоро будет опубликован, вероятно, всё равно станет “самой сильной” open-source-моделью, но едва ли будет “раздавливающим по силе”. Потому что стандарты “силы” и личные ощущения разных разработчиков и пользователей в разных сценариях применения становятся всё более разнообразными.

Что такое оригинальное и ценное новое исследование — вечно вызывает разногласия: это зависит от опыта, суждений и интуиции разных исследователей, а то, что называют “техническим вкусом”.

Способ проверить “вкус” — эксперимент. Но количество и масштаб экспериментов ограничены GPU-ресурсами. По сравнению с коллегами у DeepSeek вычислительных мощностей не так много.

В итоге, независимо от того, речь о базисе экосистемы для больших моделей или о поиске направлений, которые другие команды, возможно, не стали бы пробовать в процессе гонки за эффектом, отдача от тех работ, которые Лян Вэньфэн ценит, остаётся крайне неопределённой.

Передовая наука должна нести такую неопределённость. Но из-за реальности ограниченных вычислительных ресурсов и из-за ожиданий внешнего мира, что DeepSeek сможет продолжать удивлять и даже “раздавливать”, совпадение не идеальное.

Лян Вэньфэн осознал необходимость изменить подход: в последнее время он начал искать способы оценить компанию (дать оценку), а также дать команде больше определённых ожиданий.

DeepSeek также будет вкладывать больше в продукт. Мы собрали все объявления о найме HR DeepSeek в социальных сетях с декабря 2024 года по настоящее время. В самой свежей публикации вакансий в середине марта 2025 года DeepSeek впервые упоминает названия конкретных других продуктов, и нанимает “Product Manager по моделям-стратегиям” под направление Agent:

постоянно отслеживать индустриальные передовые тенденции, быть знакомым и глубоко использовать известных agent-ов вроде Claude Code、OpenClaw、Manus…

Далее наверняка увидим больше действий DeepSeek в продуктовых Agent-направлениях.

В начале 2025 года DeepSeek, удивив Китай и мир своим щедрым духом open-source и чудом “с малым ресурсом — и большим”, изменил мир: он заставил часть коллег направить больше усилий на саму техническую сторону моделей, вдохновил последующие модели вроде Kimi K2 и K2-thinking, а также прямо породил некоторые новые команды — например, MiroMind, на который выделил средства Чэнь Тяньцяо.

Почему это чудо — потому что чудеса случаются нечасто; это маловероятное событие. В среде Китая, где ценят конкуренцию и результаты, само существование DeepSeek как компании, которая осмеливается преследовать уникальные цели, — это приятный маловероятный случай.

Те, кто общался с Ляном Вэньфэном, оценивают его так: “Он человек, который особенно устойчив к шуму”.

После того как R1 взорвал рынок в 2025 году, Лян Вэньфэн показал спокойное отношение к “хвалебному шуму” и поклонению. А сейчас он сталкивается с другим испытанием: когда внешняя конкуренция усиливается, нужно отличать шум от сигнала — держаться того, что нужно держать, и менять то, что нужно менять.

“Человек, который низко склоняется и делает дело, возможно, не обязательно будет смеяться последним в шумном потоке рынка. Но только когда появится больше компаний вроде DeepSeek, у китайской науки и технологий появится шанс перейти от ‘копирования’ к лидерству”. Так сказал один участник отрасли.

Это работа Ляна Вэньфэна и DeepSeek. А тем, кого эта компания уже затронула своим движением, остаётся очень просто: снять с себя нарратив “суперистории” (рассказов для удовольствия), воспринимать компанию и инновации в технике с более спокойным, обычным настроем.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .