Кібербезпековий стартап AISLE використовує малу модель із 3,6B параметрів, яка коштує лише 0,11 долара за кожні 1 млн токенів, і відтворює частину ключової демонстрації флагманської кібербезпекової системи Mythos від Anthropic. Межі можливостей ШІ в кібербезпеці є набагато «нерівнішими», ніж ти думаєш.
(Хід подій (передісторія): Коли Anthropic публікує Mythos, це буде момент ядерного вибуху для DeFi?)
(Додатковий контекст: Mythos від Anthropic настільки сильний, що змусив скликати екстрену нараду: Безент, Пауелл скликають Citigroup, Goldman Sachs, Bank of America, а також JPMorgan (великий і малий) — п’ять банків фокусуються на фінансових ризиках)
Зміст
Перемикач
Цього тижня Anthropic опублікувала ще не публічну модель Claude Mythos Preview і паралельно запустила проєкт Glasswing (скляне крило) — план, сформований 12 технологічними компаніями, зокрема Amazon, Apple, Microsoft, CrowdStrike, Cisco тощо. Вони використовують цю модель для проведення оборонних досліджень у сфері кібербезпеки.
Оскільки, як стверджується, Mythos автономно знаходить тисячі нульдей (zero-day vulnerability — вразливості, які ще не опубліковані, і про які навіть постачальники можуть не знати) в кожній основній операційній системі та браузері, це натякає на нову еру захисту кібербезпеки, керовану ШІ.
Однак уже менш ніж за тиждень, кібербезпековий стартап AISLE, співзасновниками якого є дослідник з DeepMind і дослідник з Anthropic Stanislav Fort, опублікував у корпоративному технічному блозі систематичний звіт.
Ключовий висновок прямий: у флагманському демонстраційному завданні Mythos відкриту малу модель з active параметрами лише 3,6B і вартістю 0,11 долара за 1 млн токенів можна отримати ті самі результати виявлення вразливостей.
AISLE розробила три набори тестів, кожен з яких відповідає завданням різної складності та характеру.
Перший набір — тести на хибнопозитивні спрацювання для OWASP (Open Web Application Security Project — Відкритий проєкт безпеки вебзастосунків).
Перекладено це означає так: фрагмент Java SQL-коду виглядає як SQL Injection (SQL-ін’єкція, атака на базу даних), але насправді це безпечна логіка. Правильна відповідь — не вразливість.
Результати тестів демонструють майже обернений ефект scaling (масштабування): малий відкритий модель GPT-OSS-20b (3,6B active параметрів, $0.11/M tokens) коректно відстежив логіку програми та визначив, що це нешкідливо.
Натомість Claude Sonnet 4.5, всі серії GPT-4.1/5.4 (окрім o3 та pro), вся лінійка Anthropic аж до Opus 4.5 — усі з упевненістю помилково класифікували як критично небезпечну вразливість. Лише дуже невелика кількість топових моделей — o3, OpenAI-pro, Sonnet 4.6, Opus 4.6 — дали правильну відповідь.
Другий набір — вразливість FreeBSD NFS, тобто CVE-2026-4747, яку особливо показали в флагманському релізі Mythos — вразливість із 17-річною історією, яка є неавторизованим віддаленим виконанням коду.
Результат: усі 8/8 протестованих моделей успішно виявили вразливість, включно з тим малим модель із 3,6B active параметрів. Усі моделі коректно ідентифікували stack buffer overflow (переповнення стекового буфера), порахували залишкове місце та оцінили як Critical RCE.
Висновок AISLE такий: ця здатність до виявлення вже «зкомерціалізована».
Третій набір — вразливість OpenBSD SACK (історія 27 років), яка потребує справжнього математичного міркування: відстеження багатокрокового ланцюга логіки з переповненням зі знаком (signed integer overflow).
Складність помітно зростає, а поведінка моделей диференціюється. GPT-OSS-120b (5,1B active параметрів) повністю відтворює ланцюг експлойту — AISLE оцінює як A+; відкрита версія Kimi K2 отримує A-; а Qwen3 32B дає помилковий висновок «код є надійним» і отримує оцінку F.
Навіть у цьому складнішому завданні модель з дуже низькою вартістю все одно досягла рівного флагманському системі рівня демонстрації.
Справжній аргумент цього звіту — не «малі моделі достатні», а те, що структура можливостей ШІ в кібербезпеці є значно складнішою, ніж уявляє зовнішній світ.
AISLE розкладає кібербезпековий AI-конвеєр на п’ять окремих підзавдань:
Кожне підзавдання має різну scaling-спроможність, а отже потребує різних можливостей моделі. Оголошення Mythos інтегрує ці п’ять рівнів в один повний інструмент, але на практиці їхні вимоги до моделей вкрай різняться: деякі підзавдання вже повністю насичуються на 3,6B параметрів, а деяким потрібно складне міркування.
Це перегукується з концепцією «Jagged Frontier» («зубчаста межа»), яку у 2023 році запропонували дослідники Гарвардської бізнес-школи Dell’Acqua та Mollick та інші: межі можливостей ШІ — це не гладка крива, а зазубрений «пилкоподібний» профіль із западинами та виступами; на деяких завданнях ШІ може далеко перевершувати людей, а на сусідніх завданнях — несподівано виявляється крихким.
Дослідження показує, що якщо користувачі розгортають AI у межах своїх можливостей, продуктивність зростає приблизно на 40%; якщо ж необережно виходити за межі — показники натомість знижуються на 19%.
У цьому фреймворку AISLE робить більш прикладне (операційне) припущення: «тисяча достатньо хороших детективів, які всюди шукають, замість одного геніального детектива, який гадатиме, де шукати, здатні знаходити більше вразливостей».
Масове розгортання недорогих моделей для широкосмугового сканування може в цілому дати кращу ефективність, ніж обережне планування одного єдиного дорогого модель. AISLE зазначає, що починаючи з середини 2025 року вони вже виконують систему пошуку вразливостей на реальних цілях: у OpenSSL вони знайшли 15 CVE (з них один одиничний security release містив 12; CVSS 9.8 Critical), у curl — 5, а загалом понад 180 зовнішньо верифікованих CVE у більш ніж 30 репозиторіях проєктів.
Цей аналіз для Anthropic не є ні повною критикою, ні простою підтримкою.
AISLE прямо заявляє: значення Mythos полягає в тому, щоб довести, що такий клас як «AI в кібербезпеці» є реальним — це не лише концепція з демонстрацій у лабораторії, а система, яка може працювати на реальних цілях. Те, що робить Anthropic, — це максимізація «інтелекту на кожен токен», і це досі має непідмінну цінність у завданнях, що потребують глибоких міркувань.
Але AISLE водночас вказує на проблему, яка є кореневішою для всієї індустрії: рівчак (захисний бар’єр) знаходиться в системі, а не в самій моделі.
У сфері кібербезпеки AISLE вважає, що джерело справжньої диференціації — це архітектурний дизайн, вбудований глибокими фаховими знаннями, наприклад: як розкладати завдання, як планувати на рівні підзавдань моделі з різною вартістю, як підтримувати довіру з боку тих, хто обслуговує (maintainers), у виробничому середовищі.
Системі, яка здатна знаходити в OpenSSL вразливості з CVSS 9.8, і системі, яка в контрольованій демонстрації виявляє відомі патерни вразливостей, потрібно не лише «сильніша модель», а радикально інша інженерна логіка.
Підсумовуючи, звіт AISLE виявив: більш дешеві й більш відкриті моделі вже можуть відтворити частину ключових демонстрацій. Справжня проблема, можливо, не в тому, чия модель найсильніша, а в тому, хто першим пропустить ці п’ять підзавдань через архітектуру, що працює в production-середовищі.
Пов'язані статті
Astriax отримує $50M інвестиції від Paradigm, щоб прискорити трейдинг, керований ШІ
В. Годл поділився: як я створив повністю локальне, конфіденційне та самокероване середовище роботи для ШІ
ШІ переформатовує сучасну війну! Швидкість прийняття рішень зменшується з кількох днів до кількох секунд, але як бути з етичними суперечками?
Звісно! T1 Faker змагатиметься з Маском Grok — вирішальна битва в «League of Legends» між людьми та ШІ
Засновник Gate доктор Хан: за допомогою AI-екосистеми та багатоваріантного розподілу активів переосмислює межі можливостей платформи
BBC запускає дурисвітський кінолітопис! Досліджуватиме майбутнє CGI та AI, а сценарист знущається з Sora, яка самознищується