Знаки вже очевидні, що ера безкоштовних послуг закінчилася. Два роки тому ми жили в красивій ілюзії, де обчислювальна потужність здавалася водопровідною водою, яку можна безперервно пускати. Зараз? Кожен токен має ціну, і вона стрімко зростає.



Цікаво, як усе це почалося. Коли вартість API ще була дуже низькою, всі могли користуватися без обмежень. Ми кидали тисячі слів у промпт без роздумів. Просили найсучаснішу модель виконувати дурні завдання, наприклад, писати з великої літери перше слово в реченні. Чому? Тому що це було дуже дешево, субсидоване великими інвесторами. Але ця субсидія тепер закінчилася.

Ці зміни — не просто про зростання цін на панелі. Це фундаментальна зміна у тому, як ми повинні думати про інфраструктуру штучного інтелекту. Споживання токенів, яке раніше ігнорували, тепер стає критичним елементом у будь-якому центрі витрат. Один API-запит може коштувати тисячі рупій, якщо обсяг великий. Уявіть стартап, який обробляє мільйони запитів на день — це вже не питання опцій, а питання виживання.

Є три місця, де наші токени справді зникають непомітно. По-перше, системний промпт, який надто довгий. Ми любимо писати дуже детальні інструкції для стабільності виходу, але кожна інструкція — це токен, за який платимо. Кожна розмова потребує повторного обчислення тисяч токенів. По-друге, RAG, що виходить з-під контролю. Ідеал RAG — взяти три найрелевантніші речення і запитати модель. Реальність? База даних витягує десять довгих PDF по тисячі слів і заливає їх у модель. Ми думаємо, що просто ставимо питання, а насправді модель мусить прочитати пів бібліотеки. По-третє, агент, що застряг у нескінченному циклі. Якщо логіка погана і API недоступний, агент може безперервно крутитися, і кожна ітерація вичерпує дорогий вихідний токен.

Зараз настав цікавий момент — як вибратися з цієї ями? Є три інструменти, які тепер стають необхідними, а не опцією. Семантичний кеш може змінити гру, бо питання користувачів повторюються. Якщо користувач запитує «як скинути пароль» кілька разів, ми можемо зберегти відповідь у кеші і одразу повертати її без залучення великої моделі. З мілісекунд до нулю, і безкоштовно по токенах. Стиснення промптів за допомогою алгоритмів на основі ентропії може зжати текст з 1000 до 300 токенів без втрати сенсу. Нехай машина спілкується з машиною мовою, яку люди не розуміють. Механізм уваги моделі достатньо потужний, щоб зрозуміти. Це зменшує витрати на 70%.

Але найскладніше — маршрутизація моделей. Не всі завдання потрібно відправляти до найдорожчої моделі. Просте вилучення сутностей? Направляємо до Llama 3 8B або Claude Haiku, що дуже дешево. Складне логічне мислення і код? Тоді використовуємо GPT-4o або Claude Sonnet. Це схоже на ефективну компанію — ресепшн не турбує CEO з приводу простих речей. Той, хто зможе плавно реалізувати цю маршрутизацію, зможе знизити вартість токенів до третини порівняно з конкурентами.

Якщо подивитися на провідні фреймворки агентів, такі як OpenClaw і Hermes, вони вже випереджають час. OpenClaw одержимий контролем токенів. Замість повного стеку контексту він змушує модель видавати строго структурований JSON або більш компактний формат. Не «говорити вільно», а «подати форму». Це елегантна операція з економії даних у часи обчислювального дефіциту. Інший підхід Hermes — динамічна пам’ять. Робоча пам’ять зберігає лише 3-5 останніх розмов. Якщо перевищує, легка модель підсумовує старі розмови у ключові пункти і зберігає їх у векторній базі даних. Це не сміттєзвалище, а точна операція пам’яті. Таке тонке управління контекстом значно знижує обчислювальні витрати на макрорівні.

Але є ще більш фундаментальна зміна мислення, ніж усі ці технічні рішення. В епоху дешевизни ми ставимося до токенів як до споживачів — бачимо знижки і одразу додаємо до кошика. Багато компаній випадково інтегрують LLM у внутрішні системи, дають доступ усім співробітникам, навіть меню в їдальні просить AI генерувати. Результат? Шок у рахунках наприкінці місяця.

Тепер потрібно змінити менталітет — кожен витрачений токен — це інвестиція, і потрібно рахувати ROI. Якщо токен витрачається, що ти отримуєш натомість? Збільшення рівня закриття квитків? Скорочення часу виправлення багів? Або просто відповідь «ха-ха, AI смішний». Якщо функція через правиловий движок коштує 0,1 юаня, а інтеграція LLM — 1 юань, і при цьому покращення конверсії — всього 2%, тоді краще не морочитися. Не потрібно мріяти про великі AI-фантазії, краще перейти до цілеспрямованого підходу з точністю. Кожен токен має ставитися як золото, яке потрібно кувати.

Загалом, зростання витрат — не криза, а очищення. Це ламає бульбашку, створену безмежною субсидією, і повертає всіх до реальності. Це усуває гравців поверхні, які лише пишуть промпти і ходять навколо, передаючи естафету команді, що справді розуміє архітектуру, маршрутизацію моделей і як максимально використовувати обчислювальні ресурси на краях. Коли вода відступає, тоді й видно, хто плаває голяка. Цього разу виживуть і процвітатимуть ті, хто ставиться до кожного токена як до цінного ресурсу, впевнений, що отримають більше, ніж витратили. Вони стануть домінувати у наступній епосі інфраструктури AI.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити