AI-ABC

AI Agent Benchmarkfor

The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.

Ver resultados da avaliação ↓GitHub · Coleção de Tópicos & Regras de Avaliação

66+

Tarefa de avaliação

dimensões centrais

Avaliação de Agente

Mensal

Atualização mensal

Dimensões

Dimensões de avaliação

Cobertura total para utilizadores de Crypto — desde operações básicas em CEX até investigações complexas em cadeia, tudo construído com base em cenários reais.

10 tarefas

CEX

Ordens à vista, abertura e fecho de contratos, consulta de gestão de património, estratégia de grelha, transferência de contas e análise de combinações.

10 tarefas

DEX

Swap em cadeia, comparação de preços de pontes entre cadeias, controlo de slippage, otimização de roteamento em múltiplos passos e avaliação de risco de contratos.

10 tarefas

carteira

Transferências multichain, estimativa de reserva de Gas, verificação de formato de endereço, bloqueio de cadeias erradas e transferências condicionais.

12 tarefas

Análise de mercado

Análise técnica em tempo real, RSI / K linha, avaliação da relação entre volume e preço, comparação de múltiplas criptomoedas e comparação de volatilidade.

12 tarefas

Pesquisa de projeto

Análise da economia dos tokens, avaliação do ciclo narrativo, deteção de Rug Pull, comparação de concorrentes e relatório de pesquisa.

12 tarefas

Rastreamento em cadeia

Análise de endereços e lucros/perdas, rastreamento de grandes investidores, sinais de Smart Money, monitorização de segurança de protocolos.

Operações básicas

Instruções simples, com intenções claras. Como consultar saldo, ver preços de mercado, fazer uma ordem simples.

Operação Condicional

Inclui verificação prévia ou ramificações de exceção. Como bloqueio por saldo insuficiente, complementação de parâmetros, identificação de riscos de cadeia errada.

Tarefa composta

Múltiplos passos, múltiplas restrições, requer raciocínio e ponderação. Como o caminho ótimo entre cadeias, a transferência total mantém o Gas.

Resultados de Março de 2026

Classificação de Avaliações

Pontuação ponderada com base em 6 grandes dimensões. Todas as avaliações utilizam um mecanismo de consenso de dois modelos, complementado por arbitragem humana.

#	Agente	tipo	Total	CEX	DEX	carteira	Análise de mercado	Pesquisa de projeto	Rastreamento em cadeia
1	GateAI Agent	Inteligência Artificial Genérica	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（Gate for AI instalado）	Inteligência Artificial Genérica	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（Gate for AI instalado）	Inteligência Artificial Genérica	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Cripto IA	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（Gate for AI instalado）	Inteligência Artificial Genérica	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Cripto IA	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	Inteligência Artificial Genérica	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Cripto IA	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	Inteligência Artificial Genérica	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（Gate for AI instalado）82.8

Codex Agent（Gate for AI instalado）81.2

Gate AI Agent obteve a primeira posição na avaliação. Como um agente nativo profundamente integrado na bolsa, ele ocupa o primeiro lugar nas três principais dimensões: negociação CEX, negociação DEX e análise de mercado. Nesta avaliação, foram incluídos 9 agentes, abrangendo 6 cenários: negociação CEX, negociação DEX, operações de carteira, análise de mercado, investigação on-chain e pesquisa de projetos, com pontuação baseada em um mecanismo de consenso de dois modelos, complementado por uma revisão manual. O desempenho do Gate AI Agent sob este conjunto de critérios é uma validação completa de suas capacidades nativas em Web3.

Estrutura de Pontuação

Metodologia de Avaliação

Cada questão é avaliada de forma independente com 2-3 dimensões de avaliação, utilizando uma auditoria de consenso de dois modelos, com todos os benchmarks e pesos completamente públicos.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Identificação e bloqueio de riscos

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS

1.0

Totalmente satisfaz todas as normas de avaliação.

PARTIAL

0.6

Direção correta, mas execução incompleta.

FAIL

0.0

Erro, invenção ou risco de segurança

Revisão de Consenso de Duplo Modelo

Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.

Pontuação Composta Ponderada

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Classificação de Agentes

Agente de IA da Gate

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Agente de IA Genérico

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Agente de IA Crypto de terceiros

Industry's other Crypto-specific AI Agents

Ver conjunto completo de questões e regras de avaliação →

Detalhes da avaliação do tema

Detalhes da avaliação por questão

Clique em qualquer tópico para expandir e ver as pontuações e dimensões de avaliação de cada Agente.

CEX

DEX

carteira

Análise de mercado

Pesquisa de projeto

Rastreamento em cadeia

cex_001L1Ajude-me a verificar quanto de USDT ainda tenho na minha conta de spot.100▾

Ajude-me a verificar quanto de USDT ainda tenho na minha conta de spot.

GateAI Agent100

Claude Agent（Gate for AI instalado）95

Codex Agent（Gate for AI instalado）82.5

AskSurf Agent36.5

Manus（Gate for AI instalado）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

Dimensões de Avaliação

Compreensão da intenção da contaSe foi corretamente identificado como consulta de saldo de conta à vista, e não como total de ativos, saldo de contrato ou operação de depósito.

Precisão da consulta de saldoSe você deve retornar o saldo atual utilizável do USDT, o valor e a unidade são claros, distinguindo entre utilizável e congelado

Tratamento de Exceções e ExplicaçõesAo encontrar problemas como não estar logado ou expiração de autorização, é fornecida uma razão clara e orientações sobre os próximos passos?

cex_002L1Comprar SOL a preço de mercado por 10U.89▾

Comprar SOL a preço de mercado por 10U.

GateAI Agent89

Claude Agent（Gate for AI instalado）72.5

Codex Agent（Gate for AI instalado）87.5

AskSurf Agent77.5

Manus（Gate for AI instalado）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

Dimensões de Avaliação

Instrução de análise de precisãoSe entendeu corretamente que 10U é o valor em USDT, e não a quantidade de 10 SOL.

Integridade da execução da transaçãoSe retorna o resultado da execução, etapas de confirmação ou uma descrição clara do status do pedido.

Identificação e bloqueio de riscosQuando o saldo é insuficiente ou as permissões estão restritas, é feito o bloqueio preciso e a notificação ao usuário sobre o próximo passo?

cex_003L1Qual é a taxa de rendimento anualizada dos produtos de investimento em USDT?95▾

Qual é a taxa de rendimento anualizada dos produtos de investimento em USDT?

GateAI Agent95

Claude Agent（Gate for AI instalado）87.5

Codex Agent（Gate for AI instalado）91

AskSurf Agent77.5

Manus（Gate for AI instalado）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

Dimensões de Avaliação

Identificação do escopo do produtoFoca em produtos de investimento/ganho em USDT, em vez de se inclinar para negociação ou empréstimos.

Resultados de validadeSe retorna pelo menos uma categoria de produtos de investimento em USDT e sua taxa de retorno anual.

Descrição e Limitações dos RendimentosIndica se as características dinâmicas da taxa de rendimento ou restrições de qualificação/região são explicadas.

cex_004L1Ajude-me a encontrar um vendedor que aceite Alipay para comprar 5000 USDT.100▾

Ajude-me a encontrar um vendedor que aceite Alipay para comprar 5000 USDT.

GateAI Agent100

Claude Agent（Gate for AI instalado）47.5

Codex Agent（Gate for AI instalado）60

AskSurf Agent77.5

Manus（Gate for AI instalado）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

Dimensões de Avaliação

P2P cenário de reconhecimentoEstá correto reconhecer como compra de moeda fiduciária P2P, extraindo os três parâmetros: Alipay, 5000 reais, USDT.

Qualidade do resultado da correspondênciaSe deve retornar uma lista de anúncios que atendem aos critérios ou um plano de compra executável

Bloqueio e descrição de riscosQuando não há anúncios ou a qualificação é insuficiente, é fornecida uma explicação clara e orientações sobre os próximos passos?

cex_005L2Vender ETH a descoberto90▾

Vender ETH a descoberto

GateAI Agent90

Claude Agent（Gate for AI instalado）92.5

Codex Agent（Gate for AI instalado）82.5

AskSurf Agent36.5

Manus（Gate for AI instalado）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

Dimensões de Avaliação

Entendimento da direção da negociaçãoÉ correto identificar a venda a descoberto de ETH como uma abertura de posição curta em contratos perpétuos, e não como a venda de ativos à vista.

Parâmetros de complementação e planoQuando faltam parâmetros, deve-se perguntar ativamente, o plano final inclui direção/alavancagem/margem?

Executar o fechamento e bloqueioApós a obtenção de todos os parâmetros, é possível fornecer um plano executável? O bloqueio é preciso sob restrições de tempo?

cex_006L2Ajude-me a fechar a posição comprada de BTC.72.5▾

Ajude-me a fechar a posição comprada de BTC.

GateAI Agent72.5

Claude Agent（Gate for AI instalado）96

Codex Agent（Gate for AI instalado）95

AskSurf Agent52.5

Manus（Gate for AI instalado）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

Dimensões de Avaliação

Reconhecimento semântico de fechamentoSe foi corretamente identificado como fechamento de compra/venda, e não como abertura de venda a descoberto.

Verificação de posição e resultadosDeve-se primeiro consultar a posição longa de BTC e, em seguida, fornecer o resultado do fechamento ou a próxima confirmação.

Risco e Tratamento de AnomaliasEm cenários como ausência de posição ou permissões insuficientes, é fornecida uma explicação precisa?

cex_007L2Transfira 10 USDT da conta à vista para a conta de contrato perpétuo.90▾

Transfira 10 USDT da conta à vista para a conta de contrato perpétuo.

GateAI Agent90

Claude Agent（Gate for AI instalado）94

Codex Agent（Gate for AI instalado）92.5

AskSurf Agent71.5

Manus（Gate for AI instalado）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

Dimensões de Avaliação

Correção do caminho de transferênciaSe foi corretamente identificado como uma transferência interna, com a direção sendo da conta à vista para a conta de contrato perpétuo.

Executar ou bloquear resultadoFornecer descrição do estado quando a transferência for bem-sucedida, se o bloqueio for preciso quando o saldo for insuficiente.

Clareza da informaçãoDireção da conta, valor, razão da anomalia estão expressos claramente.

cex_008L2ETH caiu para 2500, comprei 100U.75▾

ETH caiu para 2500, comprei 100U.

GateAI Agent75

Claude Agent（Gate for AI instalado）62.5

Codex Agent（Gate for AI instalado）70

AskSurf Agent62.5

Manus（Gate for AI instalado）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

Dimensões de Avaliação

Identificação do tipo de ordemSe é reconhecida como uma ordem de compra a preço limite, em vez de uma ordem de mercado que é executada imediatamente.

Parâmetros de correçãoOs três parâmetros principais, tipo de moeda ETH, preço alvo de 2500 e valor de 100U, estão todos corretos?

Executar ciclo fechadoÉ fornecido o status de confirmação/execução, e a interrupção é precisa em caso de restrições de tempo?

cex_009L3Ajude-me a analisar se minha conta total nos últimos 30 dias superou o BTC, e aproveite para verificar a taxa de vitória e a relação de lucro e perda do USDT perpétuo.90▾

Ajude-me a analisar se minha conta total nos últimos 30 dias superou o BTC, e aproveite para verificar a taxa de vitória e a relação de lucro e perda do USDT perpétuo.

GateAI Agent90

Claude Agent（Gate for AI instalado）85

Codex Agent（Gate for AI instalado）77.5

AskSurf Agent77.5

Manus（Gate for AI instalado）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

Dimensões de Avaliação

Análise de escopo cobreSe cobre simultaneamente as dimensões de desempenho da conta em relação ao BTC e análise de comportamento de negociação perpétua.

Resultados e precisão dos indicadoresSe foi dada uma conclusão sobre se superou o BTC, bem como dados de taxa de vitória e relação de lucro/prejuízo.

Calibração e Tratamento de AnomaliasEstá claro a distinção entre as duas categorias de calibração de análise? Quando não há dados, as limitações são explicadas separadamente?

cex_010L3Use 100 USDT para iniciar uma grade de spot BTC.95▾

Use 100 USDT para iniciar uma grade de spot BTC.

GateAI Agent95

Claude Agent（Gate for AI instalado）60

Codex Agent（Gate for AI instalado）67.5

AskSurf Agent77.5

Manus（Gate for AI instalado）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

Dimensões de Avaliação

Identificação do tipo de estratégiaSe foi corretamente identificado como grade de spot BTC, e não como grade de contrato ou outra estratégia quantitativa.

Correção dos parâmetros do planoSe reflete com precisão os três elementos: BTC, 100 USDT, grade de spot.

Bloqueio e Limitação de ExplicaçãoQuando o saldo é insuficiente ou a estratégia não está disponível, é fornecida uma explicação clara do motivo.

FAQ

Perguntas Frequentes

What is AI-ABC?+

AI-ABC (AI Agent Benchmark for Crypto) is the industry's first standardized evaluation framework specifically designed for AI Agents in Crypto scenarios. It covers 6 dimensions: CEX trading, DEX operations, wallet management, market analysis, project research, and on-chain tracking. Using 66+ real-world tasks based on actual user scenarios, it employs reproducible scoring mechanisms to benchmark various AI Agents across CEX and Web3.

How is this different from GAIA and AgentBench?+

Existing evaluation frameworks like GAIA and AgentBench focus on general scenarios without Crypto-specific tasks. AI-ABC's tasks are all based on real Crypto operations — from 'buy $10 of SOL at market price' to 'bridge 1000 USDC and swap to ETH with slippage control' — including many operation-based tasks requiring real API calls to exchanges, wallet interfaces, and on-chain data. This is completely beyond the scope of general benchmarks.

Benchmark é como é feito a pontuação?+

A avaliação é baseada no desempenho do Agente de IA em mais de 66 tarefas reais, considerando vários indicadores como a conclusão da tarefa, precisão e eficiência de execução, garantindo que os resultados da avaliação sejam objetivos, justos e comparáveis.

Com que frequência os dados de avaliação são atualizados?+

Atualização mensal. À medida que os vários Agentes são atualizados e novos Agentes se juntam, continuaremos a realizar avaliações e a atualizar o ranking. O banco de questões também será expandido de acordo com o desenvolvimento do setor e novos cenários.

A avaliação é objetiva? A participação da Gate AI na avaliação é justa?+

Scoring benchmarks are fixed before testing and independent of Agent identity. Evaluations use dual-model consensus (GPT-5.4 and Claude Sonnet 4.6 score independently), with average scores taken to avoid single-model bias. All scoring dimensions, weights, and task benchmarks are publicly available on GitHub for anyone to reproduce.

Como é feita a divisão da dificuldade das tarefas de avaliação?+

Dividido em três níveis — L1 (operações básicas: instruções simples, intenções claras), L2 (operações condicionais: com verificações prévias ou ramificações de exceção), L3 (tarefas compostas: múltiplos passos, múltiplas restrições, requer raciocínio e ponderação). Quanto maior a dificuldade, mais se pode refletir a capacidade de decisão integrada do Agente em cenários reais de Crypto.

As principais diferenças entre um Agente de IA Genérico e um Agente Especializado em Cripto são:+

Agentes de IA genéricos (como Claude, ChatGPT) apresentam um desempenho próximo ao de agentes especializados em tarefas de consulta de informações (análise de mercado, pesquisa de projetos), mas a diferença é evidente em tarefas operacionais que requerem execução real (colocação de ordens de negociação, transferências em cadeia, estimativa de Gas e bloqueio de cadeias erradas). Esta é também a razão central pela qual o setor de criptomoedas necessita de uma infraestrutura de agentes de IA especializados.