De acordo com o monitorização da 1M AI News, a Microsoft disponibilizou em código aberto no Hugging Face a família de modelos de embeddings de texto multilingues harrier-oss-v1, que inclui três variantes: 270M, 0.6B e 27B. O cartão do modelo mostra que esta série utiliza uma arquitetura apenas com decoder-only, last-token pooling e normalização L2, suportando no máximo 32768 tokens, podendo ser usada para pesquisa (retrieval), agrupamento (clustering), similaridade semântica, classificação, mineração bilingue e reordenação.
Multilingual MTEB v2 é o benchmark de embeddings de texto multilingues mais usado na indústria, cobrindo principalmente tarefas como pesquisa, classificação, agrupamento e similaridade semântica. O cartão do modelo da Microsoft afirma que as pontuações das três variantes neste benchmark são 66.5, 69.0 e 74.3, respetivamente, e que a variante de 27B subiu para o primeiro lugar no dia do lançamento. As versões de 270M e 0.6B também usam, adicionalmente, modelos de embeddings maiores para fazer destilação de conhecimento; os três modelos foram publicados sob a licença MIT.