Berdasarkan pemantauan 1M AI News, Microsoft merilis keluarga model embedding teks multi-bahasa open source di Hugging Face bernama harrier-oss-v1, yang mencakup tiga tingkatan: 270M, 0.6B, dan 27B. Kartu model menunjukkan bahwa rangkaian ini menggunakan arsitektur decoder-only, last-token pooling, dan normalisasi L2, dengan dukungan maksimum 32768 token, serta dapat digunakan untuk penelusuran (retrieval), clustering, kemiripan semantik, klasifikasi, penambangan dwibahasa, dan reranking.
Multilingual MTEB v2 adalah tolok ukur embedding teks multi-bahasa yang umum digunakan di industri, terutama menguji tugas seperti penelusuran, klasifikasi, clustering, dan kemiripan semantik. Kartu model Microsoft menyatakan bahwa skor ketiga tingkatan model pada tolok ukur tersebut masing-masing adalah 66.5, 69.0, dan 74.3, dengan varian 27B menempati posisi teratas pada hari peluncurannya. Versi 270M dan 0.6B juga secara tambahan menggunakan model embedding yang lebih besar untuk knowledge distillation, dan ketiga model dirilis dengan lisensi MIT.