BGE-M3

A versatile multilingual text embedding model from BAAI that supports 100+ languages and can handle inputs up to 8192 tokens. BGE-M3 is unique in supporting three retrieval methods simultaneously: dense retrieval, multi-vector retrieval, and sparse retrieval.

Visit Website

Surveys

Loading more......

Information

Websitehuggingface.co

PublishedMar 20, 2026

Tags

4 Items

#embeddings #multilingual #hybrid-search #open-source

Similar Products

Qwen3 Embedding

Multilingual embedding model supporting over 100 languages and ranking #1 on MTEB multilingual leaderboard. Offers flexible model sizes from 0.6B to 8B parameters with user-defined instructions.

000

gte-Qwen2-1.5B-instruct

A state-of-the-art multilingual text embedding model from Alibaba's GTE (General Text Embedding) series, built on the Qwen2-1.5B LLM. The model supports up to 8192 tokens and incorporates bidirectional attention mechanisms for enhanced contextual understanding across diverse domains.

000

Snowflake Arctic Embed

Suite of high-quality multilingual text embedding models optimized for retrieval performance, developed by Snowflake and available as open-source for commercial use.

000

FlagEmbedding

Open-source retrieval and RAG framework from BAAI featuring the BGE embedding model series. BGE-M3 supports multi-functionality (dense, sparse, multi-vector), multi-linguality (100+ languages), and multi-granularity (up to 8192 tokens).

000

jina-embeddings-v5

Jina AI's latest embedding model achieving the highest multilingual performance among models under 1B parameters with 71.7 average MTEB score and 67.7 MMTEB score.

000

Nomic Embed Text v2

Open-source multilingual embedding model using Mixture-of-Experts architecture, achieving excellent semantic performance with efficient inference and full offline support.

000

Three Multi Capabilities

1. Multi-Functionality

BGE-M3 is the first embedding model to simultaneously support all three common retrieval functionalities:

Dense Retrieval: Traditional vector similarity search

Multi-Vector Retrieval: ColBERT-style late interaction matching

Sparse Retrieval: Lexical matching similar to BM25

This unique capability eliminates the need for multiple separate models.

2. Multi-Linguality

Trained on datasets covering 170+ different languages, BGE-M3 can work with over 100 languages in production. It achieves state-of-the-art performance on:

Multi-lingual benchmarks (MIRACL)

Cross-lingual benchmarks (MKQA)

Performance surpasses models from OpenAI in both English and other languages.

3. Multi-Granularity

Processes inputs of varying lengths:

Short sentences (a few tokens)

Medium documents (hundreds of tokens)

Long documents (up to 8192 tokens)

This flexibility makes it suitable for diverse use cases from FAQ search to full document retrieval.

BGE-M3

Information

Categories

Tags

Similar Products

Connect with us

Stay Updated

Product

Clients

Company

Resources

BGE-M3

Information

Categories

Tags

Similar Products

Overview

Three Multi Capabilities

1. Multi-Functionality

2. Multi-Linguality

3. Multi-Granularity

Technical Architecture

Recommended Pipeline

Use Cases

Performance

Availability

Pricing