multilingual-e5-large

Microsoft's state-of-the-art multilingual text embedding model supporting 100 languages with 1024-dimensional embeddings, trained on 1 billion multilingual text pairs for robust cross-lingual retrieval.

Visit Website

Overview

The multilingual-e5-large model is a sophisticated embedding model developed at Microsoft, supporting 100 languages from xlm-roberta. It's designed for robust text representation across diverse languages and tasks.

Model Specifications

Architecture: 24 layers based on XLM-RoBERTa-large
Embedding Size: 1024 dimensions
560M Parameters: Optimal balance of performance and efficiency
Multilingual Support: 100 languages

Training Methodology

The training procedure adheres to the English E5 model recipe:

Contrastive pre-training on 1 billion multilingual text pairs
Fine-tuning on a combination of labeled datasets

Performance

Achieves 51.4 on BEIR benchmark
Strong cross-lingual retrieval capabilities
Robust performance across various text representation tasks

Model Family

The E5 family includes:

multilingual-e5-small: 12 layers, 384 dimensions
multilingual-e5-base: 12 layers, 768 dimensions
multilingual-e5-large: 24 layers, 1024 dimensions (this model)
multilingual-e5-large-instruct: Instruction-tuned version with 52.5 BEIR score

Use Cases

Information retrieval
Semantic textual similarity
Text reranking
Cross-lingual search
Document classification
Clustering

Resources

Hugging Face: intfloat/multilingual-e5-large
GitHub: microsoft/unilm/e5
Technical Report: arXiv:2402.05672

Pricing

Free and open-source model available on Hugging Face.

Surveys

Loading more......

Information

Websitehuggingface.co

PublishedMar 14, 2026

Tags

3 Items

#multilingual #embedding #microsoft

Similar Products

Nomic Embed Text

First fully reproducible open-source text embedding model with 8,192 context length. v2 introduces Mixture-of-Experts architecture for multilingual embeddings. Outperforms OpenAI models on benchmarks. This is an OSS model under Apache 2.0 license.

000

jina-embeddings-v3

Frontier multilingual text embedding model with 570M parameters and 8192 token-length, featuring task-specific LoRA adapters and outperforming OpenAI and Cohere embeddings on MTEB benchmark.

000

Jina ColBERT v2

Groundbreaking multilingual information retrieval model supporting 89 languages with token-level embeddings and late interaction. Features Matryoshka embeddings for flexible efficiency-precision tradeoffs and 8192 token input context.

000

E5 Embeddings

Open-source text embedding models from Microsoft supporting 100+ languages. Features small, base, and large variants with weakly-supervised contrastive pre-training. This is an OSS model family released by Microsoft Research.

000

Cohere Rerank v3.5

State-of-the-art foundational model for ranking with 4096 context length and multilingual support for 100+ languages. Offers exceptional performance on BEIR benchmarks and specialized domains including finance, e-commerce, and enterprise search.

000

BGE-M3

A versatile embedding model from BAAI that simultaneously supports dense retrieval, sparse retrieval, and multi-vector retrieval, with multilingual support for 100+ languages and multi-granularity processing from short sentences to 8192-token documents.

000

Overview

Model Specifications

Architecture: 24 layers based on XLM-RoBERTa-large
Embedding Size: 1024 dimensions
560M Parameters: Optimal balance of performance and efficiency
Multilingual Support: 100 languages

Training Methodology

The training procedure adheres to the English E5 model recipe:

Contrastive pre-training on 1 billion multilingual text pairs
Fine-tuning on a combination of labeled datasets

Performance

Achieves 51.4 on BEIR benchmark
Strong cross-lingual retrieval capabilities
Robust performance across various text representation tasks

Model Family

The E5 family includes:

multilingual-e5-small: 12 layers, 384 dimensions
multilingual-e5-base: 12 layers, 768 dimensions
multilingual-e5-large: 24 layers, 1024 dimensions (this model)
multilingual-e5-large-instruct: Instruction-tuned version with 52.5 BEIR score

Use Cases

Information retrieval
Semantic textual similarity
Text reranking
Cross-lingual search
Document classification
Clustering

Resources

Hugging Face: intfloat/multilingual-e5-large
GitHub: microsoft/unilm/e5
Technical Report: arXiv:2402.05672

Pricing

Free and open-source model available on Hugging Face.

multilingual-e5-large

Overview

Model Specifications

Training Methodology

Performance

Model Family

Use Cases

Resources

Pricing

Information

Categories

Tags

Similar Products

Connect with us

Stay Updated

Product

Clients

Company

Resources

multilingual-e5-large

Overview

Model Specifications

Training Methodology

Performance

Model Family

Use Cases

Resources

Pricing

Information

Categories

Tags

Similar Products