Distance Metrics for Vector Search

Overview of distance metrics including Euclidean, cosine similarity, dot product, and Manhattan distance, with guidance on when to use each for optimal retrieval performance.

Visit Website

Common Distance Metrics

Cosine Similarity:

Measures angle between vectors
Range: [-1, 1] (or [0, 1] for positive)
Ignores magnitude
Best for: Text embeddings, semantic similarity
Formula: cos(θ) = (A·B) / (||A|| ||B||)

Euclidean Distance (L2):

Straight-line distance
Considers magnitude
Range: [0, ∞)
Best for: Spatial data, image embeddings
Formula: ||A - B|| = sqrt(Σ(ai - bi)²)

Dot Product:

Inner product of vectors
Fast to compute
Range: (-∞, ∞)
Best for: Normalized vectors, efficiency-critical
Formula: A·B = Σ(ai × bi)

Manhattan Distance (L1):

Sum of absolute differences
More robust to outliers
Range: [0, ∞)
Best for: High-dimensional sparse data
Formula: Σ|ai - bi|

When to Use Each

Cosine Similarity: Default for text/semantic search

Sentence transformers
Document similarity
Semantic search

Euclidean: When magnitude matters

Image embeddings
Facial recognition
Spatial coordinates

Dot Product: For speed

Normalized embeddings
Real-time systems
Simple, fast computation

Manhattan: Special cases

Sparse high-dimensional data
Outlier robustness needed

Normalization Impact

With Normalized Vectors:

Cosine ≈ Dot Product
Euclidean ≈ Angular distance
Most models normalize internally

Without Normalization:

Metrics behave differently
Cosine ignores magnitude
Euclidean considers it

Performance Characteristics

Speed (fastest to slowest):

Dot Product
Cosine (with pre-normalized)
Manhattan
Euclidean

Most Common in Production:

Text: Cosine (90%)
Images: Euclidean or Cosine
Hybrid: Dot product on normalized

Database Support

Database	Cosine	Euclidean	Dot Product	Manhattan
Pinecone	✓	✓	✓	-
Weaviate	✓	✓	✓	✓
Qdrant	✓	✓	✓	✓
Milvus	✓	✓	✓	✓
pgvector	✓	✓	✓	-

Best Practices

Use what embedding model recommends
Cosine for text (safe default)
Normalize if using dot product
Test on your data
Stay consistent across pipeline
Consider computation cost

Common Mistakes

Mixing metrics in same system
Not normalizing for dot product
Using Euclidean for text
Ignoring model recommendations
Not testing alternatives

Surveys

Loading more......

Information

Websitewww.pinecone.io

PublishedMar 18, 2026

Tags

3 Items

#distance-metrics #similarity #algorithms

Similar Products

Hamming Distance

A distance metric that measures the number of positions at which corresponding elements in two vectors differ. Particularly useful for binary vectors and categorical data, commonly used with binary quantization in vector search.

000

Inner Product Similarity

A vector similarity metric that calculates the dot product of two vectors, combining both magnitude and direction. Equivalent to cosine similarity when vectors are normalized, and commonly used for Maximum Inner Product Search (MIPS).

000

Range Search

A vector search operation that retrieves all vectors within a specified distance threshold from the query vector, rather than a fixed number of nearest neighbors. Useful for finding all similar items above a quality threshold.

000

Dot Product

Vector similarity metric measuring both directional similarity and magnitude of vectors. Used by many LLMs for training and equivalent to cosine similarity for normalized data. Reports both angle and magnitude information.

000

Manhattan Distance

Vector distance metric calculating the sum of absolute differences between vector components. Measures grid-like distance and is robust to outliers, with faster calculation as data dimensionality increases.

000

Cosine Similarity

Fundamental similarity metric for vector search measuring the cosine of the angle between vectors. Range from -1 to 1, with 1 indicating identical direction regardless of magnitude.

000

Common Distance Metrics

Cosine Similarity:

Measures angle between vectors
Range: [-1, 1] (or [0, 1] for positive)
Ignores magnitude
Best for: Text embeddings, semantic similarity
Formula: cos(θ) = (A·B) / (||A|| ||B||)

Euclidean Distance (L2):

Straight-line distance
Considers magnitude
Range: [0, ∞)
Best for: Spatial data, image embeddings
Formula: ||A - B|| = sqrt(Σ(ai - bi)²)

Dot Product:

Inner product of vectors
Fast to compute
Range: (-∞, ∞)
Best for: Normalized vectors, efficiency-critical
Formula: A·B = Σ(ai × bi)

Manhattan Distance (L1):

Sum of absolute differences
More robust to outliers
Range: [0, ∞)
Best for: High-dimensional sparse data
Formula: Σ|ai - bi|

When to Use Each

Cosine Similarity: Default for text/semantic search

Sentence transformers
Document similarity
Semantic search

Euclidean: When magnitude matters

Image embeddings
Facial recognition
Spatial coordinates

Dot Product: For speed

Normalized embeddings
Real-time systems
Simple, fast computation

Manhattan: Special cases

Sparse high-dimensional data
Outlier robustness needed

Normalization Impact

With Normalized Vectors:

Cosine ≈ Dot Product
Euclidean ≈ Angular distance
Most models normalize internally

Without Normalization:

Metrics behave differently
Cosine ignores magnitude
Euclidean considers it

Performance Characteristics

Speed (fastest to slowest):

Dot Product
Cosine (with pre-normalized)
Manhattan
Euclidean

Most Common in Production:

Text: Cosine (90%)
Images: Euclidean or Cosine
Hybrid: Dot product on normalized

Database Support

Database	Cosine	Euclidean	Dot Product	Manhattan
Pinecone	✓	✓	✓	-
Weaviate	✓	✓	✓	✓
Qdrant	✓	✓	✓	✓
Milvus	✓	✓	✓	✓
pgvector	✓	✓	✓	-

Best Practices

Use what embedding model recommends
Cosine for text (safe default)
Normalize if using dot product
Test on your data
Stay consistent across pipeline
Consider computation cost

Common Mistakes

Mixing metrics in same system
Not normalizing for dot product
Using Euclidean for text
Ignoring model recommendations
Not testing alternatives

Distance Metrics for Vector Search

Common Distance Metrics

When to Use Each

Normalization Impact

Performance Characteristics

Database Support

Best Practices

Common Mistakes

Information

Categories

Tags

Similar Products

Connect with us

Stay Updated

Product

Clients

Company

Resources

Distance Metrics for Vector Search

Common Distance Metrics

When to Use Each

Normalization Impact

Performance Characteristics

Database Support

Best Practices

Common Mistakes

Information

Categories

Tags

Similar Products