Scalar Quantization

Vector compression technique reducing precision of each vector component from 32-bit floats to 8-bit integers, achieving 4x memory reduction with minimal accuracy loss for vector search.

Visit Website

Overview

Scalar Quantization (SQ) is a simpler compression technique than Product Quantization that reduces the precision of each vector component, typically from 32-bit floating point to 8-bit integers, achieving 4x memory reduction.

How Scalar Quantization Works

Quantization Process

Find Range: Determine min and max values for each dimension
Map: Map the continuous range to discrete integer values (e.g., 0-255 for 8-bit)
Encode: Convert each float component to its quantized integer
Store: Store compact 8-bit representations

Search Process

Quantize query vector using same mapping
Compute approximate distances using quantized vectors
Optionally rerank top candidates using original vectors

Memory Reduction

32-bit float → 8-bit int: 4x compression
32-bit float → 4-bit int: 8x compression
Example: 768-dim vector: 3,072 bytes → 768 bytes (8-bit) or 384 bytes (4-bit)

Variants

Asymmetric Scalar Quantization

Database vectors: quantized
Query vectors: kept in full precision
Better accuracy than symmetric quantization

Per-Dimension vs Global

Per-dimension: Different min/max for each dimension
Global: Single min/max across all dimensions

Trade-offs

Advantages:

Simple to implement
Minimal accuracy loss (1-2% typical)
Fast compression and decompression
Works well with modern SIMD instructions

Disadvantages:

Less compression than Product Quantization
Still requires significant memory for large datasets

Comparison with Other Methods

vs Product Quantization:

Less compression but better accuracy
Simpler and faster
No training required

vs Binary Quantization:

Better accuracy but less compression

Use Cases

When 4x compression is sufficient
Applications requiring high accuracy
Real-time search scenarios
When simplicity is valued

Pricing

Implemented in most vector databases (Qdrant, Milvus, Weaviate, etc.)

Surveys

Loading more......

Information

Websiteqdrant.tech

PublishedMar 13, 2026

Tags

3 Items

#quantization #compression #optimization

Similar Products

Binary Quantization for Vector Search

Compression technique that converts full-precision vectors to binary representations, achieving 32x storage reduction while maintaining 90-95% recall for efficient large-scale vector search.

000

Locally-Adaptive Vector Quantization

Advanced quantization technique that applies per-vector normalization and scalar quantization, adapting the quantization bounds individually for each vector. Achieves four-fold reduction in vector size while maintaining search accuracy with 26-37% overall memory footprint reduction.

000

Binary Quantization

Extreme vector compression technique converting each dimension to a single bit (0 or 1), achieving 32x memory reduction and enabling ultra-fast Hamming distance calculations with acceptable accuracy trade-offs.

000

Product Quantization (PQ)

Vector compression technique that splits high-dimensional vectors into subvectors and quantizes each independently, achieving significant memory reduction while enabling approximate similarity search.

000

AWQ

Activation-aware Weight Quantization method that preserves model accuracy at 4-bit quantization by identifying and skipping important weights. Maintains 99%+ of original performance with moderate inference speed improvements.

000

GPTQ

Post-training quantization method for 4-bit weight compression that focuses on GPU inference performance. First quantization method to compress LLMs to 4-bit range while maintaining accuracy, minimizing mean squared error to weights.

000

Overview

How Scalar Quantization Works

Quantization Process

Find Range: Determine min and max values for each dimension
Map: Map the continuous range to discrete integer values (e.g., 0-255 for 8-bit)
Encode: Convert each float component to its quantized integer
Store: Store compact 8-bit representations

Search Process

Quantize query vector using same mapping
Compute approximate distances using quantized vectors
Optionally rerank top candidates using original vectors

Memory Reduction

32-bit float → 8-bit int: 4x compression
32-bit float → 4-bit int: 8x compression
Example: 768-dim vector: 3,072 bytes → 768 bytes (8-bit) or 384 bytes (4-bit)

Variants

Asymmetric Scalar Quantization

Database vectors: quantized
Query vectors: kept in full precision
Better accuracy than symmetric quantization

Per-Dimension vs Global

Per-dimension: Different min/max for each dimension
Global: Single min/max across all dimensions

Trade-offs

Advantages:

Simple to implement
Minimal accuracy loss (1-2% typical)
Fast compression and decompression
Works well with modern SIMD instructions

Disadvantages:

Less compression than Product Quantization
Still requires significant memory for large datasets

Comparison with Other Methods

vs Product Quantization:

Less compression but better accuracy
Simpler and faster
No training required

vs Binary Quantization:

Better accuracy but less compression

Use Cases

When 4x compression is sufficient
Applications requiring high accuracy
Real-time search scenarios
When simplicity is valued

Pricing

Implemented in most vector databases (Qdrant, Milvus, Weaviate, etc.)

Scalar Quantization

Overview

How Scalar Quantization Works

Quantization Process

Search Process

Memory Reduction

Variants

Asymmetric Scalar Quantization

Per-Dimension vs Global

Trade-offs

Comparison with Other Methods

Use Cases

Pricing

Information

Categories

Tags

Similar Products

Connect with us

Stay Updated

Product

Clients

Company

Resources

Scalar Quantization

Overview

How Scalar Quantization Works

Quantization Process

Search Process

Memory Reduction

Variants

Asymmetric Scalar Quantization

Per-Dimension vs Global

Trade-offs

Comparison with Other Methods

Use Cases

Pricing

Information

Categories

Tags

Similar Products