Database Benchmarking

Realistic data for performance testing

The Benchmarking Challenge

Database benchmarks require realistic data distributions to produce meaningful results. Random data doesn't cut it.

Every value equally likely. Unrealistic query patterns. Poor index selectivity testing.

SELECT * WHERE user_id = 42
→ Returns 1 row (0.0001%)

Top 1% of users generate 50% of activity. Realistic skew. Real-world query patterns.

SELECT * WHERE user_id = 42
→ Returns 50,000 rows (5%)

aphelion generate examples/imdb-job/schema.json \
         --rows 1000000 \
         --distribution power-law \
         --seed 42

Generated Data:

80/20 rule: 20% of items account for 80% of activity

Use for: User activity, product popularity, page views

Bell curve: Most values cluster around the mean

Use for: Response times, ages, measurements

Custom probabilities: 60% A, 25% B, 15% C

Use for: Status codes, categories, regions

Time-based constraints: orders after signup

Use for: Event sequences, audit trails