AWS Lambda Scaling: Minimizing Latency, Maximizing Throughput & Reducing Costs

BY ALEXIS CUADRADO
AWSLAMBDA@SCALE
DESIGNING FOR HIGH LOAD

LAMBDA @ SCALE #NERDEARLA
LOOK, IT SCALES
AUTOMATICALLY!
MANAGED SERVICE
ACCOUNT
CONCURRENCY
COLD STARTS
THROTTLING
BURST
CONCURRENCY
EXECUTION
COSTS

GETTINGOURLAMBDAFUNCTIONSTO
PERFORMASREQUIRED
THE CHALLENGE OF SCALE

THREEPERFORMANCEINDICATORS
$
LATENCY THROUGHPUT
COSTPER
TRANSACTION
seconds or milliseconds transactions per second (TPS) USD
MINIMIZE MAXIMIZE MINIMIZE
TIP: Define proper Service Level Objectives (SLOs)
(meet demand)

MINIMIZING LATENCY
BY ALEXIS CUADRADO
AWSLAMBDA@SCALE
MAKE EVERY MILLISECOND COUNT

ANATOMYOFALAMBDAINVOCATION
1
2
RUNTIME
3
COMPUTE SUBSTRATE
EXECUTION ENVIRONMENT
HANDLER CODE
STATIC CODE
4 5
Download Code Start Environment Bootstrap Runtime Run Static Code Run Handler
1 2 3 4 5

initializing
executing
available
invocation
LONGLIVETHEEXECUTIONENVIRONMENT!
1 2 3
TIME
EXECUTION ENVIRONMENT

STARTEDONTHECOLDFOOT
initializing
executing
available
invocation
1
2
3
E1
E2
4
5
cold start
Download Code Start Environment Set up Runtime Run Static Code Run Handler
1 2 3 4 5

DISSECTING LATENCY
Download Code Start Environment Bootstrap Runtime Run Static Code Run Handler
1 2 3 4 5
COLD START ( INITIALIZATION ) EXECUTION

OPTIMIZEHANDLERLOGIC
EMPLOY EFFICIENT ALGORITHMS
A B
C
Put those hard-won
whiteboarding skills to use
Parallelize I/O operations
(e.g. S3 downloads)
Use Step Functions
AVOID ORCHESTRATION
MOVE WORK OUTSIDE HANDLER
D
MULTI-THREADING
1 2 3 4 5
Reusable objects should be
statically initialized

TURNUPTHERAM!
Example Python Function: Return all prime numbers between 0 and 10K
MEMORY (MB) EXECUTION DURATION (MS)
128 170
256 80
512 40
1024 20
1536 17
3008 17
MEMORY = vCPU NETWORK THROUGHPUT
lowest latency
negative returns beyond this point
Beware of
1 2 3 4 5
TIP: Enable Lambda Insights for profiling

STATICINITIALIZATIONDONERIGHT
+ 120 ms
1 2 3 4 5

PACKAGESIZEMATTERS
Download Deployment Package Start Environment Bootstrap Runtime
Download Deployment
Package
Start Environment Bootstrap Runtime Run Static Code
Run
Handler
50 MB
20 MB
TIPS:
• Audit and remove unused dependencies
• Use minifiers (e.g. node-minify)
1
1
3 4 5
2
3
2

ONCOLDSTARTFREQUENCY
?
?
?
? COLD
WARM
Isn’t that what we’re all asking in our own lives?
HOW CAN WE GET MORE OF THIS?
... AND LESS OF THIS?

CONCURRENCY
t₀ t₁
E3
concurrency = 1 t₂
E1
E2
concurrency = 3
1 2
3
4
TIME

PROVISIONALLTHECONCURRENCY!
t₀
E3
E1
E2
provisioned concurrency = 3
1
2
3
4
5
t₁
concurrency is provisioned
requests start arriving
TIME
NO COLD STARTS!

AUTOSCALING
TIME
DEMAND /
CONCURRENCY

MAXIMIZING
BY ALEXIS CUADRADO
AWSLAMBDA@SCALE
THROUGHPUT
LEAVE NO REQUEST BEHIND

AFUNCTION’STHROUGHPUT
1 2
1 2
1 2 3 4
= 2 TPS
THROUGHPUT =
CONCURRENCY
LATENCY
= 4 TPS
= 4 TPS
= 500 ms
= 1
= 500 ms
= 500 ms = 500 ms
= 2
= 250 ms = 250 ms = 250 ms = 250 ms
= 1 3 4

REDUCINGLATENCYTOGAINTHROUGHPUT
250 ms
1 2 3 4 5 6 7 8
1 2 3 4 5 6 7 8 9 10
1 2 4
3
= 4 TPS
1 sec
100 ms
50 ms
125 ms
1
2
3
4
= 8 TPS
= 10 TPS
= 1
?

OH,THERATELIMITS
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
100 ms
50 ms
50 ms
4A
3
4B
= 20 TPS
= 10 TPS
= STILL 10 TPS
= 1
Throughput capped due to rate limiting
Additional invocations will increase
concurrency or be throttled
1 3 5 7 9 11 13 15 17 19
2 4 6 8 10 12 14 16 18 20
ASYNCHRONOUS
INVOCATIONS
SYNCHRONOUS
INVOCATIONS
No limit!

ACCOUNTCONCURRENCY
TIME
E1
E100
E1
E800
THROTTLED
X
concurrency = 200
concurrency = 800
account concurrency = 1000
ANOTHER FUNCTION
OUR FUNCTION
Everyone gets their share

RESERVEDCONCURRENCY
TIME
E1
E300
E1
E100
THROTTLED
X
concurrency = 300
concurrency = 100
account concurrency = 1000
OUR FUNCTION
ANOTHER FUNCTION
reserved concurrency = 900
-1900

BURSTCONCURRENCY
TIME (MINUTES)
CONCURRENCY
(UNITS)
5K
3000
2500
1000 1500
1000
0 0
500 1000
2500
1
0 3
2 4 6
5 7 9
8
2K
1K
3K
4K
+500 +500 +500 +500
+0 +0 +0 +500 +500
BURST QUOTA = 3000
AVAILABLE BURST
ACCOUNT CONCURRENCY = 5000
BURST THROTTLE ZONE
ACCOUNT THROTTLE ZONE
BURST THROTTLE ZONE
FUNCTION CONCURRENCY
Super
(OR HOW FAST CONCURRENCY CAN RISE)

MINIMIZING
BY ALEXIS CUADRADO
AWSLAMBDA@SCALE
$ COSTS
GET THE BIGGEST BANG FOR YOUR BUCK

HOWLAMBDAPRICINGWORKS
$
COSTPER
TRANSACTION
also COST PER EXECUTION
$
= COMPUTE
CHARGES
REQUEST
CHARGES
Rates vary based on Region and CPU Architecture
Free Tier available
Elegible for Savings Plans
fixed fee per request
EXECUTION
DURATION
ALLOCATED
MEMORY
LATENCY
determines
influences

POWERTUNING
alexcasalboni/aws-lambda-power-tuning
OPTIMAL
MEMORY
CONFIGURATION

ARMYOURSELF(WITHGRAVITON2)
COST
LATENCY

PUTTINGITALLTOGETHER
BY ALEXIS CUADRADO
AWSLAMBDA@SCALE
BEFORE OUR BRAINS BURST

WHATWE(HOPEFULLY)LEARNEDTODAY
KEY PERFORMANCE METRICS
Getting our Lambda Functions to perform as required
THE CHALLENGE OF SCALE
COLD STARTS
HOW LAMBDA PROCESSES INVOCATIONS
Execution Environments
CONCURRENCY
HOW LAMBDA SCALES
HOW PRICING WORKS
QUOTAS
CONTROLS
ACCOUNT CONCURRENCY
BURST CONCURRENCY
PROVISIONED CONCURRENCY
RESERVED CONCURRENCY
(how fast)
(how much)
(pre-warm)
(set aside)
POWER TUNING
$
LATENCY - THROUGHPUT - COST PER TRANSACTION
WHAT FACTORS AFFECT LATENCY
THROUGHPUT CONSIDERATIONS
Interplay between memory, execution time and costs
COLD START EXECUTION
Rate Limits, Concurrency Quotas and Controls
Relation to Latency and Concurrency
OPTIMIZATION TECHNIQUES Price-performance gains with arm64 (Graviton2)

THANKYOU
@alexscuadrado
/in/alexis-cuadrado
FOLLOW ME
𝕏
alexis.hashnode.dev

AWS Lambda Scaling: Minimizing Latency, Maximizing Throughput & Reducing Costs

Recommended

Recommended

More Related Content

Similar to AWS Lambda Scaling: Minimizing Latency, Maximizing Throughput & Reducing Costs

Similar to AWS Lambda Scaling: Minimizing Latency, Maximizing Throughput & Reducing Costs (20)

Recently uploaded

Recently uploaded (20)

AWS Lambda Scaling: Minimizing Latency, Maximizing Throughput & Reducing Costs