Press "Enter" to skip to content

GOTO 2018 • GameDays: Practice Thoughtful Chaos Engineering • Ho Ming Li


[Musica]
tutti sperano ti piaccia il tuo pranzo
grazie per essere venuti al mio discorso andiamo
iniziato
quindi questo sono io sono lead Solutions
Architetto al gremlin un po ‘ su
gremlin gremlin ti fornisce una piattaforma
per praticare in modo sicuro e facilmente in sicurezza
l’ ingegneria del caos per rompere le cose
scopo gremlin vuole che tu giri
fallimento in resilienza mentre quello
gremlin Ho corso un numero di giorni di gioco con
varie società quindi è giusto dire
che ho visto alcune cose che parlerò a
un po ‘di più sull’ingegneria del caos
nel giorno del gioco quindi non ti preoccupare se tu
Non ho ancora sentito questi termini, voglio solo
per iniziare con una rapida alzata di mano
quanti di voi hanno sentito parlare di caos
ingegnere un buon numero di voi grande e
di quelli che hanno sentito parlare di caos
ingegnere quanti di voi in realtà
praticare l’ingegneria del caos non molto
molte mani spero che cambiamo questo prossimo
anno ora domanda completamente indipendente
quanti di voi giocano ai videogiochi o
considera te stesso un buon numero di giocatori
Sei cool così mi considero un giocatore come
bene ho usato per giocare un sacco di giochi che ho
abituati a mangiare il sonno e il gioco
beh in realtà basta mangiare e giocare ma
c’è stato un evento e ho deciso di fermarmi
gioco dopo un evento e cosa
successo durante l’evento è che il
server privato su cui stavo giocando
per tornare indietro una settimana e per quelli di voi
il gioco molto una settimana puoi fare un
molti progressi e tanto quanto me
capisci che tutto fallisce era ancora
un’esperienza utente davvero terribile e così
mi ha fatto molto più interessare
elasticità
ma comunque da quell’evento io costantemente
smettere di giocare ma anche se io
smesso di giocare ho ancora un
amore per i giochi così in questo discorso lo farai
vedere che in realtà uso un po ‘di
schermate di riferimento e di gioco
quando ho usato per giocare Sogno up
essere il meglio del meglio, proprio tu
sai dove hai due capitani della squadra
vuoi essere la prima scelta giusta
perché sei così bravo
e immagino di avere tutto il meglio
l’ obiettivo perfetto dell’attrezzatura domina
ogni singolo gioco ben cena Internet
ti riporta alla realtà carina
Ho subito si rende conto che stavo bene ero
farei bene, mediocre ne vinco un po ‘
giochi e perdo alcuni giochi ora
allo stesso modo con le operazioni IT con DevOps
con le operazioni tecnologiche immaginate anche a
mondo un mondo perfetto in qualche modo giusto
tu pensi ai sistemi che non vanno mai
laggiù non c’è bisogno di aggiustare nulla
niente ha bisogno di aggiustare niente mai fallisce
Naturalmente non c’è bisogno di svegliarsi
nel mezzo della notte e ottieni sempre un
buona notte di sonno
non sarebbe ideale, lo vogliamo tutti
ma sappiamo tutti qual è la realtà
sembra che la realtà sia che tu sia
può costantemente combattere sistemi antincendio
fallire e fanno famiglia fallirà così
la realtà è che sei solo un incendio
tutto il tempo e stai ricevendo
interrotto stai ricevendo la pagina che c’è
avvisi in corso si ha a che fare con
supporta solo una tonnellata di lavoro reattivo ora
abbiamo tutti quei lavori reattivi con tutti
i vigili del fuoco in corso quando il
servizio a cui tieni quando vuoi
il servizio non riesce a volte si desidera dare
quello che scrolla le emoji ASCII proprio tu
so quello che sto parlando
vuoi dare la colpa a qualche dipendenza
è un difetto WS
È colpa GCP qualche altro servizio
che è fallendo non sarebbe bello
dare la colpa agli altri
ma ti incoraggio a combattere davvero
quell’urgenza non lo dico perché loro
fallire devi fallire anche noi tutti
sappi che le cose falliscono tutto il tempo giusto
i server possono fallire interruzione di corrente accade
tutte le reti di tempo in errore puoi essere
soffocato altre dipendenze fallirà così
puoi fare meglio anche se tutto va bene
te stesso un bar alto che alla fine possiedi
che l’ esperienza dell’utente e del consumatore è così
tieniti all’altezza di una sfida
te stesso non biasimare quello
dipendenza che dipendi da loro
Fail si può avere un modo per gestire la cosa in modo
non devi fallire al suo fianco ora
come fai a sollevare quel caos da bar
ingegneria
cos’è l’ ingegneria del caos è una parola d’ordine
il suo clickbait in una certa misura proprio tu
probabilmente è arrivato con questo top perché il
titolo dice ingegneria del caos ora così
l’ingegneria del caos ha una buona parte di
idee sbagliate, quindi voglio prendere questo
opportunità di condividere la nostra definizione
di ingegneria del caos di ingegneria del caos
è una pratica in cui sei pensieroso
praticando esperimenti di piano riflessivo
sono progettati per rivelare punti deboli in
il tuo sistema, quindi vedremo
come usare la pratica del motore del caos
alla superficie alcune delle condizione di campo
e preparare in modo proattivo per questi sensori
situazioni in poche parole
caos ingegneristico alle tue condizioni
questo non è quando il
quei tempi morti ti colgono di sorpresa
in produzione giusto questo è quando tu
in modo proattivo quando sei pronto per farlo
in un ambiente sicuro così che tu sia
imparando in modo molto controllato
ambiente è un’analogia che usiamo spesso
quell’ingegneria del caos è come un vaccino
vaccino che vuoi iniettare un piccolo
controlla l’ammontare del danno in modo che tu sia
costruire resilienza e poi nel tempo
sarai immune a quello di gameday in realtà
è il momento giusto per esercitarsi nella giornata di gioco
l’esercitazione pratica del caos è durante
giorni di gioco in modo da poter definire il giorno del gioco come
un tempo dedicato per la squadra a
collaborare insieme e concentrarsi
sull’uso del caos nelle pratiche generali a
rivelare punti deboli nei vostri sistemi ora
qualcuno lo chiama caos day failure
Venerdì ci sono molti nomi per questo
oppure si può chiamare il caos hackathon se
lo chiamerò carino
descrittivamente per quello che è giusto che sia
Davvero un giorno in cui si corre il caos
esperimenti facciamo un po ‘di caos
sperimenta insieme i giorni di gioco dolce del giorno
l’ ingegneria del caos suona bene , facciamolo
bene tieni un po ‘il tuo cavallo
capiamo prima perché stiamo facendo
questo diamo un’occhiata a questa immagine vedi
Mario per quelli sei tu che non lo sono
Mario familiare è un ragazzino qui
lascia che ti chieda qual è l’obiettivo di Mario
guarda Bowser laggiù, va bene così
Mario è un obiettivo di Mario per
sconfiggere Bowser Bowser è davvero grande
mostro spaventoso sul lato se non sei
familiarità con Mario Mario
sicuramente ha bisogno di sconfiggere Bowser a destra
ma questo è solo perché Bowser non lo è
a suo modo Bowser è in realtà un
ostacolo qui ma non suo a
obiettivo se si guarda di nuovo l’immagine
vedi nell’angolo in alto a destra
vedi la principessa Peach in una gabbia di risparmio
La principessa Peach è in realtà di Mario
obiettivo ora Mario può solo andare e prendere
La principessa Peach e tornare indietro in modo sicuro
perché preoccuparsi di con Bowser ma di
Certo che non è possibile
Bowser è a modo suo così alla fine lui
deve sconfiggere Bowser per salvare la principessa
Peach ora è simile a molte persone
sbagliato che un obiettivo nel caos
l’ingegneria è devastare giusto
rompere le cose che diciamo anche per rompere le cose
di proposito, ora sì, rompiamo le cose
ma è per imparare e costruire
resilienza il punto è farlo in a
modo molto controllato in modo che sei
attualmente non ha alcun impatto sul tuo cliente
in una popolare serie di drammi americani a casa
Kashfar c’è una citazione lì e io sono
prendendo in prestito quella citazione e davvero facendo
la mia ingegneria del caos non è la cosa giusta
ma è la cosa che ci porta a
resilienza il nostro obiettivo non è quello di
creare più caos ma usarne alcuni
controllare il caos per costruire la resilienza così
qual è il tuo obiettivo, il tuo obiettivo può
essere per una maggiore disponibilità quindi aggiungere un
nove extra al tuo servizio
forse questa scala supporta clienti più grandi
carico o in condizioni di fallimento voi
voglio un recupero più veloce, ma è
importante che tu tenga d’occhio il
Il premio sarà guidato dalla missione in modo che tu lo sappia
il tuo obiettivo prima che tu lo capisca davvero
nell’ingegneria del caos ora sto andando a
chiama perché la resilienza conta e alcuni
alcune motivazioni dietro i tempi morti
sono incredibilmente costose coppie di compagnie aeree
Delta Airlines e inglesi
Airways hanno entrambi avuto un guasto nel
passato
e ognuno di questi incidenti costa al
compagnia oltre cento milioni di dollari
per gli ingegneri quello che vuoi fare sei tu
vuoi innovare vuoi muoverti velocemente
ma come stai andando in grado di muoversi
veloce quando sei sempre interrotto
fare alcuni di questi lavori reattivi e per
i giovani chiamano le persone e vengono pagati
tutto il tempo va bene c’è così tanto
pagine in corso e tutto ciò che il
cosa è che tutti dicono che sono importanti
quindi quello che succede è quando sono tutti
le persone importanti in realtà mancano le pagine in
il passato perché sono tutti importanti
di quale ti prendi cura di e
c’è la temuta pagina 3 am sai
che devi svegliare per nessuno
Mi piace che queste siano tutte le motivazioni
dietro perché vuoi costruire resilienza
cool tu capisci il tuo obiettivo e
vuoi iniziare a costruire la resilienza di
correre alcuni giorni di gioco quindi diamo
iniziato
vieni in questo mondo di caos
ingegneria inizi il tuo viaggio
sei al livello uno sei quel tizio o
dudette per la femmina nella stanza
sei desideroso di iniziare
Il primo problema si è volto intenzione è
da dove comincio , in realtà c’è molto
di opzioni ci sono un sacco di cose
può fare dove vai ora
sei pompato e desideroso di assumere il
sfida e sai che ce ne sono alcuni
mostri davvero grandi in agguato
il tuo sistema questa è questa sfida
in realtà piuttosto immenso il tuo livello uno
e alcuni di questi mostri sono lì
oltre il livello 80 quindi sono grandi capi
per fortuna dovresti avere un po ‘di buon senso
dove stanno questi grandi mostri
il tuo sistema la sfida da scalare
sembra davvero più come questo dove
siete i piccoli ragazzi nel mezzo e
hai questi enormi mostri che sono
intorno a te ora che ancora non scoraggia
alcune persone in particolare la gestione di loro
vogliono comunque
o potenzialmente vuoi che tu combatta quelli
Big Boss subito e allora cosa succede
è il risultato come potrebbe aver indovinato
è che quei grandi capi fanno uno swipe
a te e questo è tutto
oops non è divertente e perché non lo è
divertente, allora non stai ricevendo
in qualunque posto
ti fermi nel gioco ti fermi a destra
non è ciò che vogliamo e allo stesso modo
nel mondo dell’ingegneria del caos, giusto
le persone hanno un obiettivo davvero ambizioso e
vogliono tuffarsi proprio dentro e il primo
cosa a cui pensare è facciamo attivo
attivo
facciamo multi regione, sì, sì
getterò alcune cose pazze dentro
ci sto per gettare tutto il
le parole d’ordine abilitate AI facciamo un po ‘di magia
sistema di recupero facciamo anche buttare
blockchain in là e fare alcuni a livello globale
richiede segnalini che non conosco ma in realtà
quello che vuoi chiedere è proprio ora
oggi è questo momento se uno dei tuoi
i sistemi o gli host critici possono scendere
tu gestisci quello che sai cosa succederà
accadere
quindi direi di iniziare al tuo livello di partenza
facile e progredire da lì iniziare
con qualcosa di piccolo appropriato e
pensieroso cosa piace cosa succede se tu
basta portare giù un host critico e vedere
ciò che accade va bene l’avete ottenuto
inizia piccolo impara le basi muoviamoci
durante il tuo viaggio
e puoi iniziare a livellare da solo
ti avvicini al livello 99 di
te stesso o perché non fare questo viaggio a
molto più divertente molto più divertente di
avere amici e avere alleati così è
molto più divertente è molto di più
efficace quando hai una squadra che vuoi
un guaritore conosci qualche maga o qualcuno
carri armati
tutti danno qualcosa
diverso dal tavolo che hanno
competenze diverse potrebbe sembrare banale
ma tu hai sentito questo prima di te
sapere tutto è maggiore della somma delle
le sue parti o quell’acronimo della squadra insieme
ognuno ottiene di più
è vero ora è più divertente per un caos
festa a proposito festa puoi prenderla a
senso letterale in quello che abbiamo
una festa giusta puoi portare negli alimenti
portare le bevande hanno un tema renderlo divertente
perché non ora in termini di persone che
sono coinvolti ne vorresti sicuramente qualcuno
allineamento esecutivo che vuoi un anziano
membri per la supervisione e l’ allineamento
vuoi anche degli esperti, gli esperti
Saranno in grado di inventare il
esperimenti che alla fine si riallacciano a
gli obiettivi che ora non hai
dimentica che puoi anche portare in
nuovi assunti e stagisti perché loro
spesso vengono con nuove prospettive e nuove
idee e non è solo circa
ingegneria – non aver paura di entrare
alcune delle altre unità di business come
le vendite come la finanza di marketing, perché chiedi
loro a cosa importa e come quando
hai sistemi che vanno giù per quanto affetti
loro cosa devono fare e cosa loro
preoccuparsi di portare le persone in questo modo
che ora puoi ottenere più prospettive
puoi sicuramente giocare molto
giochi che conosci League of Legends Call of
Dovere di overwatch per ora puoi giocare a tutti
questi giochi e essere da soli e correre
in giro e fai le tue cose, ma tu sei
non arriverò così lontano che non lo è
sarà davvero così divertente, davvero
vuoi trovare i tuoi compagni dalla tua
la gilda è più semplice ed è più divertente
grande forma la tua festa ora dove si fa
inizia tu
che tipo di ambiente dovresti eseguire
i giorni di gioco in non sempre creano il caos
ma quando lo faccio lo faccio con orgoglio, si, bene
testare le frodi proprio così, scimmia del caos
Iniezione realmente divulgata
in produzione e 40 per quelli di voi
chi potrebbe non aver sentito parlare della scimmia del caos
La scimmia del caos è lo strumento open source di netflix
che va lì e di AWS
ambiente e termina in modo casuale
il loro post e lo hanno fatto in produzione
giusto così la scimmia del caos è molto popolare così
molte persone conoscono il caos
ingegneria dalla scimmia del caos e così via
pensano a correre il caos dentro
prodotto che sta andando a taglia di qualche
le persone suggeriscono di eseguire tutto in prod
Direi di no non essere quel ragazzo che non sono
necessariamente dicendo non mai farlo in
prod, ma devi essere molto premuroso
a proposito
non iniziare o farlo solo in prod
c’è un campo di allenamento e c’è un
campo di battaglia in cui non devi entrare
il campo di battaglia fin da subito si
sicuramente voglio andare in allenamento
Test a terra alcuni del vostro gioco strumenti
in giro con esso, afferra le tue armi
e prova il tuo obiettivo per conoscere gli strumenti
sparare alcuni giri per sentire il richiamo così
che capisci gli strumenti ora il
La cosa è però se rimani sempre
nel campo di allenamento puoi essere il
perfetto in assoluto sai meglio il combattente
nel mondo nei campi di allenamento tutti
proprio tu puoi avere l’obiettivo perfetto ogni
punto morto nel terreno di allenamento quindi
che cosa va bene, che bene puoi?
sii il miglior combattente ma se non lo fai
mai andare sul campo di battaglia quindi se tu
ricorda che prob è davvero l’unico
ambiente che conta così il
la raccomandazione qui sarebbe di esercitarsi
e per imparare nel tuo ambiente di sceneggiatura
ma quando sei pronto, fallo
sperimenta per produrlo per essere reale
quindi conosci il tuo obiettivo hai ottenuto il tuo
festa in corso
si inizia nella stadiazione rendiamolo
la struttura di gioco di un giorno di gioco
è in genere da tre a cinque esperimenti
e per ognuno di questi esperimenti sei
iniettando alcuni guasti li chiamiamo
attacchi così al fine di eseguire un giorno di gioco
avrai bisogno di alcuni esperimenti ora
come vieni con questi
esperimenti che non siamo in realtà
uno di questi moduli di esperimento per aiutare
ti guidi a progettare un esperimento
ma è ancora un mucchio di scatole che sei
probabilmente starà fissando il modulo
cos’altro possiamo fare per pensare a questi
esperimenti chiedere un paio di domande che
può guardare oltre che guardare
all’indietro si guarda indietro e si chiede il
domanda di sapere che cosa è andato storto nella
passato guarda le interruzioni che hai avuto
non dirmi mai il tuo sistema
va giù abbiamo già affrontato questo in
l’ inizio quindi se hai interruzioni
il passato lo vuoi ricreare tu
voglio convalidare che ora puoi gestire
quella stessa situazione non fallisce mai lo stesso
due volte e poi vuoi guardare
inoltrare cosa potrebbe andare storto inizio
pensando a qualche interruzione che potrebbe
capita e cerca di anticiparli
ognuno di questi esperimenti prendiamo un
approccio abbastanza scientifico e ci piace
a lavorare a ritroso dalla situazione che si
voglio iniziare a ipotizzare il risultato
in base allo scenario di errore e quindi
vuoi eseguire qualche esperimento che desideri
per applicarlo in modo tale da iniziare in modo equo
piccolo in modo da poterlo minimizzare
raggio di esplosione e poi quando hai
risultati che conosci passando o fallendo
dipende da cosa succede se falliscono
vuoi sistemarlo
e poi vuoi ripetere questo e
conferma di averlo corretto e se lo ha
passato si desidera avviare la composizione in su
ed esegui più esperimenti c’è a
fase molto importante in questo diagramma
chiamare e questo è l’annullamento
condizione ricordo prima ho citato
su come diventare reale nella produzione e nel
l’obiettivo che abbiamo qui è quello di imparare e
costruire resilienza e non realmente
costa il dolore del cliente così quando sei
correndo in produzione tu sicuramente
voglio definire queste condizioni di annullamento così
che se le cose effettivamente vanno a sud se
in realtà ci sono brutte sorprese che puoi
interrompere quell’esperimento in qualsiasi momento
tempo ho menzionato scoping e esplosione
raggio un paio di volte scaviamo dentro
un po ‘di più e ciò che intendo per
la valutazione di questi attacchi dipende dal tuo
attacco ci sono diversi vettori e
effetti diversi quindi vuoi pensare
a riguardo proprio come tu sai che io
sfera in alto lì
è una linea retta che è quella
tipo di attacco e tipo diverso di
l’attacco è quell’attacco circolare sotto
dove stai influenzando una certa area così
davvero non vuoi sapere che tipo di
attacco che stai facendo e di cosa si tratta
andando avanti in termini di creazione di questi
attacca un esempio più pratico in
ingegneria del caos nell’ingegneria del caos
per esempio è quello di iniettare la latenza in questo
grafico l’ asse verticale è su come
molta latenza che si vuole iniettare al
l’ambiente e l’ asse orizzontale è
su quanti della casa o
percentuale di host che desideri applicare
questo impatto per me è ovvio che lo sono
andando a chiamarlo comunque non iniziare
nell’angolo in alto a destra c’è
non va bene se si lancia una granata
launcher e fai esplodere tutto perché
non lo imparerai davvero
molto da iniziare in basso
angolo a sinistra
è molto piccola piccola regolazione controllata
un po ‘di latenza e pochi
ospita e guarda cosa succede ora
alla fine vorresti chiamare
si vuole andare a quella in alto a destra
angolo della mano in modo che i vostri sistemi possono
tollerare e resistere a questi maggiori
condizioni di errore del sistema quindi tu
sicuramente voglio chiamare ma
esistono in realtà diversi modi di camminare
fino a che in alto a destra quello
posso dire è che si può salire
verticalmente a destra e cosa significa questo
quanto grande è l’impatto che stai applicando
a quelle poche case da 200
millisecondi a forse un secondo o come
puoi anche comporre orizzontalmente come
molto diffuso hai questo problema ?
ce l’ho solo su alcuni host e parziali
della tua flotta o dell’intera flotta ora
ci sono altri fattori da considerare come
bene questo è un vettore due ma c’è
in realtà più vettori che puoi
pensa a tempo come a quanto tempo
quel problema dura davvero è
qualcosa che è un jitter che è solo un
minuto o se è qualcosa che è
l’ultima gonna 10 30 minuti, ma in ultima analisi,
il concetto alla base di questo è solo per iniziare
piccolo inizio in quella in basso a sinistra
angolo e poi come sei pronto pensa
su diversi modi per chiamare alla grande
ora abbiamo parlato di come puoi avere portata
un esperimento e anche prima di arrivare
ogni ulteriore dubbio che hai qualche intelligente
le persone nella stanza che diranno loro
So esattamente cosa succedera ‘oh fare
loro fanno un esercizio
Mi rendo conto che siamo in Germania così
questo può essere un argomento delicato ma fatti
sono fatti ed è successo quindi prendiamolo
uno sguardo ai Mondiali di quest’anno a
il diritto sono tre partite che accadono
durante la Coppa del Mondo quindi chi pensi
ha vinto le partite più sicuramente
aspettarsi che Spagna e Germania vincano perché
sono i favoriti che sono davvero
buone squadre di calcio ora questi sono i
risultati effettivi di quelli da quelli
le partite potrebbero accadere e lo fanno
capita così non è sempre prevedibile
ora sapendo questo ti posso chiedere di nuovo
anche se sai quale squadra vincerà
se questa partita dovesse essere giocata di nuovo, io
voglio dire che perfetto può accadere
ma succedono piuttosto raramente in Street
Combattente per esempio quello leggero pugno
jab luce rovinerà la vostra perfetta che
puzza ma quello che hai fatto è che hai
imparato ora lo sai meglio un po ‘
più su quella spaziatura quindi la chiave qui
è più giochi più più sei
imparando ora così qualcuno te lo dice
sanno che sono sicuri al 50% di essere 80%
certo o sono sicuri al 99% ma perché
si ottiene che possiamo fare ancora meglio , siamo un
cento per cento sicuro e basta
vedere cosa è successo e sperimentando
così bene lo scoprirò da solo
giusto provalo a te stesso e provalo
ad altri che ora sai di avere
alcuni scenari mappati puoi pensare
su diversi scenari di fallimento come
host che va via
oi servizi sono lenti o semplicemente no
ruotando così e tu li mapperai per attaccare
quindi queste sono le cose che puoi
iniettare per causare il fallimento che puoi
termina l’ host puoi consumare la CPU
può riempire questo è possibile iniettare l’ attesa e
guarda ora che hai una lista di attacchi
la domanda che hai allora è come si fa
facilmente creare questi attacchi così davvero
credere nell’uso dello strumento giusto per il
lavoro come se non hai intenzione di andare a usare una mano
granata, quando il tuo nemico è proprio nel
Davanti a te giusto e tu non lo farai
getta un coltello quando il tuo nemico è davvero
molto lontano , non è così
lavora così vuoi afferrare il tuo fucile
quando i tuoi nemici si chiudono e prendono un cecchino
fucile e il tuo nemico è lontano così tu
voglio davvero equipaggiarti con il
strumenti che sono disponibili sono un mucchio
di strumento open-source per il caos
ingegneria per iniziare come
scimmia del caos ora anche un po ‘di pubblicità
strumenti che possono aiutarti a fare di più
più veloce come il gremlin
hai progettato i tuoi esperimenti
capire alcuni strumenti e sei a conoscenza
per eseguire l’esperimento, aspetta cosa sei
effettivamente guarderò qualcuno
parla un po ‘ di osservabilità
e cosa può fare per te
in molti giochi di strategia in tempo reale che
avere il concetto di nebbia di guerra e cosa
che significa è a meno che non avete il vostro
unità in quella posizione in realtà non è possibile
guarda cosa sta succedendo lì intorno ora
quelli di voi che giocano prima a questi giochi
si sa che, cercando in una mappa che
fa un mondo di differenza se tu
confronta i due screenshot qui con te
solo vedere quel piccolo angolo e il
altri vedi l’intera mappa fa un grande
differenza per i giocatori perché quando
puoi vedere cosa ti sta facendo il nemico
puoi controbattere che puoi
Strategizza quando sai cosa sta succedendo
altrimenti quello che stai facendo sei tu
solo indovinando nel buio non hai
idea cosa sta succedendo
osservabilità così osservabile ti consente
per ottenere chiarezza e poi strategie
di conseguenza qualcuno dice che questo è un
prerequisito per l’ingegneria del caos e per
in qualche misura è vero che è un
prerequisito per il monitoraggio
Per iniziare il caos duraturo perché
sarà più efficace ma è così
non un prerequisito per avere perfetto
monitorare un sacco di persone sono appese
su quello che aiutano oh il mio monitor non lo è
abbastanza buono quindi non posso farlo ma
qualcosa a cui pensare è questo caos
gli esperimenti in realtà possono aiutarti
migliorare il tuo monitoraggio e ci sono
un sacco di prodotti osservabilità nel
industria quindi trova quello che funziona per te
e quindi puoi iniziare
ora dopo aver eseguito un esperimento come si fa
in effetti determini ciò che passa
ciò che sento ho toccato brevemente
quello prima nel diagramma di passaggio
e sentimenti ma che cosa fa davvero
significa che guardi la forma che abbiamo
lì ci sono in realtà due scatole lì
ipotesi e risultati corrispondono
sei in grado di gestire quell’errore e lo è
corrispondenza e cosa ti aspetti se è
è fantastico che tu abbia passato davvero
automatizzare e mantenere che da da
comportarsi diversamente ora se fallisce se
non è quello che ti aspettavi e ovviamente
la cosa che fai è migliorarla per risolvere il problema
e quindi per rieseguire questa chiave qui
anche se sta fallendo va bene perché tu
può perdere una battaglia, ma vincere la guerra
quando giochi a questi giochi probabilmente
perdere alcuni giochi, giusto non lo farai
essere imbattuto e vincere ogni singola partita
ma quando perdi la tua battaglia, fallo
smetti di giocare ora non tieni
giocando così più giochi più
a volte stai livellando
sentirà ancora come una macinazione ma cosa
non ti rendi conto che lo sei
stai gradualmente maturando
l’esecuzione di attacchi manuali pianifica
alcuni di questi attacchi in modo che tu possa
esercitali regolarmente, stai iniettando
caos e aggiungendolo alla tua pipeline
giusto iniettando e aggiungendolo a
la tua pipeline di CD CI in modo che questo agisca come
più di un test di regressione per
la resilienza sale sul campo di battaglia a destra
quando lo hai abbottonato nella stadiazione
facciamo alcuni di questi piccoli
esperimenti in prod o go e sperimentare
qualcosa di nuovo c’è sempre qualcosa
nuova che si può sperimentare su
anche la giornata di gioco non è un gioco da ragazzi
evento che è un grosso problema con un sacco di
la dr.ssa di oggi prevede affari ininterrotti
piani di continente lo fanno una volta
seleziona la casella di controllo ed è fatto
non è efficace perché nel corso dell’anno
le cose cambiano quindi è assolutamente necessario
esercitare regolarmente in modo da pianificare
per quel giorno di gioco successivo e non essere
compiacente perché hai finito con uno
giornata di gioco sempre c’è sempre di nuovo
snooze i problemi che possono emergere
ricorda quegli obiettivi che avevi
all’inizio del discorso non lo saranno
raggiunto domani
devi effettivamente monitorare e misurare
straordinari, quindi sicuramente vuoi correre
questi giorni di gioco si esercitano regolarmente
i risultati delle prove pratiche potrebbero non essere visualizzati
domani ma se continui a praticare I
garantisci che migliorerai
tempo
ora le aziende hanno spesso
ambienti misti alcuni stanno facendo
server bare metal alcuni su VM e forse
nel cloud giusto e alcuni lavori sul
tecnologie davvero all’avanguardia e
fanno il calcolo dei server eccellente
qualcuno potrebbe dire che servizio
Non ho bisogno di caos ora questo è ciò che il
l’utente vede solo vedere ritardi o errori
sono il know not gonna o si preoccupano
se si esegue su liste di server o
server pieno diritto è l’utente
esperienza che conta
e se pensi che la lista dei server non possa fallire
dovresti davvero pensare
di nuovo senza server ti aiuta davvero a prendere
cura di alcune infrastrutture correlate
fallimenti ben realisticamente qualcun altro
si sta prendendo cura di questo, ma c’è ancora
molto di più nello stack che può fallire
le applicazioni sono abbastanza complicate oggi
in questi giorni si guarda in applicazione
sono davvero costituiti da una sorta di
edge right DNS alcuni CDN ne hai
bilanciamento del carico front-end alcune API
server e poi torni in alcuni
archivi di dati giusti se si tratta di a
elasticsearch o il mio sequel o dynamo o
hai flussi di dati di Kafka e
ovviamente ci sono tutti i tipi di
materiale infrastrutturale che va avanti
con esso giusto puoi eseguire kubernetes tu
sapere nei contenitori c’è un fisico
server o questo data center e tutti
queste cose possono andare storte così tu
in realtà dovrebbe essere il caos in tutti loro
in modo da poter creare fiducia ora
al di fuori della tecnologia non dimenticare l’umano
in realtà l’ingegneria del caos è davvero
buono per allenarti a pensare al fuoco
esercitazioni ci esercitiamo nell’esercitazione antincendio davvero a
Esercita quell’umano ma spara a Joe
naturalmente per bruciare l’ edificio
non stai cercando di bruciare entrambi
stessa cosa
ingegneria del caos che non stai provando
in realtà creano il caos ma puoi allenarti
l’umano così puoi rispolverare la tua corsa
libri e in realtà li praticano con
ingegneria del caos
ora mi piace anche cogliere questa opportunità
di condividere alcuni dei risultati della giornata di gioco
che ho avuto con alcuni dei clienti
Ho lavorato con questo è un equo
un’architettura semplice , proprio tu
avere un po ‘di front-end a parlare un po’ indietro
fine e il back-end
usa DynamoDB come archivio dati e
stanno chiedendo fondamentalmente cosa succede se
la connessione al database è finita
l’aspettativa è che si errori
hai un errore interno, quindi ottieni 500
restituito al front end cosa succede
quando effettivamente esercitano questo è quello
invece di un 500 hanno effettivamente un 404
indietro oops lo sappiamo tutti molto
molte persone potenzialmente ne mettono un po ‘
davvero fantastico per grafica giusta e
metti un po ‘di fold davvero divertente per la pagina ma
questo non è in realtà il momento giusto per
mostralo così stai solo mentendo
i tuoi utenti se pensi che sia un 404
invece di 500 è qualcosa che loro
ho imparato che questo è un altro scenario molto
spesso le persone ti consegnano un’eredità
app per mantenere prima di tutto avere un po ‘
una specie di diagramma che accompagna il tuo
l’ app legacy è incredibile perché la maggior parte
persone non hanno nemmeno ottenere che in questo momento in
che se ottieni un diagramma se lo sei
abbastanza fortunato da ottenere un diagramma di quello che
potrebbe vedere è una semplice freccia che sta raccontando
tu che c’è interazione tra
il tuo server web o app server al
database ora ne stanno iniettando alcuni
latenza che si conosce tra il server dell’app
e il database così l’aspettativa è
qualunque cosa iniettino l’utente ottiene il
quantità simile di ritardo ma che loro
scoprire è se si pensa che
connessione quella semplice freccia tra il
due componenti ci sono in realtà le letture
e
è e ci sono in realtà più letture
e alcuni diritti quindi quando si sta iniettando
una latenza a quella connessione cosa
succede è che c’è un ingrandimento
c’è amplificazione perché tu sei
Effettivamente facendo più chiamate e ciascuno
la chiamata ha quella latenza aggiuntiva così
questo li aiuta a capire meglio il
interazioni tra il server delle app e
server di database e così alla fine lo farà
aiutarli a trattare in modo efficace con loro
riprovare e il loro timeout e sintonizzarli
meglio di questo prossimo scenario
monitoraggio giusto posso vedere questo non posso
guarda così che loro stanno testando
possedere questo consumatore a un consumatore finale
applicazione giusta in fondo sono loro
le applicazioni afferrano un messaggio dalla tosse
stanno usando Kafka come coda di messaggi
quindi prendono un messaggio da Kafka e
richiedono alcune informazioni sul database
per elaborare il messaggio e così sono
chiedendo cosa succede se quella connessione
per cui il database è andato così è quello che
si aspettano dove quando loro
disconnesso dal database loro
guarda che le app non possono più inviare messaggi
per elaborare il messaggio in modo che il messaggio
viene rimesso dalla coda loro
non perdere alcun messaggio alla grande ma cosa
si rendono conto che anche se loro
può vedere che non sei stato in grado di
messaggio di processo non possono vederli
non avere visibilità su come è Kafka
facendo sicuramente in questo scenario
avere qualche contropressione e questo tu
avere quella stecca che sta lanciando e
supportato così quando non lo hai
visibilità su quanto velocemente Kafka fa la coda
è in crescita è possibile eseguire fuori di questo spazio
e altre cose brutte possono accadere, quindi cosa?
si rendono conto da un monitoraggio
prospettiva che in realtà non hanno
abbastanza visibilità nei loro potenti
grappolo
ora questo è solo loro sono giusti
entrare nel contenitore di riserva
sorgere i loro servizi e andare in micro
servizi e in genere quando fai micro
servizi che vuoi una sorta di
disaccoppiamento o accoppiamento lasco diritto
l’esperimento è a loro in realtà lavorando
su un orchestratore quindi fondamentalmente il
esperimento è uccidere un contenitore e
vedere se l’orchestratore può girarlo
di nuovo hanno portato giù il contenitore
e, naturalmente, si digita PS docker
e vedi cosa sta succedendo in quel contenitore
è tornato ai controlli di uptime
sono passati alcuni secondi ma poi loro
notare che c’è un paio di adiacenti
contenitore che ha anche questo tempo di attività di
solo un paio di secondi, quindi cosa?
è successo lì così l’hanno provato di nuovo
giusto provano ad uccidere di nuovo, facciamolo
ripetilo così è ripetibile dovrebbe
essere ripetibili ripetono che uccidono
lo stesso contenitore e loro lo notano
quando hanno ucciso quel contenitore il
altra coppia di contenitori adiacenti anche
Scese e tornò su così bene
la cosa è che l’orchestratore sta facendo cosa
che sta facendo se muore si torna su
ma poi quello che scoprono è quello
non sono davvero la coppia che c’è
ancora una sorta di accoppiamento in corso
tra quel contenitore e un paio di
altri che sono stati abbattuti
quindi devono indagare ulteriormente
e vedere cosa sta succedendo con quella
accoppiando ora se sei pensieroso
come pratichi l’ingegneria del caos è
non è così spaventoso in realtà è molto simile
giocare ai videogiochi è divertente così io
ti sfida a eseguire un esperimento
fallire qualcosa nel tuo ambiente di
Certo di farlo in modo sicuro e controllato
modo e poi dirci cosa hai
imparato una volta che inizio scommetto che non puoi
smetti di giocare
quindi prendi il controller e il gioco
grazie
[Applausi]

Please follow and like us: