Press "Enter" to skip to content

GOTO 2017 • How Prometheus Revolutionized Monitoring at SoundCloud • Björn Rabenstein


[Musica]
grazie
si chiama Production Engineering ma
ne stiamo sempre scherzando perché
l’ingegneria del prodotto è l’altra cosa
ed è sempre molto difficile ottenerlo
giusto quindi sono tutto in infrastrutture
SoundCloud spero che tu sappia cosa
SoundCloud è un suono del piede nella nuvola
purtroppo non sono così vicino alla musica che noi
sono di lato sono solo
l’infrastruttura ha fatto un sacco di cose
Prometeo, spero che tu sappia già cosa
il Prometeo potrebbe anche essere solo tu lo sai
quello che suona bene è perché lo sai
di Prometeo
Ho chiamato alcuni hanno la culla di
Prometeo perché abbiamo fatto la maggior parte del
sviluppo iniziale lì quattro anni
se hai contato potresti notare
che il grande annuncio di Prometeo
era il 2015, poi più avanti penso in seguito
anno abbiamo raggiunto 1,0 e proprio ora come
all’inizio di questo mese abbiamo pubblicato il
gloriosa versione 2.0 e poi persone
parlarne come uno e mezzo anno
dopo 1,0 e ora vedi quattro anni
questo perché Prometeo era iniziato e
non era strettamente non è stato avviato a
SoundCloud ma è stato avviato come animale domestico
progetto di matt e julius i due
fondatori del progetto ma poi più solidi
era la compagnia che aveva ottenuto
sviluppo iniziale e viste iniziali
ed è stato sempre aperto, così alcune persone pensano
è stato fatto come in segreto che non lo è
vero era sempre nello stesso di
auch dove lo puoi trovare oggi e di
Certo, ci è voluto un po ‘per essere pronto
produzione e come diciamo 2013 noi
l’ho usato per la prima volta per davvero
cose ma non era ancora pronto per
gettalo a tutti voi così è successo a
un po ‘più leggero ora è noto il Prometeo
abbastanza ma ora che non volevo
basta dare il prossimo discorso introduttivo
perché immagino che il 20 percento di voi sia
che già utilizzano o conoscere un po ‘su di esso
e sarebbe noioso dall’altra
mano questo non è un monitoraggio dedicato
conferenza o anche come prom mais a
conferenza ci sono circa
Prometheus così come solo dare qualcosa
super avanzato non lo farebbe
questo probabilmente non aiuterà molti di voi
quindi ho pensato di guardare indietro a come
quei quattro anni hanno cambiato il nostro modo di
monitoraggio e intendo la speranza è quella
avrai qualche ispirazione su come te
può fare cose nella tua stessa compagnia
organizzazione qualunque cosa vedrai
qualche somiglianza con i problemi che corri
dentro e poi si potrebbe avere un’idea se
qualcosa come il Prometeo è per te
anche altre cose di cui parlerò
perché non è solo così Prometheus
iniziamo un po ‘di pensiero è circa dieci
anni ormai
piuttosto precisamente dieci anni credo di livello
zero nessun monitoraggio è ciò che molti
la gente ha ragione, intendo che è triste ma
a volte semplicemente non hai tempo è
di solito è una brutta cosa non averne
monitoraggio ma immagino che sia il
predefinito e anche se non lo fai
monitoraggio siete ancora voi siete
ancora monitorato naturalmente per te
utenti o i tuoi clienti e lo faranno
lamentarsi se sei fortunato si lamentano
a te, ma la maggior parte del tempo che usano
questo uccellino e tweet al
mondo che sono insoddisfatti del tuo
servizio così Twitter è in realtà una bella
buon strumento di monitoraggio in un modo che conosco
aziende che hanno script automatici se
alcune frasi appaiono su Twitter
suggerisce che il loro sito sia inattivo
ottenere paging non abbiamo che ma abbiamo
questa piccola sezione nel nostro post mortem
forma così facciamo questo in ogni post-moderno
chiediamo al nostro team di comunità di avere utenti
hanno twittato su di esso hanno scritto
email a volte sappiamo che c’è
un’interruzione ha messo una pagina di aiuto sul nostro
sistema di aiuto allora noi controlliamo come
molti utenti hanno usato quella pagina in questo modo
è davvero buono perché ottieni un
feedback del mondo reale ogni postmoderno
processo di qualcosa che sta affrontando l’utente
dovrebbe avere questa sezione lo sai
forse questa enorme interruzione che tutto il tuo
i sistemi di monitoraggio vi stavano portando via
non avevo un tale te
in effetti e questo va bene così
potrebbe essere intendo che potrebbe essere il tuo
il sistema di monitoraggio è ipersensibile
potrebbe anche essere il tuo rischio davvero buono
degradazione elegante non si può avere un
decisione informata a riguardo ma anche
l’opposto accade sempre
avete notato nulla, ma internamente
gli utenti si lamentavano da settimane quindi
tutto questo è molto buono per averne un po ‘
calibrazione okay ma parliamo di
sistemi di monitoraggio non solo utenti
twittando su di noi
livello uno, ovviamente credo che la maggior parte di voi
ha attraversato che non è il tuo
diciamo sette anni fa più o meno
se vuoi un monitoraggio open source
questo è il gold standard che c’è
AI senior ora ce ne sono anche altri
sistemi che sono più moderni ma sono
essenzialmente iterazioni su Nagios I
cantante ho appena messo questo qui come il
segnaposto per tutti questi in
pratica stiamo usando un suono di sigaretta
su ancora lo stiamo usando è così difficile da
sbarazzarsi dei sistemi legacy che sono stati
stabilito a volte è anche no
ne vale la pena di sbarazzarsi di loro questo è un
storia diversa quindi è quello che succede
prima sembra che se guardi
questo è il cantante, questo è davvero carino
screenshot recente per dimostrare che siamo
ancora usandolo e questo è questo è il
la prima cosa che mi viene in mente è questa
tutto sugli host guardi uno specifico
casa e adios suonano la loro casa se
quella casa fa un gran rumore, poi corre
altri controlli ci sono un sacco di plugin
Nagas è molto versatile può farlo
ha questo NR PE
Ambiente di elaborazione remota Nagios o
qualcosa che non so nemmeno esattamente cosa
l’acronimo significa ma è carino
fantastico perché ora puoi andare a mandare
qualcosa per la casa e poi sul
casa può gestire le cose e questo è molto
flessibile puoi fare quasi tutto e
vedi che controlliamo le statistiche D che è
un altro sistema di monitoraggio ed è
controllando per n Vs sì, stiamo ancora usando
NFS quindi le cose sono spaventose qui, ma questo è
bella ragione o originariamente c’erano
molto più controlli per esempio quanto è figo
Questo
tutte quelle cose quindi il problema che noi
avevo con ciò intendo molti problemi
ma quello più ovvio era questo
tutti orientati verso l’host ma ad un certo punto tu
stiamo parlando di sistemi distribuiti così
hai letteralmente migliaia di host
e più alcuni di loro sono sempre bassi
ed è un po ‘ che non è un avviso
condizione che è la vita normale, io
significa che devi trattare con loro ma tu
non voglio svegliare qualcuno e a
il servizio è distribuito è progettato per
tollerare che una casa è giù tutto il
tempo e questo è tutto ciò che non sente
giusto e in pratica crea molto
di problema quindi nagas intendo che hanno
sviluppato molto è molto maturo
sistema quindi c’è la cosa come il cluster
controlli
questo è esattamente sul cluster
servizi distribuiti così stavamo usando
anche quello, ma c’è anche questo
cosa interessante quindi qual è l’host
qui l’ host è chiamato goal-linked
redirector che è un servizio interno
non importa l’ho appena scelto perché
è entrato nel nome come il
conferenza quindi questo è tornato da molti
istanze che girano su qualche cluster lo faremo
ne parliamo più tardi e l’ospite è
stato grigio in sospeso quindi nessun controllo ma
c’è un servizio su di esso, quindi è così
cosa fai o annuisci il tuo se lo hai
qualcosa a cui in realtà non è legato
un host si crea uno pseudo host e quindi
puoi ancora testarlo così vedi che questo è
tipo di sì non sembra giusto ma
ci sono alcune cose che la gente pensa
questo è sbagliato nei confronti di Nagas
in realtà non così male, quindi facciamo in fretta
parliamo che quella è molte persone
pensa questa intera idea che il
il server di monitoraggio va al monitor
obiettivo e recuperare alcune informazioni è
cattivo e fondamentalmente imperfetto e non lo fa
scalare ora se si sa nulla di
dal più semplice sai che i permessi sono
facendo esattamente la stessa cosa, naturalmente
recupera cose diverse ed è
tutto molto diverso ma questo strumento parte
monitoraggio basato che è esattamente ciò che
Prometeo fa e quando lo abbiamo creato
stavamo davvero pensando che questo è il
l’unico modo in cui puoi farlo e c’era un
un po ‘ di una lotta religiosa in merito
Pratica penso e penso di più
durante la comunità si è calmato un po ‘
in realtà non importa così tanto
mi piace davvero che tu abbia capito bene
certo, ma spingere o tirare può leggere molto
su quello su internet che non lo è
la domanda più importante qui così se
tu dici che non possiamo usare Nagas perché questo
tira le cose nel suo primo è sbagliato e
anche tu non potresti usare Prometheus
quindi l’altra cosa è tutta questa storia
a proposito di scatola nera contro scatola bianca
il monitoraggio potrebbe averlo sentito
il monitoraggio moderno deve essere una scatola bianca
ne parleremo più tardi ora no
il tuo è un po ‘nella scatola nera
monitoraggio del dominio ma penso che non lo sia
il mio concetto è più o bi è a
cosa culturale
il monitoraggio tradizionale era il
Ostacolare le persone dell’ops in compagnia
e hai avuto i non udenti e i sordi
la gente avrebbe buttato qualcosa sopra il
recinzione e quello che gettano oltre il recinto
dal punto di vista ops è una scatola nera
ecco il nostro prodotto
funziona per favore monitoralo così non puoi
fare qualsiasi altra cosa , ma come se stesse mandando
esamina e cerca di scoprire se
si comporta come una scatola bianca prevista
monitoraggio se non si sa che quel
è questo è un tipo di monitoraggio dove
si apre la scatola e si guarda in esso
e verifichi cosa sia in realtà
fare che di solito richiede la scatola a
cooperare in modo che tu possa strumentare il tuo codice
fornire metriche o hai in a
database hai alcune statistiche ti tabelle
può interrogare cose del genere e così
comporta morti che gli sviluppatori devono
essere preoccupato per il monitoraggio e questo è
una cosa strana in un separatore tradizionale
Ops e sforzo ma nella vita DevOps yeh
mondo è in realtà molto naturale e così
cos’hai fatto diventare piuttosto radicale?
tu corri approccio che è diventato di più
più elaborato cerco di vendere di solito
come stiamo usando attraverso DevOps
perché abbiamo solo persone che fanno entrambe le cose
non abbiamo che non abbiamo ops e
quello sforzo non è solo ottenere
nove più piacevolmente insieme
in realtà non hai Op dedicate
squadre ma storia diversa
così ora il tuo è una specie di scatola nera di
cultura ma questo insieme
La cosa NRP potrebbe totalmente fare whitefox
monitorando se vuoi farlo bene così
è l’unica cosa ma anche forse
il monitoraggio della blackbox non è poi così male
dopotutto
quindi ora ogni singolo dei miei discorsi
detto questo libro sono un fan intendo
ogni singola discussione da quando questo libro
è uscito ma ora è davvero sul
internet se non ne hai sentito parlare
se non l’hai letto e se corri
qualsiasi cosa di medie e grandi dimensioni sia necessaria
leggerlo
ovviamente sono di parte del mio Murphy era il mio
ultimo capo di Google quindi ora devo
ammetto che non ho lavorato per un SoundCloud
per sempre ma ero a questo diverso
società di Google prima come una parte
ingegnere dell’affidabilità lo hai detto giusto
hai rovinato la mia sorpresa comunque così loro
descrivere il mio lavoro so che la maggior parte del
persone che hanno scritto questo, ovviamente lo sono
prevenuto ma questo è vero oro non lo è
che dovresti semplicemente copiare Google perché
non sei Google per citare un popolare
post sul blog all’inizio di quest’anno è vero
non puoi copiare semplicemente Google credimi
abbiamo provato che la scheda audio aveva un mucchio di ex
Google come ragione hanno pensato che ora siamo
diventando più grande e più complesso andiamo
fai una scusa come se le porte di Google non lo facessero
lavoro ma puoi ancora imparare da Google
e la loro vasta esperienza con
tecnologia a cui stiamo ora iniziando
usa così decisamente quello e
hanno un sacco di cose su
monitoraggio e imparerai anche
qualcosa e questo è basato sui sintomi
avvisando che è il kool-aid così tu
tradizionalmente probabilmente non lo hai mai fatto
pensato a sintomi e corsi e
cosa allertare e questo è principalmente perché
in un mondo tradizionale sintomi e
i corsi sono più o meno gli stessi, quindi se io
avere una pila di agnello come Apache o
qualunque cosa torniamo agli anni ’90
e e il server non esegue il ping più
okay, questo è ciò che Nagas mi avvisa e
questo è il server in basso che è il
causa possibile di un’interruzione ma da allora
è il tuo unico server che serve il tuo
sito il tuo sito è anche giù è tutto il
lo stesso proprio al giorno d’oggi ce ne sono così tanti
cose che potrebbero andare storte qui o
distribuito complesso resiliente
auto-guarendo tutto il sistema di parole d’ordine così
Non so se se il database ha
una maggiore latenza è una pietra replica
forse questo è il problema, forse no
dovrei svegliare qualcuno così le cause sono
qualcosa di cui vuoi essere informato
durante le ore di lavoro per assicurarsi che il vostro
il sistema è nello stesso stato ma lo è
sicuramente non è qualcosa che vuoi
svegliare le persone perché poi lo faresti
svegliare la gente per tutto il tempo d’altro
mano il tuo sistema complesso ha così tanti
possibili cause non puoi nemmeno
anticipare ciò che potrebbero essere
succede che effettivamente causa un problema
i tuoi utenti o clienti, quindi quello che vuoi
per pagina persone su questo è ciò che chiamo
pagine e biglietti qui che vuoi pagina
persone sui sintomi in realtà che si verificano
o problemi imminenti se si dispone di un SLO
o anche SLA se hai un contratto
servizio con i tuoi clienti che servo
Il 99% dei miei Kure ha avuto successo in cento
millisecondi è fantastico perché
c’è un vero sistema di monitoraggio tu
puoi avvisarti esattamente che puoi svegliare
qualcuno su e dì loro che ascoltiamo
non adempiendo al nostro contratto
requisito sveglia
aggiustalo bene , questa è un’ottima cosa
e quello prende tutte le possibili cause
e non ti sveglia per il potenziale
costo che potrebbe non essere problematico a
nel momento in cui questo è l’ aiuto freddo e se
ci pensi, ecco cosa
il monitoraggio blackbox è giusto per te
invia le sonde dall’esterno al tuo
sistema e se si ottiene la risposta prevista
tutto è bello, gli utenti sono felici
i clienti sono felici così i soldi di blackbox sono
in realtà piuttosto buono per questo super cool
monitoraggio moderno delle cose blackbox
il padre-in è questo che vogliamo, così è
a volte i miei discorsi sono come una Bibbia
leggendo club o qualcosa del genere perché poi io
apri una citazione dal Blue Book Oh
basso contrasto qui bene proverò a leggere
quindi leggiamo di questo e facciamo
pensa che cosa stia facendo Google intendo
non li copi ma tu vuoi
impara da loro così Google sta facendo il
seguendo uniamo l’uso pesante del bianco
monitoraggio della scatola
oh no questo modesto utenti critici
di black box monitorando il modo più semplice
pensare al monitoraggio della scatola nera
contro il monitoraggio della scatola bianca è così
il monitoraggio della scatola nera è sintomo o
Internet e rappresenta non attivo
problemi previsti
buono per il monitoraggio della casella nera cercapersone ha
il vantaggio principale di forzare la disciplina a
solo Nakki umano quando un problema è entrambi
già in corso e contribuendo al reale
sintomi d’altra parte per non ancora
accadendo ma problemi imminenti neri
il monitoraggio della scatola è abbastanza inutile, quindi questo
è il grande downer proprio così se vuoi
per avvisare su qualcosa che sarà sicuro
accadrà se nessuno interverrà a questo
non è ancora successo, è il caso migliore
giusto e questo è difficile con il nero
il monitoraggio della scatola c’è anche intendo se
hai letto nel libro ci sono di più
cose questo è il mio piccolo focus sulle cose
e forse un po ‘il mio personale proposito
quindi perché questa scatola nera di monitoraggio come noi
andato su e giù sulle montagne russe nero
scatole vecchio tutto poi ti rendi conto che lo è
in realtà abbastanza buono per l’allerta moderna
ma perché è ancora non sufficiente in modo
e questa è l’unica cosa che provi
non il vero traffico degli utenti, quindi ovviamente lo facciamo
il nostro suono ne parleremo più tardi
facciamo un sacco di scatole nere che si stanno dimostrando
per misurare la nostra disponibilità così giochiamo a
traccia di riferimento è noioso è
probabilmente solo rumore o bip o altro
ora immaginare qualche pista prosegue virale
SoundCloud milioni di utenti vogliono
ascoltare quella canzone e poi la s3
il secchio viene sovraccaricato da quella traccia
si trova non dicendo che in realtà
funziona così ma puoi immaginare
quella traccia diventa milioni inaccessibili
di persone nel mondo sono infelici, ma
la nostra noiosa traccia di riferimento suona proprio
bene e il nostro manager della scatola nera mi dice
sei così questo è un vero problema perché
Sì, il traffico degli utenti potrebbe essere diverso
un’altra cosa è la latenza della coda lunga
se intendi probabilmente tutti voi avete
ho sentito uno di quei discorsi molto eccitati
dove la gente improvvisamente si rende conto di cosa piace
i grandi negozi come Google lo sanno da molto tempo
tempo di latenza a coda lunga nel complesso
architettura distribuita di micro-servizi
multi-tier qualunque sia il sistema in realtà
importante a cui puoi progettare il tuo sistema
evitare di colpire la lunga coda ma poi
ci stai già pensando ma tu
vuoi assolutamente sapere del tuo
la luce della coda lunga e vede quello significa che è
non sufficiente per conoscere la mediana o la media
sguardo di latenza
vicino alle liste dei versi verso il 90 °
percentile 99 ° percentile 99,9%
forse anche questo è molto importante e
ora fare i conti quanti sonde faccio
ho bisogno di scoprire il mio 99,9 percento, lo farò
Ho bisogno di migliaia di sonde e il più lento
uno è quello con un sacco di vista come
incertezza statistica quante volte può
sondate ogni minuto ogni cinque
minuti mille sonde che incontra come
eternamente finché non conosco sempre il mio 99,9%
sondare così è davvero quando voglio
apri la scatola e chiedi al file binario, quindi cosa
pensi che sia la tua latenza il binario
potrebbe mentirmi ma ottengo ogni singolo
richiesta che ho potuto fare anche io
cose fantasiose come posso chiedere in un
sistema multi-livello che posso chiedere al fronte
fine qui quindi cosa ne pensi è il
latenza del tuo back end perché è così
in realtà non diventerai vivo e giusto
la frontiera ti dirà di sì
la fine serve tutto nel martello
millisecondi o come ogni centinaia
richiesta ha un secondo o qualcosa che
è ancora un monitoraggio casella bianca perché
devi ispezionare uno di questi livelli
ma è un po ‘come lanciare questo vero utente
traffico che è anche abbastanza buono solo tu
ottenere questo con monitoraggio casella bianca e
allora questa è la cosa più grande che ancora
bisogno di investigare sui corsi quindi se tu
ottenere un buon avviso basato sui sintomi, potrebbe essere
basato su scatola nera o scatola bianca
monitoraggio e ti dice che qualcosa è
rotto gli utenti sono infelici e il tuo
il sistema è super complesso, quindi va bene
sistemalo bene ma cosa sta effettivamente succedendo
sbagliato e questo è davvero difficile e questo è
dove hai bisogno di più di un semplice avviso
avete bisogno di qualcosa alcuni mezzi per
indagare su cosa sta andando storto
e quello era un grosso problema a SoundCloud
quando siamo passati al microservizio e a tutti quelli
le cose vanno bene
vediamo rapidamente questo è il tocco
punto stiamo usando i punti di cattura per simili
sondaggio da tutto il mondo no
l’approvazione implicita è proprio quello che noi
capita di finire con te puoi fare abbastanza
cose complesse sì, è difficile
leggi ma comunque se l’hai mai usato
gatto telefono sai quelle e-mail così tu
può simulare piccole sessioni del browser
come un utente che va al SoundCloud
pagina di destinazione che suona una traccia e questo è
come misuriamo la nostra disponibilità su a
anno o oltre un quarto
è fantastico perché qui c’è molto
Sonde oltre un quarto e puoi davvero
conta quanti nono hai e tu
prendi quelle pagine se ti manchi
obiettivi ma vedi già questo ha un
lungo ritardo è molto rumoroso e intendo
è fantastico per i nostri obiettivi trimestrali di
disponibilità ma non è giusto se io
vogliono sapere nel giro di cinque minuti che
ora il mio latenza 99 ° percentile è male così
qui puoi vedere solo così concludiamo noi
bisogno di monitoraggio della scatola bianca è l’anno
2011 cosa facciamo con la mia scatola
il monitoraggio riprende la cosa più bella
dalle notizie degli hacker allora c’era
studiare in modo tale che in realtà non è così vecchio
rispetto a non tuo o non lo so
la tecnologia informatica in generale, quindi le statistiche
D è già una bella scatola bianca
monitorando lo strumento si codice voi
invia come se contassi le richieste che invii
fuori la tua latenza e ha implementazione
problemi usa UDP che è molto rischioso
quindi sembra che non abbiamo contato il 30% di
il nostro traffico e non ho notato anche così
ci sono come certe cose in come
implementazione pratica ma l’idea è
suona davvero anche il nostro lo costruisci
sei in esecuzione approccio fatto davvero
facile che gli sviluppatori abbiano capito, ok
inserisci quelle tre linee di codice a
contare le mie richieste e inviarle via
le statistiche D che vengono aggregate finiscono in
grafite che è un ibrido strano spesso
database serio in tempo e dashboard
costruttore ma questo è quello che abbiamo ottenuto come me
significa allora che poi quei cruscotto
sembra piuttosto stravagante, non male in un modo
erano i problemi
è aggregando un po ‘troppo simile
è molto difficile inchiodare le cose
ai singoli produttori perché la grafite
non è solo potente per quello che dovremmo
in realtà considera quali sono quelli diversi
cose di cui ho già parlato
monitoraggio è molte cose questo non è
Completa sono solo le cose che arrivano
mente adesso, quindi il monitoraggio è
osservando essenzialmente voglio fantasia
dashboard Voglio vedere cosa sta succedendo
con i miei sistemi quali sono le mie scienze della vita
ma sta anche esplorando
quindi se hai un’interruzione e se lo sei
fortunato è un problema previsto e
hai come un grafico per la latenza di
ogni singola replica di database che vedi
sono questo sporge questo è probabilmente
lento e creando problemi ma spesso di
Ovviamente i veri problemi ci sono
i problemi sono quelli che non hai
anticipato così eri seduto lì
il tuo – era bello per i tuoi utenti
infelice e cosa sta succedendo in quel momento
devi fare qualcosa di interattivo
esplorazione e X che è la grafite
combo è che puoi fare un po ‘come puoi
eseguire query graffi il tempo di grafite
database di serie per chiamarlo che Y ha a
linguaggio di query, ma è davvero difficile
fai domande che non hai pensato
riguardo a quando hai impostato la tua matrice loro
avere questa gerarchia come gerarchica
aggregazione aggregando l’altro modo
in giro è davvero difficile e anche quello che io
appena menzionato come solo pulizia
qualcosa di nuovo a una singola istanza di
il tuo 500 servizio istantaneo è davvero
difficile perché la grafite non ha
quella granularità quindi e quindi avvisare
questo è ciò che Nagas fa per noi, giusto
mi sveglia se qualcosa è veramente sbagliato
e le macchine hanno bisogno di me e questo è tutto
disconnesso ora come faccio a farlo
qualcosa come ho qualcosa su un
cruscotto dove vedo se questo grafico
sembra che voglio avere un avviso
come non gli anni sanno di questo diritto
e poi hai di nuovo te è molto
flessibilità di quei plugin dove tu
posso dire a Nagios di eseguire questa grafite
query e se il risultato è superiore a quello
soglia e mandami un avvertimento e se
è anche superiore a quella soglia mi ha mandato a
pagina puoi farlo ma è tutto
separato e si si tu vuoi questo
per essere più una cosa è tutto il monitoraggio
giusto e questo è ciò che si sente
disconnesso hai avvisi in a
universo diverso dall’esplorazione o
osservando e la parte esplorativa è
davvero il debole qui così abbiamo avuto minuscolo
cruscotti avevamo avvisi che erano
abbastanza rumoroso come e poi esplorando
tra non era davvero funzionante ed è stato
tutto molto separato e diverso e poi
tutto è diventato più complicato perché
di contenitore
quindi hai forse molte macchine
macchine virtuali e un fornitore di cloud
è già abbastanza brutto
ma poi i contenitori avvengono così oggigiorno
conosci tutti la finestra mobile e lo sai
orchestrazione dei contenitori ne eseguirai molti
di quei contenitori da qualche parte
Metto kubernetes e perché stiamo usando
è su Sound Cloud ed è molto carino
entrare nel mainstream è abbastanza
nuovo ma è basato su quei dieci anni di
Google esperienza Blue Book ecc
sono altri che non devi usare quello
è fondamentalmente lo stesso problema e
Sound Cloud usa contenitori prima della scuola
Voglio dire dopo Google, ovviamente, ma prima
era bello non c’era la finestra mobile
c’era alexey e abbiamo creato
in-house un’orchestrazione di container
cosa che si chiamava bazooka che e
Non mi piace perché non mi piace
armi ma non ho trovato un nome
comunque era come volevo dire che avevano
molti difetti e problemi di maturità ma
fondamentalmente questo è di prim’ordine che
era davvero un contenitore di piante infestanti
orchestrazione come i grandi e
le persone normali non avevano nemmeno la finestra mobile
perché non esistevano cose così fantastiche
ma poi ne hai migliaia e dieci
migliaia di contenitori fluttuanti
e ora tu stai monitorando
bersagli come un contenitore sei pari
più è ancora più difficile da trovare
dove il problema è così tutto diventa
più complicato e poi c’è questo
frase di nuovo dal capitolo 10 di cui abbiamo bisogno
sistemi di monitoraggio che ci consentono di
avviso per obiettivi di servizio di alto livello
questa è la cosa giusta da avere
avviso adeguato ma mantenere il
granularità per ispezionare i singoli
componenti se necessario si desidera sia e
questo è in una frase perché dovevamo
creare Prometeo perché c’era
niente nello spazio open source che
lo farei per noi
così di livello tre Prometeo questo è il
architettura ho detto che non ho intenzione di
dare una introduzione tecnica a
Prometeo Voglio concentrarmi su un punto
ecco come sono tutti i punti
collegato ora promette spesso che diciamo
Prometheus quando ci riferiamo attraverso
il Prometeo
che è la casella centrale , ma non è così
vero perché puoi controllare il
Prometheus github o ci sono dozzine di
repos ma poi ce ne sono tanti altri
che non sono nelle comunità Github
o se è un intero ecosistema sono molti
cose ed è anche molte idee e
concetti che è tutto Prometeo
Promethean pensa che abbiamo questo io
spesso usa quello e recensisci il codice come
questo non è molto prometeico, quindi è così
è più di un semplice binario che gira
come server di monitoraggio prima di tutto
ha librerie di strumentazione quindi tu
ottieni già aiuto per strumentare il tuo codice
simile a studiare non è davvero quello
difficile se hai superato la cultura
shock e non è nemmeno vero
rappresentato come hai quei lavori
esportatori qui negli esportatori d’angolo
sono come binari di colla se ne hai uno
sistema che non è strumentato ma
idealmente hai il tuo software tu
strumentalo e poi hai le metriche
quindi promette come raccoglierle
è come ora il tuo tira dentro le cose
ma tutto il resto è diverso
si tratta di stoccaggio e qui entriamo in
qualcosa che il database delle serie temporali
proprio come la grafite, così tu registri
quelle metriche nel tempo che hanno molto
di benefici non solo per il dashboarding
ma poi hai un linguaggio di espressione
da ql questo è molto potente
a volte confuso ed è usato per
tutto così tu lo usi per formulare a
query che riscalda i piedi tua dashboard
usalo per esplorare interattivamente te
più tardi e lo usi per formulare avvisi
è tutto lo stesso linguaggio tutto a
improvvisamente tutto ha senso, tutto è coerente
– popolare era da – allora è così
cosa abbiamo costruito a Souder perché lì
non era un costruttore di cruscotti adatto
legge anche da grafite così hai
i bei percorsi migratori al giorno d’oggi fanno crescere la fauna
è la cosa più calda in realtà non esiste
a quel tempo , la preminenza è totale
deprecato dovrebbe scomparire sul nostro web
pagina che è scomparsa dal
diagramma di architettura e Cortana ha
molte fonti di dati sono davvero grandiose
disegnare dashboard da tutti i tipi di fonti
ma Prometeo
è un manager molto popolare
prende tutti gli avvisi che sei un
il formulatore è di QLD li ingannano
parleranno più tardi e manda
li alla persona giusta che è
un’altra cosa giusta se stai avvisando
è come una cosa completamente separata
allora tutta la tua proprietà deve essere
ridefinito nuovamente nel sistema di allerta
quindi è anche qualcosa che l’area vuole di più
[Musica]
consolidamento questo è molto rapidamente solo
dimostra che ho sorvolato sul fatto che
stavamo usando più cose di Nagas
e iniziare a vedere la grafite così gangli
Immacolato intatto devia tutto ciò che non abbiamo mai
usato hipster e in Flex DB ma quello
sarebbe stato il passato se non avessimo avuto
promette ma ora usava i kubernetes o i nostri
propria piattaforma ma quando usiamo la copertura
lettere che avevano hipster in atto
perché avevano bisogno di una storia
monitoraggio e più tardi hanno imparato a conoscere
promette e ora sì, sei gentile
usa Prometeo se vuoi monitorare
kubernetes anche New Relic
è il rappresentante di esterno
fornitori di monitoraggio è qualcosa che noi
utilizzare piuttosto pesantemente appena fuori
disperazione perché l’esterno
il monitoraggio fornisce che sono abbastanza buoni
stanno facendo un buon lavoro in quello che sono
facendo e l’ open source on-premise
soluzione casa cresciuta qualunque cosa
non potrei davvero risolvere il tuo problema così
usi tutti quei fornitori e hai pagato
loro un sacco di soldi New Relic era solo
uno abbiamo pagato più soldi ma abbiamo avuto
più di questo è come sembra
oggi è così ovvio
consolidamento si utilizzano tutti i livelli o
cose con lo stesso sistema tutte con il
stesso linguaggio e poi bello
cruscotto con Cortana così che ci fosse
solo un sollievo, quindi ne parlo
questi fornitori di monitoraggio esterni
è abbastanza importante perché lo sono
facendo un buon lavoro e lo sono anche loro
in evoluzione e hai come New Relic e
proprietari di cani e souk di dati e così via
grandi cose ora ci sono situazioni
dove vuoi davvero che tu sia come
solo un piccolo negozio che non vuoi veramente
per accadere tutta la squadra che è dedicata
al monitoraggio o qualcosa del genere
ha senso dire che possiamo uscire
di quello a quel fornitore esterno e
stanno davvero avendo il loro diritto
know-how e tutto ma immagino che
molti come le medie imprese sono in
questo stato e sicuramente non erano quello
dichiari allora dove loro appena avevano no
scelta quindi non vogliamo ospitato
monitoraggio lo vogliamo su premessa come noi
ha avuto cose strane in cui abbiamo avuto un’interruzione
perché la nostra connessione internet esterna
era troppo lento e quindi alcuni servizi
ha iniziato a gettare un’eccezione che tutti noi
inviare a una pausa e quindi il nostro esterno
la connessione internet era anche neve
perché dobbiamo inviare così tanto
eccezioni a tutti come ci sono
cose in cui dici che non lo voglio, lo sono
abbastanza grande come se stessimo correndo anche a
bare-metal in seguito Centro perché dovremmo
ho il monitoraggio da qualche altra parte
inoltre è costoso e lo vedi
la linea tratteggiata è il nostro uso di esterni
monitorarlo è andato ancora di più
perché quello è l’ Onaga non era davvero
tiralo fuori e poi è successo Prometeo
quindi potremmo ridurlo al giorno d’oggi
la fiamma nera lì perché Prometeo
puoi anche fare sondaggi blackbox se tu
voglio davvero con le scatole nere per
quindi abbiamo ridotto molto e ora abbiamo
molto organicamente cresce molto ragionevole
uso di monitoraggio esterno per esempio
punto di cattura per i nostri simili esternamente
disponibilità percepita che totalmente
ha senso e questo è significativo come
siamo un negozio di cento ingegneri e io
Immagino che due di loro siano pagati con i soldi
risparmiamo non usando il monitoraggio esterno
fornitori più così questo è questo è
davvero un sacco di soldi che devi pagare
fai un monitoraggio serio, quindi prendi uno
nessun avallo implicava di nuovo questo
proprio quello che usiamo tipo di approvazione
implica la sua latenza, naturalmente, lo sono
di nuovo di parte perché pesce o Johannes
affondare chi gestisce questo è un ex
SoundCloud e anche un Prometeo
contributore e in sostanza ha detto ok
possiamo fare blackbox provandolo
Prometeo facciamolo solo a livello globale
con diversi pop e tutto e
e offrire questo come un servizio così qui sono
fuori sede all’interno per i tuoi locali
servizio di prima qualità quindi se si sta utilizzando
Prometeo e tu vuoi qualcosa di globale
sondare e combinare di nuovo tutto con
la stessa bella semantica coerente che
potrebbe essere qualcosa da guardare
sto iniziando a usare quella bella
okay interessante come siamo a tempo
okay, quello era il grande alto livello
panoramica Non sto facendo questo troppo
tecnico, ma solo per avere un’idea di come si
sembra più concreto andiamo e basta
attraverso lo stack rapidamente e vedere cosa
noi come facciamo monitorare ora così il primo
cosa è la strumentazione per la scatola bianca
monitoraggio vuoi che il tuo codice sia
strumentato puoi solo fare il
cosa classica usando la vaniglia
Librerie di strumentazione di Prometeo
questo è solo un esempio per go do not
guarda troppo in ogni singola riga ma
tu vedi la parte arancione che aggiungi
poche righe e poi ottieni un istogramma
per tutte le agenzie e conti il ​​tuo
diversi codici di stato vedi qualcosa
sulle etichette, tutto è etichettato e
Prometheus cui parleremo
dopo un po ‘ma poi abbiamo anche noi
qualcosa chiamato kit JVM così radicale
l’approccio di micro-servizio non condivide nulla
ogni squadra fa le proprie cose ma dentro
pratica che non vuoi che tu non lo faccia
vuoi essere troppo radicale per averne un po ‘
codice condiviso e ogni volta che lo fai
qualcosa sulla JVM che aggiunge suono
quasi significa Scala ma anche un altro
cose che abbiamo come la biblioteca o
quadro che ti aiuta a scrivere a
micro servizio e si chiama kit JVM
e questo ti fornisce le metriche di base
gratis in sostanza scrivi che un micro
il servizio con tale framework non funziona
per obiettivo perché non è JVM questo è
dove metto il codice di go sul lato sinistro
qui ma per la maggior parte dei nostri micro servizi
basta avere lo stesso insieme di metriche e
poi ne aggiungiamo alcuni in alto vediamo
Libreria Prometeo personalizzata
il tuo servizio, ma è piuttosto facile
è abbastanza facile ottenere tutti quelli
metriche nei tuoi servizi e poi questo
è la cosa migliore creare un interno
lo strumento lo rende open source dal
iniziando e assicurandosi che arrivi
il prossimo strumento di monitoraggio hipster perché
quando le persone si integreranno contro di esso così
usiamo la nascita di sed con i kuberneti
stiamo usando link Rd, naturalmente, tutti i CNC
progetti ma hanno tutti i kuberneti
hanno tutti promesso queste metriche
già costruito in ottime cose, giusto
theta usa il nostro strumento di monitoraggio e
puoi
usalo con i loro prodotti così è
implementazione più facile di quanto pensi
quindi la raccolta probabilmente è più difficile
di quanto tu pensi che abbiamo già detto che è
così difficile da trovare i tuoi obiettivi così
le persone spesso come frame promethease come
il sistema di monitoraggio di Kubernetes , ma in
pratica puoi usarlo per monitorare
tutto quindi non è come fuori
box lo metti qui nel tuo monitor
Canarini perché puoi anche monitorare
altre cose e misure e ec2 e
qualunque cosa tu voglia ma questo significa te
devi configurare il tuo uso particolare
caso e può diventare davvero complicato
perché è così flessibile e che cosa
la comunità di solito ne consiglia l’uso
tipo di gestione della configurazione se tu
c’è qualcosa di abbastanza complesso che c’è
anche cose come chiamate come operatori
questa è la cosa in cui puoi facilmente
eseguire determinate cose su Kubernetes e
lo hanno anche per Prometeo
dove diventa super facile per quello
caso d’uso particolare usiamo lo chef come
gestione della configurazione e per il nostro
gli sviluppatori sono davvero facili a sinistra
vedi che questo è per un PMO bene io il nostro
API mobile se lo distribuisci e tu
metti questa piccola cosa in un ruolo da chef
e poi magicamente controlla
tutto su Kubernetes su un PMO
bene il sistema e le cose cluster questi
sono già etichettati parlare di loro
in seguito, quindi, è completamente personalizzato, non lo è
predefinito abbiamo appena scelto di volere a
etichetta di sistema e poi Jeff genera
questo configura questo è proprio come
va avanti per le pagine
sembra davvero audace e dovresti
non scrivere questo a mano ma si, intendo
questo dipende molto dal tuo caso d’uso
ma tutto ciò ha a che fare con ciò che siamo
trovare cose su kubernetes timoni
verso tutte le dinamiche seguirà se
più contenitori vengono su e vanno giù e
kubernetes ha l’etichetta etichette di Prometeo
è così ovvio che dobbiamo ovviamente noi
devono abbinarli e otteniamo tutto il
etichette di freschezza in Prometeo così via
coronet come dici tu questo è il mio cellulare API
micro servizio e ha il sistema
livello un PMO bene così a me lo sa
dovrebbe monitorare tutto con quello
etichetta e ho messo tutte quelle etichette su
Metrix insieme ad altre etichette come
la versione è questa un canarino è questo
produzione e questo è se guardi
i server Prometheus ti guardano bene
vederlo ti dice degli obiettivi se
il tuo cellulare ha 200 cose in esecuzione
Kubernetes e tutte quelle etichette ottengono
magicamente attaccato una volta che sei attraverso
questo cerchio di configurazione è tutto
corrispondenza e bello e grande e poi
cruscotti questo è l’ onore del grafico e da allora
tutti i nostri servizi micro che stanno utilizzando un
La chiave della macchina virtuale aveva quei bei set di
le metriche puoi anche avere un generico
dashboard quindi questo è essenzialmente uno
dashboard che abbiamo per te scegli la tua
sistema e poi fine e componente e
traccia come tutte quelle cose che abbiamo
per trovare solo per noi perché fanno
senso per noi e puoi scegliere tutto
quelle cose è possibile confrontare la versione
al canarino se sta andando meglio
o peggio e questo è come senza
sviluppatore facendo qualcosa su a
servizio particolare, naturalmente se ne hai
metriche personalizzate per un servizio specifico
puoi anche creare i tuoi cruscotti personalizzati
ma questo è un cruscotto davvero significativo
si ottiene gratuitamente in attivo
esplorazione ho menzionato quanto sia importante
quello è a destra che vedi una parte di
l’interfaccia utente web del server Prometheus classica
dove puoi semplicemente hackerare da QL
query è così che abbiamo fatto
tradizionalmente ma l’ultimo co-fondatore
la versione ha il completamento automatico e tutto il resto
jazz nel piccolo campo di testo in cui tu
di solito basta incollare nel prompt
la tua domanda è così fantastica al giorno d’oggi
per andare semplicemente alla dashboard del tuo co-fondatore
creare un nuovo qualunque sia ciò che viene chiamato
pannello e basta iniziare a hackerare e poi farlo
ti dirà di sapere che l’URL è pronto
inoltre completa è come codificarne alcuni
linguaggio di programmazione lo completa automaticamente
chiede al server della comunità le etichette
e nomi di metrica è molto impressionante per a
assemblare curioso in questo modo se si dispone di un
bella furia puoi salvarla come una dashboard
o scopo era davvero giusto
esplorazione interattiva perché tu sei
giù un’interruzione di corrente in modo che funzioni
creazione davvero molto vigile, lo prometto
è tutto dalla ragazza per la via da se è
anche un formato leggermente diverso per
che quindi non essere confuso che usiamo ancora
quello vecchio perché abbiamo un mix e
convertito con Chef ma sì i dettagli così
qui di nuovo non entrerò nei dettagli ma
puoi vedere che è qualcosa come ho un
tasso di mancate iterazioni e I
diviso per un numero totale di iterazioni
cosicché una certa percentuale causa al
tempo qualche parola e se ho più del 5%
di quello per quattro ore invio a
avviso a qualcuno e tu vedi lì
sono belle annotazioni come sono i brontolii
davvero importante puoi leggerlo
i cruscotti Blue Book anche come il
avviso ti dirà il dashboard a
guarda per saperne di più così è
davvero fantastico e anche a questo punto
voglio sottolineare quanto sia importante il tempo
le serie sono perché questo è come questo è
l’esempio proverbiale di questo pazzo
potrebbe essere qualsiasi risorsa che ottiene
consumato così se hai un classico
modulo questo avviso completo è solo avviso
su certe soglie come l’ 85% pazzo così
sul lato sinistro avvertireste tutti
tempo anche se questo disco è stato riempito
in un modo controllato e poi è
hai finito con quello e hai appena letto
da esso, ma Nagas ti avviserà ancora
e poi come mettere a tacere un allarme naga è
davvero difficile davvero più facile dal più semplice
a proposito e sulla pagina giusta voi
avere qualcosa di un lavoro impazzisce e
riempie il disco e vieni avvisato come
due minuti prima di colpire il conduttore
presente quindi penso di avere questo è questo
buon cane, quindi va bene
nagios e la pagina sinistra che è
in realtà va bene, quindi quello che vuoi è un po ‘
come predire il futuro, quindi facciamolo
fai qualche estrapolazione lineare dal mio
serie temporali Posso fare questo prima adesso
non sa quali serie temporali sono corrette
si può vedere sulla destra si sale fino
probabilmente dovremmo dire a qualcuno sulla
a sinistra va bene e in prometheus
questo sembra come un esempio per a
un po ‘più complesso
e prevedere lineare come una funzione che
guarda nel database delle serie temporali e
ti dice una cosa così se tra quattro ore
siamo a zero spazio file gratuito e noi
hai già una certa quantità ed è
quindi non un file system di sola lettura
severità critica di nuovo lo definite
per te questo è per noi che abbiamo mandato
la pagina – beurling’s
tutte quelle cose lì così ora dove
per inviare gli avvisi a questo è fatto con
un albero di routing di avviso questo è tutto sul
alert manager ora e poi ancora è
tutte le etichette basate così usiamo questo sistema
etichetta per la quale abbiamo definito
noi stessi quindi sappiamo quale sistema è
di proprietà di quale squadra quindi ecco un PMO bene
va a certi destinatari avvertimento o
critico e questo è in pratica di più
complicato di quanto tu pensi e poi tu
hai tutto ciò che puoi fare
qualunque cosa tu voglia e puoi tracciare il grafico
e questo è l’albero di routing per noi
sembra un fiore o qualcosa del genere
si spera che il tuo aspetto sia meno complesso
ma questo succede facilmente e vedi
quanto è complicato in realtà
itinerario avvisa l’utente giusto e tu
non si può immaginare come che ha lavorato con
qualcosa come nove anni prima anche
li raggruppate che è la parte arancione
è di nuovo completamente configurabile ma per
noi abbiamo pensato se il nome dell’avviso e il
zona come i data center in e il
sistema di nuovo è lo stesso che non vogliamo
per inviare un avviso per avviso come noi
non avrà una notifica in bundle
cosa classica con ora il tuo rec va
giù con 32 server ne avrai 32
le pagine non con Prometeo puoi dire ok
se l’ host simile è inattivo negli stessi dati
il centro per lo stesso proprietario ti ha appena inviato
una pagina che enumera tutti quelli 32
host e down, quindi è anche molto
utile per evitare di allarmare la stanchezza
consegna di nuovo se hai aperto
sistema sorgente che diventa virale allora
tutti si integreranno contro di te così
rendere omaggio ha un esplicito prometeo
integrazione così facile da configurare
obbligo di pager di nuovo senza approvazione
usando solo il dovere di Plato per consegnare
pagine per le quali usiamo anche il gioco
tutto compreso gli avvisi non di paging
e
lì vedi che è come vedi tutto
quelle cose carine con una corsa alla cieca e
il link della dashboard così lo vedi nel tuo
slack il padre CRO gestisce anche bene su
un telefono cellulare quindi se sei come il
persona su chiamata ottieni qualcosa click
su di esso guarda il cruscotto e puoi farlo
già vedi cosa sta succedendo anche prima
hai aperto il tuo laptop e loggato
nella VPN e tutto ciò che è
anche piuttosto bene, va bene così questo
sta separando il suono della diapositiva che è andato da noi
non abbiamo indizi o non ci limitiamo a guardare
su Twitter e intendo dire che era uno scherzo ma
dovevamo dimostrare che la gente non voleva nemmeno
tweet su di noi se siamo giù twittano
su di noi se siamo su perché è così
rara al giorno d’oggi così abbiamo molti nove Sono
non sono sicuro se mi è permesso dirti come
molti ma come noi raggiungiamo la nostra disponibilità
i nostri ambiziosi obiettivi di disponibilità
essenzialmente ormai ogni trimestre nonostante
diverse cose orribili che accadevano
noi o anche i nostri terzi
fornitori di infrastrutture quelli DNS blah
bla bla attacco così abbiamo chiesto al
manager e tech leader in a
retrospettiva quindi stiamo facendo modo
meglio perché scriverlo solo uno
più importante ragione per cui stiamo facendo
meglio e molti di loro hanno scritto
perché abbiamo migliorato il monitoraggio e
questa è davvero una bella partita finale
urlo di riferimento al Blue Book
Mikey perché è di nuovo uno dei miei ex
colleghi ha inventato questo famoso
gerarchia dell’affidabilità del servizio modellata
sulla perdita di massa si basa una gerarchia di umani
i bisogni erano la tua F come cibo e riparo
in basso e solo allora puoi farlo
cose che sono molto simili agli umani
filosofia e cultura e segni e
come senza cibo niente funziona e
c’è un interesse della cosa simile
affidabilità il tuo prodotto è l’unico
cosa ti interessa ma è solo il
punta di questa piramide e devi
costruisci la piramide dal basso e io
Mi piace davvero come Mikey ha messo il monitoraggio come
la base qui e sì questo è un po ‘
la mia vita ormai ha molto senso e
da sconosciuto a basso ad alto in quattro
anni è così che ha funzionato
ok grazie mi collego le diapositive e
loro Skeeter sono fragili e lo saranno
caricato sul lato opposto in modo che tu possa
cercalo e questo è stato chiesto di presentare
questo no perché otteniamo domande che abbiamo
meno cinque meno quattro minuti per
domande
[Applausi]
si oh grazie mille, sì, noi
ho due minuti ma penso che tu sia
fluttuando e le persone possono farlo
ti chiedo questa prima domanda altro
i risultati del monitoraggio persistente
loop dove è per esempio per
visualizzazione dei dati nei cruscotti o fare
perdi i dati quando cambi
iniziare a riavviare i nodi quindi sì, molto
buona domanda l’ok quindi ci sono due
le cose ad esso piace da pensiamo che nel
mondo precedente come metrica come qualcosa
vuoi la storia perché è il momento
avviso basato sulla formazione basato sulla serie e
tutto ma ci pensiamo come
dati effimeri in modo che tu ne voglia abbastanza
per dire va bene posso prevedere questo spazio o
Posso sembrare quante frecce ho fatto io
avere negli ultimi dieci minuti o uno
ora ma non necessariamente super lungo termine
di tendenza anche se otteniamo questo come il
il mio gruppo di persone nella società ha iniziato
a hmm diamo un’occhiata agli ultimi sei mesi
di crescita della tabella di database e prevedere
quando saremo a corto di questo spazio e
quindi vuoi dati davvero a lungo termine così
è persistente ma è più come un se
il tuo server fa saltare i dati se n’è andato
in questo momento questa promessa è per noi possibile
finalmente fare consiste in backup caldi così
questo è un buon miglioramento per rendere il
i dati sono un po ‘più sicuri ma poi c’è anche
qualcosa chiamato la lettura remota e
scrivi adattatore in modo che anche tu possa piacere
inoltrare tutti i dati in alcuni veramente
distribuito per ribellarsi qualcosa
qualcosa di storage come open qui è DB
o influsso DB e quindi puoi persino scrivere
come leggere di nuovo e non sono chiari
è contro di noi totale dei dati nel tuo
storage distribuito ma tu hai sempre
la tua memoria locale dal più recente
dati che non andranno mai giù anche se
la tua rete è in fiamme e la tua
il database distribuito non funziona
più va bene grazie un sacco di domande
è arrivato di recente si l’ ultima domanda quando
il monitoraggio rileva i problemi che si guardano
le serrature per determinare il percorso
ciò pila si usa per la registrazione per
raccolta di memoria e
davvero bello quasi un copione così è
la cosa enorme dei log e delle metriche quindi
le persone spesso confondono i due o chiedono
così ho bisogno di registri o di qualsiasi metrica e
le risposte sono come complementi
l’un l’altro hai bisogno di entrambe le cose ed è
davvero una cosa diversa, quindi tu vuoi
un po ‘di raccolta di registri e guarda
a loro e questo è come la registrazione degli eventi
spesso diciamo elasticsearch stack alci
è una buona cosa che abbiamo appena raccogliere i registri a
il momento dalla nostra macchina di vitello così puoi
basta guardarli li archiviamo
da qualche parte su Hadoop ma ne vuoi un po ‘
tipo di cervo sono i miei registri che voglio
guardali o potrei anche volerlo fare
qualche ricerca e aggregazione su di loro ma
questo è diverso per le metriche è lì
puoi piacerti se ti piace Google
Prometeo registra le metriche che troverai
qualche bel post sul blog è per lo più
scalabilità se sei come su piccola scala
puoi semplicemente registrare tutto e creare
metriche da esso ma metriche su larga scala
sono come a un livello più alto
livello superiore e quindi è possibile ridimensionare
molto più come se avessimo un
cluster elasticsearch per tutti i log
creiamo su migliaia di micro
istanze di servizio avremmo bisogno di un
cluster di ricerca elastico più grande
di tutto il nostro sistema di produzione così tu
non si può fare il login tutto in
tutto basato solo su un sacco ma tu
anche bisogno di registri per certe cose
quindi sicuramente entrambe le cose si completano
l’un l’altro davvero interessante da scavare
più profondo e Google con il tuo amico
perché è anche motore di ricerca non solo
la fonte della tecnologia va bene così poco
lo spoiler pion ha parlato molto del sito
ingegneria dell’affidabilità di Google il
il prossimo talk è esattamente sul sito
ingegneria dell’affidabilità su Google e
con questo voglio ringraziarvi per la vostra
parla grazie e prendimi quattro
più domande

Please follow and like us: