Un site reliability engineer (SRE) è qualcuno che applica i principi fondamentali dell'informatica e dell'ingegneria del software per progettare e sviluppare sistemi informatici scalabili, distribuiti e affidabili. Il termine, coniato da Google, si riferisce al trattamento delle operazioni in modo molto simile a un problema di software, in quanto mira a sviluppare sistemi software su larga scala per fornire soluzioni automatizzate a problemi operativi complessi.

Fondamentalmente, un site reliability engineer si affida a una serie di pratiche di sviluppo che incorporano aspetti dell'informatica e dell'ingegneria del software nelle operazioni per migliorare il flusso di lavoro quotidiano, nonché l'efficienza e l'affidabilità del sistema. In sostanza, gli SRE sono incaricati di fornire, proteggere e far progredire i sistemi e i servizi software di un'azienda.

Qui, esploreremo le attività quotidiane dei site reliability engineer, il valore che apportano ai team e alle aziende DevOps e le loro responsabilità chiave. Approfondiremo anche come misurare l'affidabilità del sito e spiegare la differenza tra SRE e DevOps. Infine, questo articolo esplorerà il site reliability engineering come scelta di carriera.