SRE(サイトリライアビリティエンジニアリング)の要点をチェック

みなさんはSRE(Site Reliability Engineering)について、どこに要点があるかご存知でしょうか。何かと話題にあがるSREですが、実は具体的に何をやればいいのかが分からず困っている人は多いものです。SREを運用するにあたっての要点を見ていきましょう。

SREとは

まずは、SREを始めたい人が気にかけるべきポイントを知るところから始めましょう。SREの概観を押さえておくことが、知識を深めるための第一歩となります。

Google提唱の方法論

『SRE』とは、Googleが提唱したエンジニアの役割で、システム管理とサービス運用の方法論のことを指します。日本語で言うなら『サイト信頼性エンジニアリング』と言えるでしょう。端的に言えば、多くの手作業を自動化し、サービス信頼性の向上を実現するため手法です。

運用を設計する業務ソフトウェアエンジニアが関わることにより、そのスキルやノウハウを取り入れてITシステムの安定運用を支え、効率的な運用を行います。

信頼性についての概念

SREの中枢となる部分が、名前にも含まれている『信頼性』です。では、その信頼性とは何なのでしょうか。SREの定義の中には『適切なレベルの信頼性を達成する』という言葉があります。この文言の中で大切なのは、『適切な』という部分です。

100%信頼できるシステムやサービスはほとんど存在しません。ですが、サービスやシステムが信頼に値しない場合、ビジネスの得にはなりません。 高い信頼性を求めるのは当然といえます。

ですからSRE は、信頼性を非常に重要視しているのです。100%ではなく、適切なレベルの信頼性を継続的に維持することで、高い信頼性を達成できるようになるでしょう。

SRE担当者に求められること

SREの意味をおおよそ理解したところで、ここからは、SRE担当者が具体的にどのようなことを求められるのかを解説していきます。自分が今後担当者になる予定がある場合は、しっかりチェックしておきましょう。

担当者に必要なスキル

SRE担当者に必要なスキルは、ソフトウェア・システム関連に関する知識だけではありません。起こり得る障害の可能性を正確に予測し、細かく探れる視点も重要です。 して、それがシステムに対してどのように障害が影響するかを考え、建設的に対処できる優れたスキルが必要となってきます。

担当者の役割

SRE担当者は、基盤となる設備や要素であるインフラストラクチャにおいて、非常に重要な役割を持ちます。従来通り、システム運用だけを行っていたら、理想的な結果は得られません。 SRE担当者が開発者と運用者が共に働くのを促すことで、チームが別々にいずれかのみにフォーカスしたアプローチを行っているとき以上に、パフォーマンスやサービスの可用性が上がります。

Googleのチェックリストを活用しよう

SREを行う中で、自分たちがどのくらいのレベルに達しているかを図りたいタイミングがあります。そんな時に役に立つのが、Googleが提供している『SREチェックリスト』です。このチェックリストを使用し、自分たちの達成度を知りましょう!

初級チーム

初級のSREチームは、まだすべての運用タスクを完全には自動化できないため、人的な窓口であるオンコールサポートを配置しているかは重要なチェックポイントです。ほかにも運用手順書の有無や、SRE チーム憲章があることなどがあります。

その上で、SREが開発チームと共同作業でプロジェクトの仕事を立案、実施し、システム運用の負荷の一部を担っていることを確認しましょう。開発のリーダーにプラスの効果を見せられれば、初級チームとしては十分な成果と言えるでしょう。

中級チーム

中級チームは、サービスの効率的な管理に積極的に取り組んでいる状態です。初級で行ったオンコール以上のサービスを増やし、SREチーム自身の影響力を大きくするプランを確立しています。

開発チームと共同で作り上げたプロジェクトが、初級のように短期的なものではなく、SREチームが主導して長期計画を作っていることも中級チームにとって大切なチェックポイントです。

上級チーム

中級レベルを超え、特にスキルの高いチームが上級チームと呼ばれます。サービス改善をより迅速化し、さらに従来のシステムよりも最適化していることが上級チームの最低条件です。

SREチームの中の何人かがシステムエンジニアとしての枠組みを越え、ビジネスにおいて大きなプラスの影響を与えていることがポイントとなります。

次のステップ

チェックリストがどんなものか分かったところで、次のステップとして『自社のニーズに合っているか否か』を深慮することが大切ですチームのスキルがどの程度でも、チームと会社のサービスには、発展、成長の余地はあるはずです。 チェックリストは確かに大切な指標ではありますが、実際の仕事のやり方を評価するのを忘れてはいけません。

まとめ

今までは分野ごとに分けられていたエンジニアですが、SREのように信頼性を軸に据えることで、自社システムをこれまで以上に安定稼働させられるようになります。スキルを伸ばし、新しい挑戦をしたいと望むエンジニアにとって、SREは大きなチャンスとなるでしょう。

続々と増加していくだろうSREは、今後も目が離せない分野になっていくはずです。

この記事をシェア

関連記事


副業・フリーランス

プログラミング

インタビュー

デザイン

お金

採用・組織

転職

イベントレポート