サービスを提供する企業にとって、サービスの信頼性は重要視すべき指標のひとつです。システムの規模に関わらず、運用にかかる工数を減らし、サービスのダウンタイムを減らす取り組みとしてSREを導入する企業も増えてきました。
そこで本記事では、経営に対してSREが果たす役割やどのように影響していくのかを考えていきたいと思います。SRE導入を検討している企業様は最後までお付き合いください。
関連記事:SREとはなにか [サイト リライアビリティ エンジニアリング]
SREとは何か
SRE(Site Reliability Engineering)とは信頼性の高いサービスを実現するための設計やアプローチ、またはこれらを行うチームを指します。SREと比較される言葉としてDevOpsがありますが、DevOpsはあくまで運用の思想のみを提示したのに対し、SREは具体的な実装までも明示されているのが大きな特徴です。
SREは主に「システム運用の効率化(自動化)」「エラーバジェットによる予算管理」「SLIの計測ならびSLOに基づく目標管理」の考えのもと、サービスの信頼性向上を目指します。
「エラーバジェット」「SLI / SLO」についてはこちらの記事で詳しく解説しています。
関連記事:SREとはなにか [サイト リライアビリティ エンジニアリング]
関連記事:SREとDevOpsの違いはなにか
経営に対するSREの役割と影響について
SREを導入することで、経営面にどのような影響を与えるのでしょうか。以下でご紹介します。
LTV (顧客生涯価値) の向上
SREが経営に与える最も重要なインパクトは、サービスが安定稼働によりLTVを高められる点です。
LTVは、SaaSのような「月額課金型」のサービスで特に重要になるKPIです。算出方法は複数ありがますが、以下が代表的なものです。
- 1顧客あたりの年間売上額 × 収益率 × 継続年数
- 1顧客あたりの平均購入単価 × 平均購入回数
- (1顧客あたりの売上高 – 売上原価)÷ 購入者数
いずれの計算式であっても、LTVが高ければ高いほど経営の安定性を高めます。
お客様は複数の観点でサービスを評価します。その中に「サービスの安定性」は必ず含まれます。逆に言うと、「コスト」「サポート対応」「使い勝手」などが満たされていても、「サービスの安定性」が満たされないと、顧客は離反します。
SREはサービスを安定稼働させるためのあらゆる施策を行うことで、解約率を押し下げ、結果、利益のさらなる創出に貢献します。
エンジニアの生産性向上
SREがトイルを削減・自動化することで、サービスの安定性が向上することに加え、エンジニアがより生産性の高い業務に集中できるようになります。
例えば、SREがトイルを削減・自動化したことで、エンジニアがトイルに対応する時間が業務時間の50%から25%に低下したと仮定します。この場合、業務時間の25%をより生産的な業務に回せる計算となります。
エンジニアの生産性が向上することで、より少ない人数での業務の遂行が可能となります。結果、人員の増加を最小限に留めることができ、人件費の増加を抑制できます。
SREの効果測定はどのように行えば良いか
SREでは、SLI (Service level Indicators) を使用して信頼性を測定します。SLIは「提供されているサービスのレベルの性質を定義した計測量」を意味します。以下は、一般的に用いられるSLIです。
- MTBF(平均故障間隔: Mean Time Between Failure)
- MTTR(平均修復時間: Mean Time To Repair)
- MTTD(平均検出時間: Mean Time To Detection)
- リクエストのレイテンシ(リクエストに対するレスポンスを返すまでにかかった時間)
- エラー率(受信したリクエストを正常に処理できなかった比率)
- システムスループット(単位時間あたりに処理できるリクエスト数)
- 可用性(サービスが利用できる時間の比率)
…など
そして、「SLIの改善が経営にどのような好影響をもたらしているか」の相関を分析するのもよいでしょう。例えば、ログプラットフォームを提供するSprunkでは、「SREの指標とビジネスのKPIを結びつけることで、製品、販売、マーケティング、カスタマーサポートに対して『信頼性向上がどのように価値をもたらしたか』の価値を示すことができる」と解説しています。
なお、「どのSLIと、どのビジネスKPIを関連付けることで、どの部門に対して、どれくらいの価値を示すことができるか」といった詳細については、各組織において異なります。SREの取り組みの成功をどうビジネスに対して可視化するか、という具体論については、時間をかけて追跡する必要があります。
SRE導入はすべて「Sreake」にお任せください
ここまで、SREの導入により経営数値が改善する例についてご紹介させていただきました。
Webサービスを運用している企業は、常に競合との比較にさらされます。競合より優位に立つための手段として、「サービスの信頼性を向上させる」ことは、王道とも言える方法です。SRE導入はこの点において優れた実績があります。
なお、SREを導入するには、計測すべきデータの選定やエラーバジェットの決定など、決めるべきことが複数あります。深く考えずにSREを導入した結果、「導入したが信頼性向上につながらない」「導入効果が数字で上がってこない」といった課題を抱えてしまう組織が多いのも実情です。
弊社は、金融・医療・動画配信・AI・ゲームなど、特に技術力が求められる領域で豊富な経験を持つSREの専門家が集まったチームです。戦略策定から設計・構築・運用、SaaS提供までSREに必要な要素を統合的に提供可能です。
もし、SRE導入に際して不安要素があるという企業様がいらっしゃいましたら、一度弊社までお問い合わせください。
東京在住のソフトウェア開発者、Motouchi Shuyaです。
システムの開発・運用・最適化が好きです。