運用ダッシュボード指標:スループット、バックログ、SLA
スループット、バックログ、SLA に関する運用ダッシュボードの指標を学ぶ。何を測るか、どう集計するか、どのチャートが行動につながるかを判断する方法を解説します。

このダッシュボードで解決したいこと
運用ダッシュボードは単なるチャートの壁ではありません。チームが同じ判断をより速く、数字の"どちらが正しい"で争わずに下せる共通の視点です。もしダッシュボードが誰かの次の行動を変えないなら、それは飾りに過ぎません。
目的は少数の繰り返しの判断を支えることです。ほとんどのチームは毎週同じ判断に戻ってきます:
- 人員配置:人を増やすか、カバレッジを移すか、優先度の低い作業を止めるか?
- 優先順位:次に何を引くべきか、何が待てるか?
- エスカレーション:どの案件がリスクにあり、マネージャーや他チームの支援が必要か?
- プロセス改善:どこで作業が停滞しているか、どのルールを変えるべきか?
異なる人が同じダッシュボードを違う目的で使います。現場リードは日々の注意点を決めるために毎日確認するかもしれません。マネージャーは週次で傾向を見て人員を正当化し、驚きを防ぐためにレビューします。一つのビューで両方をうまく満たすことは稀で、通常はリード用ビューとマネージャー用ビューが必要です。
"見栄えの良いチャート"が失敗するのは単純です:活動を見せるだけで、コントロールを示していない。チャートは立派に見えても、作業が積み上がり、古くなり、約束が守られていない現実を隠していることがあります。ダッシュボードは事後に説明するためのものではなく、問題を早期に浮かび上がらせるべきです。
視覚を選ぶ前に「良い」とは何かを定義してください。ほとんどの運用チームにとって良い状態は地味です:
- 流れが安定している(作業が一定のペースで完了する)
- バックログが管理されている(計画なしに増えない)
- 約束が予測可能である(SLAは繰り返し守られる、ヒーロー的対応に頼らない)
小さな例:サポートチームが「チケットクローズ数」が増えたと喜ぶ一方で、バックログは古くなり、最も古い案件がSLAを超えつつあることに気づいていない。役立つダッシュボードはその緊張を即座に示し、リードが新規要求を一時停止したり、スペシャリストを再配置したり、ブロッカーをエスカレーションしたりできるようにします。
スループット、バックログ、SLA を平易に説明すると
ほとんどの運用ダッシュボードの指標は三つのバケツに分かれます:何を終えたか、何が待っているか、約束を守れているか。
スループットはある期間に「完了」した作業量です。重要なのは「完了」が中途半端でないことです。サポートチームなら「チケットが解決されクローズされたとき」。オペチームなら要求が納品され、検証され、引き渡されたときが「完了」かもしれません。修正が残っている作業をカウントすると、キャパシティを過大評価し、問題が手遅れになるまで見えません。
バックログは開始または完了を待っている作業です。件数だけでは不十分で、今日届いた40件と何週間も放置された40件は全く違います。バックログは「経年」を加えると有用になります。例えば「アイテムがどれだけ待っているか」や「X日以上の件数」です。これが一時的な急増か、進行不能な滞留かを教えてくれます。
SLAは時間に関する約束です。社内向けか顧客向けかの違いはありますが、通常はいくつかの時計に対応します:
- 初回応答までの時間
- 解決までの時間
- 各ステータス(レビュー、顧客待ち、ブロック中)での滞留時間
- 達成した割合と違反した割合
これら三つの指標は直接つながります。スループットが排水、バックログが浴槽の水量、SLAは浴槽が満ちる・減る間に待ち時間に何が起きるかを示します。バックログがスループットより速く増えると、アイテムは長く滞留しSLA違反が増えます。スループットが増えて取り込みが変わらなければ、バックログは縮小しSLAは改善します。
単純な例:チームは1日あたり約25件を処理します。3日間、プロダクトの更新後に新規が1日40件に増えると、バックログは約45件増え、最古の案件が48時間解決SLAを越え始めます。良いダッシュボードは原因と結果を明確にして、非緊急作業の一時停止、スペシャリストの振替、受け入れの一時調整など早めの対応を可能にします。
実際の疑問に合う指標を選ぶ
有用なダッシュボードは、データの取りやすさから始めるのではなく、調子が悪いときに人々が尋ねる質問から始めます。ダッシュボードが支えるべき判断をまず書き出してください。
多くのチームが毎週答える必要のある問いは次の通りです:
- 入ってくる作業に追いついているか?
- 何が古くなっているか、どこで?
- 顧客や社内チームに約束を破っているか?
- 何か変わったなら、その原因は何か?
そこから領域ごとに主要指標を1〜2個に絞ってください。画面が読みやすくなり「重要なもの」が明確になります。
- スループット: 完了数(出力)1つと時間測定(サイクルタイムまたはリードタイム)1つ
- バックログ: バックログ件数と経年指標1つ(例えばX日以上の割合)
- SLA: 違反率と違反件数の明確なカウント
誤読を防ぐために先行指標を1つ追加します。スループットが下がるのは作業が遅くなった場合もあれば、到着が減っただけの場合もあります。到着(新規作成)をスループットと並べて追いかけてください。
最後に切り口(スライス)を決めます。切り口は平均値を行動指針に変えるものです。よく使うのはチーム、キュー、顧客層、優先度です。所有権やエスカレーション経路に合う切り口だけ残してください。
具体例:全体のSLAは問題ないのに優先度別に分けるとP1の違反率が他より2倍であることが分かれば、対処は「速くする」ではなく当直のカバー不足、P1定義の曖昧さ、キュー間のハンドオフ遅延など別のものを疑うべきだと示します。
データを引く前に定義をはっきりさせる
多くのダッシュボードの争いは数字のせいではなく言葉のせいです。もしチーム内で「完了」や「違反」の意味が異なれば、指標は精密に見えても間違ったものになります。
測るイベントを定義し、誰でも同じように適用できる簡単なルールとして書き残してください。
主要なイベントと正確なトリガーを定義する
少数のイベントを選び、それぞれを明確なシステムの瞬間(通常はタイムスタンプの変化)に紐づけます:
- Created(作成): 作業単位がキューに入ったとき(誰かが最初に話した時点ではなく)
- Started(開始): 実際に誰かが作業を始めたとき(多くはステータスが「進行中」に変わるとき)
- Blocked(ブロック): 外的要因で進行が止まったとき。理由コードを付ける。
- Done(完了): 受け入れルールを満たしたとき(レビュー待ちが完了に含まれるのかは定義次第)
- Reopened(再オープン): 完了後に作業が再びアクティブになったとき
またSLA報告で何を「違反」とするかを定めてください。SLAの時計は「作成から初回応答まで」「作成から完了まで」「開始から完了まで」のどれかですか?ブロック中に時計を止めるかどうか、どのブロック理由が対象かも決めます。
手戻り(再作業)を常に同じ扱いにする
手戻りはチームが数字をごまかしがちな場所です。一つの方針を決めて守ってください。
チケットが再オープンしたら同じアイテムとして扱うか、新しいアイテム(新しい作成日時)として扱うか。前者は品質可視化に優れますがスループットを低く見せることがあります。後者はミスの実コストを隠す可能性があります。
実用的な折衷案は一つの作業単位を保ちつつ、別途「再オープン回数」や「再作業時間」を追跡して主フローの正直さを保つことです。
次に作業単位とステータスルールに合意してください。「チケット」「注文」「リクエスト」「タスク」などはどれも使えますが、全員が同じ意味で使う場合に限ります。例えば注文が3つの出荷に分かれるなら、それは1つの単位(注文)か3つの単位(出荷)かでスループットとバックログが変わります。
システムが必ず捕捉すべき最小フィールドを文書化してください。さもないとダッシュボードは空白や推測だらけになります:
- 各主要イベントのタイムスタンプ(作成、開始、完了、ブロック、再オープン)
- 作業時点での担当者とチーム(現在の担当者だけでなく)
- 優先度と顧客セグメント
- 安定したIDと許容されるステータス遷移の明確なリスト
問題を隠さない集計の方法
集計は有用なダッシュボードが失敗する主な場所です。乱雑な現実を数値に圧縮して、チームが日常で感じる違和感とトレンドが合わなくなります。目的は見栄えの良いグラフではなく、リスクを示した正直な要約です。
意思決定に合う時間バケットから始めてください。日次ビューはオペレータが今日の山を見つけるのに役立ちます。週次は変更が効いたかを見るのに有効。月次は計画や人員検討に向きますが、SLAを壊す短いスパイクを隠すことがあります。
時間ベースの指標(サイクルタイム、初回応答時間、解決時間)では平均値に頼らないでください。極端に長い案件が平均を悪化させたり、極端に短い案件が見かけを良くしたりします。中央値やパーセンタイルはチームが気にする話を伝えます:典型(p50)と痛い側(p90)です。
有効なシンプルなパターン:
- ボリューム:完了したアイテムのカウント(スループット)
- 速度:サイクルタイム p50 と p90
- リスク:SLA違反割合(または予測違反率)
- 負荷:バックログ件数と経年バケット
- 安定性:再オープン率やキュー間での行き来
セグメンテーションも重要です。全体の一本線はリーダー向けには十分でも、それだけでは行動に結びつきません。キュー、優先度、地域、製品、チャネル(メール、チャット、電話)など、実際の作業フローに合う1〜2の切り口で分けてください。5つの次元で同時にスライスすると群が小さくなりノイズが増えます。
例外ルールも先に決めておきます。保留作業、"顧客待ち"、祝日、営業時間外ウィンドウをどう扱うか。もしSLA時計が顧客待ちで止まるなら、ダッシュボードも同じルールを反映させないと実際とは異なる問題を追いかけることになります。
実用的な手法として、カレンダー時間と業務時間の二つの時計を並べて出すのは有効です。カレンダー時間は顧客が経験する時間、業務時間はチームが制御できる時間です。
最後に、集計結果は実際のチケットや注文の小サンプルで必ず照合してください。p90が良好に見えても、オペレータが10件の詰まった案件を指摘できるなら、グルーピングや時計ルールが痛みを隠しています。
行動につながるチャート
良い指標は一つのことを上手にします:次に何をすべきかを示すこと。チャートが定義の議論を生み、数値を祝うだけで行動が変わらないなら、それは多分バニティです。
スループット:出力、需要、目標を一緒に見せる
スループット(日別・週別の完了数)の折れ線は文脈を加えると有益です。チャートには単一のラインではなく目標の帯域を載せて、いつパフォーマンスが意味のある差で外れているかが分かるようにします。
同じ時間軸に到着(新規作成)を追加してください。スループットが大丈夫に見えても到着が急増していれば、その瞬間からシステムは遅れ始めます。
読みやすくするコツ:
- 完了アイテムのラインを1本
- 到着は別のラインかバーで1本
- 目標の帯域(期待レンジ)を陰影で表示
- 異常時の注釈(障害、方針変更、ローンチ)を加える
バックログ:量だけでなく経年でリスクを示す
単一のバックログ件数は本当の問題を隠します:古い作業です。チームが痛みを感じる経年バケットを使ってください。一般的には 0-2日、3-7日、8-14日、15日以上 のセットが使いやすいです。
週ごとの積み上げ棒が有効で、合計が横ばいでも古い層が増えているかが見えます。15日以上のセグメントが増えているなら、優先付けやキャパシティの問題です。ただの「忙しい週」ではありません。
SLA:遵守率と今リスクになっているものを示す
SLA遵守のトレンド(週次や月次)は「約束を守れているか」を答えますが、今日何をすべきかは教えてくれません。
それを補うのが違反キューです:SLA内だが差し迫っているアイテム数。例えば「24時間以内に期限が切れるアイテム」と「既に違反しているアイテム」をトレンドの横に小さなカウンタで表示します。抽象的な割合が日々のアクションリストに変わります。
実用例:新製品のローンチで到着が増え、スループットは変わらないがバックログの8-14日や15+バケットが伸び、同時に違反キューが跳ね上がる。即座に再割り当て、受け入れの絞り込み、オンコールの調整といった対応が可能になります。
ステップバイステップ:実装できるダッシュボード仕様を書く
ダッシュボード仕様は2ページに収まるべきです:ユーザーが見るページ1枚、数値の計算方法1枚。長くなるなら、それは大抵解決しようとする問題が多すぎます。
まず紙にレイアウトをスケッチします。各パネルについて、毎日そのパネルが答えるべき一つの質問を書いてください。質問が言えないチャートは「見るのは良いが意味が薄い」指標になります。
分かりやすい構成例:
- パネル:名前、オーナー、日次の問い(例:「今日追いつけているか?」)
- フィルタ:期間、チーム/キュー、優先度、顧客層、地域(実際に使うものだけ)
- 表示ルール:単位、丸め、何が良い/悪いかの定義
- ドリルダウン:異常時に次にクリックする先
- 更新頻度とアクセス:更新間隔と閲覧権限
次に、各指標を一文で定義し、計算に必要なフィールドを列挙します。式は明確に書いてください。例:「サイクルタイムは closed_at から started_at を引いた時間(時間単位)、Waitingステータスの時間を除く」。正確なステータス値、日付フィールド、参照するソースシステムも明記します。
閾値とアラートもローンチ前に決めておきます。チャートにアクションが伴わないなら、それは単なるレポートです。各閾値について次を明記してください:
- トリガー(例:「SLA違反リスクが2時間で5%を超えたら」)
- オーナー(「誰か」ではなく役割やチーム)
- 最初の手順(トリアージ、再割り当て、受け入れ停止、顧客への連絡)
トレンドから原因に移るためのドリルダウン経路を設計してください。実用的なフローは:トレンドライン(週) → キュー別ビュー(今日) → アイテム一覧(上位違反) → アイテム詳細(履歴と担当)。個別アイテムに辿り着けないと議論が増えて修正につながりません。
公開前に過去3週間分の実データで検証してください。落ち着いた週と混乱した週を1つずつ選び、合計が既知の結果と一致するか、10件を端から追跡してタイムスタンプやステータス遷移、除外ルールを確認します。
現実的な例:SLA問題を早期に検知する
サポートチームが月曜に大きな製品更新をリリースしました。水曜までに顧客から同じ「使い方」質問が増え、いくつかバグ報告も来ます。チームは忙しく感じていますが、これは一時的な山かSLAの破綻なのか誰も正確に判断できません。
彼らのダッシュボードはシンプルです:キューごとに一つのビュー(請求、バグ、使い方)を持ち、到着(新規チケット)、スループット(解決チケット)、バックログ件数、バックログ経年、SLAリスク(年齢と残り時間から違反しそうな件数)を追います。
更新後の指標はこう示しました:
- “使い方”キューの到着が35%増、他のキューは通常通り。
- 全体のスループットは横ばい。エージェントは請求とバグ対応に時間を割いている。
- バックログ件数は「やや多い」程度に見えるが、経年は急速に上がり多くが24時間を超え始める。
- SLAリスクは実際の違反が出る前に変化を示す:残り時間が6時間以内のチケットが増える。
これは全般的なパフォーマンスの問題ではなく、ルーティングとフォーカスの問題に見えます。ダッシュボードは3つの明確な判断を促します:
- 48時間の間“使い方”キューに人員を追加する。
- 優先ルールを変更し、古い“使い方”チケットを低優先バグより先に引く。
- アプリ内ガイドと定型文を用意して根本原因を減らす。
彼らは混合策を取ります:ピーク時間に“使い方”に一人追加、定型文と短いヘルプ記事を公開。
翌日確認すると、スループットは劇的に増えていないが重要な信号は改善方向に動く。バックログの経年は増加を止め下向きに曲がり始め、SLAリスクは先に下がり、後から実際の違反が減っていく。到着数も減少傾向に入り、根本対策が効いたことを裏付けます。
避けるべき落とし穴とバニティメトリクス
ダッシュボードは「次に何をするか」を助けるべきで、昨日を良く見せるためのものではありません。多くのチームはリスクを隠す忙しいチャートを作ってしまいます。
見栄えは良いが意味の薄い指標
典型は「今週クローズしたチケット数」を単独で示すことです。これだけだと作業は悪化していても増えて見えることがあります。到着や再オープン、経年を無視するためです。
以下のパターンに注意してください:
- 同期間の作成数と対になっていないクローズ数
- ボリュームや文脈なしの再オープン率
- ボリュームなしのSLA達成率
- 経年のないバックログ件数
- ゴール化された「平均対応時間」(これが操作されがち)
簡単な修正は、出力の数値には必ず需要と時間の指標をペアで置くことです。例:クローズ数 vs 作成数、加えて中央値のサイクルタイム。
平均は長い尾を隠す
平均解決時間は顧客の痛みを見逃す早道です。20日かかる詰まった案件が多数の迅速な解決に埋もれて見えなくなることがあります。
中央値とパーセンタイル(p75、p90)を併用し、長い尾を小さな「年齢上位10件」テーブルで常に見せてください。
定義の不一致は信頼を壊す
チームAが「完了」を「初回応答送付」と定義し、チームBが「完了」を「完全解決」と定義するとチャートは議論を生みます。開始と停止のルール、時計を止める条件を平易な言葉で書き、常に一貫させてください。
現実的な例:サポートが "顧客待ち" を "オンホールド" に変更したがエンジニアは使わない。あるグループではSLAが停止し、別では停止せず、リーダーシップは「SLAが改善している」と見る一方で顧客は遅く感じる、という不整合が起こります。
ノブ(フィルタ)が多すぎてデフォルトがない
フィルタは役に立ちますが、12個のフィルタと20のチャートがあるダッシュボードは選択式の迷路になります。明確なデフォルトビュー(直近6〜8週、全顧客、全チャネル)を決め、例外は意図的に扱ってください。
データ品質を無視する
欠けたタイムスタンプ、後付けのステータス変更、一貫性のないステータス名は結果を静かに汚します。もっとチャートを作る前に主要フィールドが存在し順序が正しいか検証してください。
クイックチェックリストと次のステップ
公開前にダッシュボードが忙しい月曜朝の現実的な問いに答えるか確認してください。良い運用ダッシュボードはリスクを早期に見つけ、何が変わったかを説明し、次に何をするかを示します。
ワンページの簡単チェック:
- 到着、スループット、バックログ件数、バックログの経年が一画面で見えるか?
- 結果だけでなくSLAリスク(差し迫った違反)を見られるか?
- 定義は平易な言葉で書かれ、オペとチームリードで合意されているか?
- マネージャーは「今週何が変わった?」に60秒で答えられるか?
- 各チャートに「動いたら誰が何をするか」の次のアクションが明確か?
どれかに"no"があれば小さな修正から始めてください。多くは先週比較を加える、優先度で一つ分ける、7日ローリングを週次合計の横に出すなどの簡単な変更で防げます。もし優先して一つ改善するなら、驚きを防ぐものを選んでください:優先度別のバックログ経年、あるいはSLAのカウントダウンビューです。
次のステップ:アイデアを構築可能な仕様にする
チェックリストを短い仕様に落とし込み、実装担当が推測せずに作れるようにします。簡潔に、定義と意思決定ルールに集中してください。
- データモデルをプロトタイプする:作業単位、タイムスタンプ、担当/チーム、優先度、SLA目標を定義する
- ビジネスルールを書く:何が「到着」「完了」「保留」「違反」か、再オープンの扱い方
- UIをスケッチする:画面は1枚、タイルは5〜8個まで、各タイルに読み方を説明する一文をつける
- ロールベースの内部ダッシュボードを作り、マネージャーとリードがそれぞれ必要なものを見られるようにする
- 準備ができたら展開し、定義に合意した同じグループで週次レビューする
迅速にフルワークフロー(データモデル、ビジネスルール、WebダッシュボードUI)をプロトタイプしたければ、AppMaster (appmaster.io) はハンドコーディングなしで完全なアプリケーションを作るために設計されています。重要なのは小さく始めて出荷し、意思決定を変える指標だけを増やすことです。
よくある質問
チームが繰り返し下す決定(人員配置、優先度、エスカレーション、プロセス修正)から始め、その判断を直接支える少数の指標を選んでください。指標が誰かの次の行動を変えないなら、除外すべきです。
3つの主要な信号を一緒に追います: スループット(本当に「完了」したもの)、バックログとその経年(何が待っていてどれだけ長く待っているか)、SLAの実績(約束を守れているか)。多くの「問題ない」ダッシュボードは、活動量は見せてもリスクを示していません。
「完了」を受け入れ基準を満たした瞬間として定義してください。レビューに送っただけ、あるいは誰かに渡しただけで「完了」とすると、スループットは実際より良く見え、SLA悪化に気づけなくなります。
バックログの件数だけでは誤解を招きます。新しく入った40件と何週間も放置された40件は意味が違います。必ず経年の指標(X日より古い件数など)を加えて、一時的な山か成長する滞留かを見分けてください。
SLAは時間に関する約束です。通常は一次応答、解決、各ステータスでの滞留時間などに結びつきます。どの時点から時計を回すか、どの状態で停止(あるいは一時停止)するかを一つずつ決めて文書化してください。
到着数(新規作成)を同じ時間軸でスループットの隣に置いてください。スループットの低下が作業が遅くなった結果なのか、単に到着が減っただけなのかを見分けられます。
時間ベースの指標では平均値は避け、中央値やパーセンタイル(p50、p90)を使ってください。平均は一部の極端なケースに引きずられ、顧客の痛みが見えなくなります。
チケットが再オープンしたとき、そのアイテムを同じ単位のまま扱うか新しいアイテムにするかを事前に決め、運用で一貫させてください。一般的な既定は同一アイテムとして扱い、再オープン回数や手戻り時間を別途追跡することです。
集計で問題が隠れるのは、バケットが意思決定に合っていないか、ロールアップしすぎているときです。日次は当日のコントロール、週次は変化の確認、月次は計画に。結果は必ず実際のいくつかのアイテムで検証してください。
ユーザーに見せる1ページと指標の計算方法の1ページで短い仕様を作成してください。時系列でサンプルの平常週と混乱週を使って検証し、合計が既知の結果と一致するか10件程度を追跡して確認します。素早くプロトタイプしたい場合は AppMaster (appmaster.io) がデータモデル、ビジネスルール、WebダッシュボードUIの構築を手早く支援します。


