2025年11月02日·1分で読めます

OpenAI API とセルフホスト LLM：アプリ内アシスタントの比較

OpenAI API とセルフホストの LLM を比較し、プライバシー境界、レイテンシ、コストの予測性、そして本番運用での実際の負担を検討します。

追加するアシスタントで本当に決めていること

アプリ内アシスタントは目的によっていくつかの形をとります。パスワードのリセット方法を答えるサポートヘルパーの場合もあれば、レコードやポリシー、請求書を見つける検索機能の場合もあります。あるいは「チケットを作成してMariaに割り当て、顧客に通知する」といったアクションを実行するワークフロー支援もあります。これらは非常に異なる仕事であり、伴うリスクも異なります。

OpenAI API とセルフホストの LLM を選ぶ際に重要なのはモデルの品質だけではありません。アシスタントに何を見せるか、どれだけ速く返答する必要があるか、そして深夜2時に何か問題が起きたとき誰が責任を取るのかを決めているのです。

ユーザーが毎日アシスタントに頼るようになると、小さな問題が大きな問題になります。アシスタントが遅ければ人々は使うのをやめて手作業に戻ります。自信満々に間違った答えを出せばサポートチケットが増えます。プライベートなデータが漏れれば、もうそれは機能ではなくインシデントです。

「本番運用」はルールを変えます。予測可能な稼働率、モデルに送るデータの明確な境界、監査やセキュリティ審査に説明できる方法が必要です。また運用の基本も必要です：監視、アラート、ロールバック、アシスタントが助けられないときの人的フォールバックです。

一般的に取られるアプローチは二つです：

APIホストモデル： プロバイダのホストするモデルにプロンプトを送り、応答を受け取ります。インフラやスケーリングはプロバイダ側が担います。
セルフホストのオープンソースモデル： 自社のサーバやクラウドでモデルを稼働させ、自らデプロイ、パフォーマンス、アップデートを管理します。

具体例：顧客ポータルでユーザーが「なぜ返金が却下されたのか？」と尋ねる場面を想像してください。公開されているヘルプ記事の要約だけを返すならプライバシーリスクは低いですが、内部メモや支払い状況、サポート履歴を読む必要があるなら厳格な境界が必要です。さらにアクション（返金、パスワードリセット、アカウントロック）を実行できるなら強力な権限管理、ログ記録、承認フローが必要になります。

AppMaster のようなツールは認証、データベースのレコード、ワークフローロジックなど、アシスタントを取り巻くアプリを作る手助けができます。重要なのは常に同じ問いです：どんなアシスタントを作るのか、そして実際のユーザー向けに安全に運用するためにどれだけの信頼性と制御が必要か。

プライバシーの境界：システムから何が外に出るか

プライバシーは単一のスイッチではありません。データフローの地図です：モデルに何を送るか、各リクエストの周りに何を保存するか、後で誰がアクセスできるか。

APIモデルでは明白なのはプロンプトです。しかし実際にはプロンプトにはユーザーが入力した内容以上のものが含まれることが多いです：チャット履歴、文脈用に注入したアカウント情報、文書から取り出した抜粋、ツールの結果（たとえば「最新の請求書」や「未解決のチケット」）など。ファイルのアップロードを許すと、それらのファイルもリクエストの一部になる可能性があります。別に、アプリのログ、分析、エラートレースがプロンプトや出力を捕捉する場合もあり、意図的に防がない限りそれらに触れます。

セルフホスティングは境界を内側に移します。データを自分のネットワーク内に留めやすく、厳格なコンプライアンスに有利です。しかしそれが自動的にプライバシーを保証するわけではありません。エンジニア、サポート担当、契約者など社内のアクセス管理、バックアップの保護、デバッグのために会話をどのくらい保持するかの決定などは必要です。

選択をする前に以下の問いに明確な答えを用意してください：

リクエストデータはどれくらいの期間保持されるのか？
トレーニングや評価に使われるのか？
ベンダー側や社内で誰がアクセスできるのか？
どんな監査証跡や削除オプションがあるのか？

どれかの答えが曖昧なら、最も厳しい前提で設計してください。

機微なフィールドには特別な取り扱いが必要です：氏名、メール、住所、注文履歴、内部ポリシー、支払い関連など。例を一つ：顧客が「カードが拒否されたのはなぜ？」と尋ねたとき、アシスタントはフルのカード詳細（そもそも保存すべきではない）や不用意な個人情報をモデルに送らずに次の手順を説明できます。

APIでもセルフホストでも実用的なルール：

回答に必要な最小限の文脈だけを送る。
識別子は削除または置換する（可能ならメールの代わりにユーザーIDを使う）。
生のプロンプトや出力を一般ログに入れないのがデフォルト。
デバッグ用データの短い保持期間と明確な削除ルートを用意する。
「アシスタントの記憶」を本当の記録と分け、チャットで事実が上書きされないようにする。

AppMaster のようなプラットフォーム内でアシスタントを構築する場合、データベースを真のソースとして扱い、プロンプトには必要な特定フィールドだけを組み立て、レコード全体を「一応のため」に投げないようにしてください。

レイテンシとユーザー体験：時間はどこに消えるか

デモでの体験とプロダクト内での体験は違います。ユーザーは既に作業の流れにいるため、回答に6秒かかると「待ち時間」ではなく作業が止まったように感じます。

OpenAI API とセルフホストの LLM を比べると、待ち時間の原因は異なる場所にあります。トレードオフはモデルの速度だけでなく、モデル呼び出しを取り巻くすべてです。

見えにくい時間コスト

APIモデルではネットワークホップやプロバイダ側の処理で時間が失われることが多いです。単一のリクエストにDNS、TLSのセットアップ、プロバイダへのルーティング、モデル実行、戻りの経路が含まれます。

セルフホストの推論では多くのインターネットホップを除けますが、ローカルのボトルネックが増えます。GPUの競合、ディスク読み出し、遅いトークナイゼーションなどは予想以上に影響します。特にサーバが他の負荷も抱えている場合は顕著です。

ピークトラフィック時に話は変わります。API呼び出しはプロバイダ側でキューイングされることがあり、セルフホストは自社GPU上でキューが発生します。「平均的には速い」でも50人が同時に質問すると「スパイクして使えない」ことがあります。

コールドスタートも本番では現れます。オートスケールするポッド、ゲートウェイ、モデル重みのロードがユーザーが必要とした瞬間に1秒の応答を15秒に延ばすことがあります。

体験を守るUXの戦術

モデルを変えずにアシスタントを速く感じさせる方法はあります：

トークンをストリーミングして進捗を見せる。
短い「処理中」メッセージを表示し、部分的な結果（最初のステップや要約）を見せる。
明確なタイムアウトを設定し、簡易な回答にフォールバックする（「上位3つの可能性はこちら」など）。
よくある回答をキャッシュし、繰り返しの検索には埋め込みを再利用する。
送るプロンプトを小さく保つ（最も関連する文脈だけを送る）。

例：AppMaster で作られた顧客ポータルの「請求書はどこ？」アシスタントは、まずアカウント確認と直近5件の請求書をDBから引き出して即座に表示できます。LLMの応答が遅くても、ユーザーは既に有用なデータを見ているため、最終メッセージは「遅延」ではなく「助け」になります。

コスト予測：予測できるものとできないもの

コストは「1メッセージいくら」だけではありません。どれだけ頻繁に使われるか、各プロンプトの長さ、アシスタントができることがコストに影響します。APIかセルフホストかの違いは、コストがメーター式（API）に近いか、キャパシティプランニング式（セルフホスト）に近いかです。

APIでは通常、課金は幾つかの要因で決まります：入出力のトークン数（プロンプト、モデルの回答、システム指示）、選んだモデルの階層、そして関数呼び出しや検索などの追加ツール作業です。パイロットには向いていますが、利用がスパイクすると請求も急増します。

セルフホスティングは1件あたりが安く見えることがありますが、無料ではありません。GPU（過剰プロビジョニングでアイドル化することもある）、ストレージ、ネットワーキング、監視、そして運用する人件費が必要です。最大の隠れコストはリスクです：繁忙日にモデルがクラッシュしたり、ロールアウトが失敗するとダウンタイムと信頼損失が生じます。

両環境でコストを予測しにくくするのは、最初にうまくコントロールできない振る舞いです：長いプロンプト（チャット履歴や大きな知識塊）、タイムアウト後のリトライ、悪用など。ユーザーが大きな文書を貼り付けたり、ロジックのループがモデルを何度も呼ぶことがあります。アシスタントがアクションを実行できる場合、ツール呼び出しが急増します。

費用を抑えつつ体験を壊さない方法：

日次・月次の予算を設定しアラートを出す。上限に達したらどうするかを決める。
無料プラン向けにユーザーやワークスペースごとのレート制限を追加する。
回答長（max tokens）やチャット履歴サイズにハードリミットを設ける。
よくある回答をキャッシュし、古い文脈は要約してトークンを削減する。
巨大な入力や繰り返しのリトライをブロックする。

例：AppMaster で作った顧客ポータルのアシスタントは最初は短い「アカウントと請求」Q&Aから始められますが、後でチケット検索、長いスレッドの要約、返信下書きを許すとトークン使用は一晩で跳ね上がる可能性があります。初期から上限を設けておけば財務上の驚きは減ります。

価格仮説を早く検証したければ、小さなパイロットを作ってタスクごとのトークン量を計測し、全員に公開する前に制限を厳しくしてください。

運用負荷：信頼性とセキュリティの所有者は誰か

Help teams move faster

Give support and ops teams an assistant that searches records and suggests next steps safely.

Create internal tool

OpenAI API とセルフホストLLMの議論ではモデル品質に注目しがちですが、本番での日常的な大きな問いは「アシスタントを安全、速く、利用可能に保つ作業を誰が引き受けるか？」です。

APIでは多くの重い作業がプロバイダに委ねられます。セルフホストではあなたのチームがプロバイダになります。それは正しい選択になり得ますが、本気で取り組む覚悟が必要です。

運用負荷には通常、モデルとサービングスタックのデプロイ（GPU、スケーリング、バックアップ）、信頼できるアラートを伴うレイテンシとエラーの監視、定期的なパッチ適用、鍵と資格情報のローテーション、障害や容量スパイク時の対応が含まれます。

モデルのアップデートも手間です。セルフホストのモデル、ドライバ、推論エンジンは頻繁に変わり、それぞれが応答の微妙な変化をもたらします。ユーザーはそれを「アシスタントが悪くなった」と感じることがあります。APIでもアップグレードは起きますが、GPUドライバやカーネルパッチを自分で管理する必要はありません。

品質ドリフトを軽減する簡単な方法は、アシスタントを他の機能と同じようにテストすることです：

実際のユーザー質問の小さなセットを回帰スイートとして保つ。
データ漏洩や安全上の失敗をチェックする。
重要なワークフロー（返金、アカウントアクセス）の回答の一貫性を追跡する。
会話のサンプルを週次でレビューする。

セキュリティは「データがサーバを出ない」だけではありません。シークレット管理、アクセスログ、インシデント対応も含みます。モデルのエンドポイントキーを誰かが入手したらコストを走らせたりプロンプトを抽出されたりする可能性があります。プロンプトを安全にログし、メールやIDをマスクするかどうかを検討してください。

オンコールの現実も重要です。2時にアシスタントが壊れたとき、APIなら優雅に劣化してリトライするだけで済むことが多いですが、セルフホストではGPUノードの復旧、ディスクフル、失敗したデプロイの対応のために担当者が呼び出される可能性があります。

AppMaster のようなプラットフォームで構築するなら、これらの任務を機能の一部として計画してください。アシスタントは製品の表面です。所有者、ランブック、障害時の明確な対応計画が必要です。

選択するための実践的なステップバイステップ

Lock down access control

Use pre-built authentication and permissions so the assistant only sees what it should.

Add auth

まず、プロダクト内でアシスタントにやらせたいことを明確にしてください。「チャット」という曖昧な定義ではなく、テストできる仕事に落とします：ドキュメントから質問に答える、返信を下書きする、チケットを振り分ける、あるいは「パスワードをリセットする」「請求書を作成する」といったデータを変更するアクションです。アシスタントが変更できる範囲が広いほど、制御と監査が必要です。

次にプライバシー境界を描きます。アシスタントが見る可能性のあるデータ（メッセージ、アカウント詳細、ファイル、ログ）を列挙し、それぞれを低・中・高の感度でタグ付けします。高は通常、規制対象データ、シークレット、露出すると困るものを指します。このステップが、ホストされたAPIで許容できるか、強力なマスキングが必要か、一部のワークロードを自社サーバに留めるべきかを決めることが多いです。

次に測定できる目標を設定します。数値がなければ公平な比較はできません。

典型的な応答のp95レイテンシ目標（アクション実行フローと分けて設定する）。
月次の支出上限と何がコストに含まれるか（トークン、GPU、ストレージ、サポート時間）。
可用性の期待値とモデルがダウンしたときの対応。
安全要件（ブロックするトピック、ログ、人的レビュー）。
品質基準と「良い」回答をどう評価するか。

これらの制約とリスク許容度に合うアーキテクチャを選んでください。ホストされたAPIは多くの場合、許容できる品質に最短で到達でき、運用負荷が低いです。セルフホストは、データを外に出せない場合や、アップデートや挙動を厳密に制御する必要がある場合に適します。多くのチームはハイブリッドに落ち着きます：大部分のクエリはプライマリモデル（API）で処理し、レイテンシが悪化したりクォータに達したり、感度の高いデータを検出した場合はフォールバックを使う構成です。

最後に、実際のトラフィックで小さなパイロットを回してください。例としては「サポートチケットを要約して返信案を作る」ワークフローだけを1週間運用し、p95レイテンシ、チケット解決あたりのコスト、修正が必要な回答の割合を測ります。AppMaster のようなプラットフォームを使うなら、パイロットは狭く保ち：1画面、1データソース、明確なログ、容易な停止スイッチを用意してください。

チームが陥りがちなミス（回避方法）

多くのチームはこの選択を純粋なベンダー選びだと考えがちです。実際の本番問題の多くは、モデル品質に気を取られて見落としがちな基本的な部分から来ます。

ミス1：セルフホストすれば自動的にプライベートだと思う

自社サーバでオープンソースモデルを動かすことは助けになりますが、データが安全になるわけではありません。プロンプトはアプリのログ、トレーシングツール、エラーレポート、データベースバックアップに残ることがあります。たとえ「一時的」に出力したデバッグログも永続化する可能性があります。

これを避けるには、プロンプトに許される内容、プロンプトをどこに保存するか（保存しないか）、保持期間を明確にしたデータポリシーを設定してください。

ミス2：生の顧客データをそのままプロンプトで送る

完全なチケット、メール、プロフィールをプロンプトに入れるのは「精度が上がる」ように見えますが、電話番号、住所、支払い情報を漏らすリスクも高まります。まずは要約して送り、ダンプしないのが基本です。

ルールの一例：会話を丸ごと貼るのではなく、最後の顧客質問、関連する注文ID、短いステータスノートだけを抽出して送る。

ミス3：悪用対策や請求に関する計画がない

アシスタントをユーザーに公開すると、誰かがプロンプトインジェクションやスパム、繰り返しの高コストリクエストを試みると考えてください。これは安全性とコストの両面に影響します。

簡単に導入できる対策：

認証とレート制限の設置。
「返金」や「アカウント削除」などのツールアクションは明確にログ化し、制限をかける。
入力長の制限とタイムアウトで暴走を止める。
ユーザー／ワークスペースごとの利用状況を監視する。
不審なシグナルがあれば「セーフモード」のフォールバックを返す。

ミス4：評価なしで公開する

数回の手動チャットで十分だと考えて公開してしまい、その後のモデルアップデートやプロンプト変更で重要なフローが壊れることがあります。

実際のタスクを反映した小さなテストセット（30〜50件）を用意し、リリース前に実行してください。ほとんどの回帰はこれで捕まえられます。

ミス5：早すぎる過剰投資

GPUを買い、オーケストレーションを入れ、モデルをチューニングするのはユーザーのニーズが明確になってからで十分です。まずは価値を示す最小のものから始めて、後で強化してください。

AppMaster でアプリを構築する場合の良い初期パターンは、アシスタントロジックを制御されたビジネスプロセス内に収めることです：入力をサニタイズし、必要なフィールドだけを取得し、意思決定をログに残す。これがスケール前のガードレールになります。

本番公開前のクイックチェックリスト

Create a customer portal assistant

Ship a customer portal assistant that answers fast using your own order and invoice data.

Build portal

実ユーザーに公開する前に、他の本番機能と同じように境界を定め、測定し、失敗に備えてください。OpenAI API かセルフホストかに関わらず、弱点はアプリの中で似た形になります。

データルールから始めます。モデルが見てよいものを正確に書き出してください。「チケット件名と直近3件だけ」などの具体的なポリシーが曖昧な指針より優れます。

事前出荷チェックリストの例：

データ： 許可するフィールド（と禁止するフィールド）を列挙。パスワード、完全な支払い情報、アクセストークン、フル住所などの機密はマスクまたは削除。プロンプトと応答をどのくらい保存するか、誰が閲覧できるかを決める。
パフォーマンス： 目標p95レイテンシを設定（例：短い回答で3秒以下）。ハードタイムアウトと、ユーザーが進めるためのフォールバックメッセージを定義する。
コスト： ユーザーごとの上限（分単位・日単位）、異常検知アラート、驚きの請求を避ける月次キャップを設定し、安全に失敗する挙動を決める。
品質： 実際の質問20〜50件の評価セットを作り、「良い」回答の基準を決める。プロンプト変更やモデル交換時の軽量なレビュー手順を用意する。
運用： 成功率、レイテンシ、リクエストあたりコストを監視。個人情報を晒さずにデバッグできる十分なコンテキストでエラーをログ。インシデントの担当者とオンコール手順を割り当てる。

パフォーマンス低下は忘れがちな場所で起きます：遅い検索クエリ、過大なコンテキスト、積み重なるリトライなどです。アシスタントが時間内に答えられないときは、それを明確に伝え、次善のアクション（検索提案やサポートへの引き継ぎ）を提示してください。

具体例：顧客ポータルでは注文状況とヘルプ記事は参照させても、支払いフィールドはブロックしてください。AppMaster のようなノーコードツールでポータルを作る場合、同じルールをデータモデルとビジネスロジックに組み込み、プロンプトが創造的に回り込めないようにします。

例シナリオ：制約のある顧客ポータルアシスタント

Launch an assistant pilot

Build a small in-app assistant pilot with real users, clear limits, and an easy fallback.

Start building

中堅の小売が顧客ポータルにアシスタントを入れたいとします。顧客は「注文はどこ？」、「配送先住所を変更できるか？」、「返品や保証に関する基本FAQ」を尋ねます。アシスタントは素早く答え、個人データを漏らしてはいけません。

有用であるためにアシスタントが必要とするデータはごく小さくて済みます：注文ID、配送状態（準備中、出荷済み、配達中、配達済み）、いくつかのタイムスタンプ。フル住所、支払い情報、顧客メッセージ、内部メモは不要です。

実用的なルールはデータを二つのバケットに分けることです：

許可するもの： 注文ID、ステータスコード、配送業者名、推定配達日、返品ポリシーの文言
決して送らない： 氏名、住所、メール、電話、支払い情報、内部エージェントのメモ

オプションA：スピード重視で OpenAI API を使う

早く立ち上げたいならモデルをライティングレイヤーとして扱い、事実は自分のシステムに保持します。バックエンドで注文状態を取得し、モデルには例えば「Order 74192 is Shipped. ETA: Jan 31. Provide a friendly update and offer next steps if delivery is late.」のように赤裸々な顧客データを送らない形で渡します。これにより生の顧客記録を送らずに済みます。

ここでもガードレールは重要です：プロンプト前のマスキング、プロンプトインジェクション（「前の指示を無視せよ」など）をブロック、監査用に送った内容をログする。応答が遅かったり不確かだったりした場合の明確なフォールバックも用意してください。

オプションB：より厳しい境界のためのセルフホスト

「顧客データはネットワーク外に出してはいけない」というルールならセルフホストが向きます。ただしそれはアシスタントを自社で運用する機能にすることを意味します：GPU、スケーリング、監視、パッチ適用、オンコール体制などです。

現実的な計画はスタッフの割当、少なくとも1台のGPUマシンの予算、負荷試験を含みます。モデルがアプリサーバに近ければレイテンシは良くなりますが、ピークトラフィックに対応できるようハードウェアを適切にサイズする必要があります。

よく使われるハイブリッド

敏感な手順（注文状況の取得や本人確認）はセルフホストやルールベースで処理し、個人データを含まない文言作成や一般FAQの表現はAPIモデルに任せる方法です。AppMaster のようなプラットフォームでポータルを作れば、データアクセスとビジネスルールはバックエンドに置きつつ、後で“response writer”だけを切り替えられる設計が可能です。

次のステップ：決めて、パイロットを回し、過剰投資を避ける

プロダクション用のアシスタントは一度決めたら終わりというものではありません。実ユーザーが触るとモデル選択、プロンプト、ツール、プライバシー境界はいずれ変わります。

まずは価値が明確で境界がはっきりした1つのフローから始めてください。「最後の請求書を見つけて明細を説明する」は「アカウントについて何でも答える」より測定しやすく安全です。アシスタントが今日時間を節約できる箇所を1つ選び、「改善」の定義を決めます。

1〜2週間で回せる簡単なパイロット計画

ルールを先に書いてから作る：

高価値タスク1つとユーザーグループ1つを選ぶ（例：管理者のみ）。
成功指標を定める（タスク完了率、節約時間、人的引き継ぎ率、ユーザー満足）。
平易な言葉でデータポリシーを定義する：アシスタントが見てよいもの、決して見てはいけないもの、保持期間、監査要件。
承認済みのソース（ドキュメント、限定されたアカウントフィールド）だけを読む薄い実装を作り、すべての回答をログする。
短期間のパイロットを行い、失敗事例をレビューして、拡張するか方針を変えるか停止するかを判断する。

ポリシーはプロバイダ選択より重要です。ポリシーが「生の顧客メッセージは外部に出さない」と言うならセルフホストか強力なマスキングに傾きます。限定された文脈を送ることが許されるなら、APIは特徴検証に迅速に使えます。

初日から変更を見越した設計

1モデルで始めても、モデル交換、プロンプト修正、検索のチューニングは必ず起きます。30〜50件の匿名化した実データ質問と許容回答例を回帰セットとして保持し、プロンプトやモデルを変えるたびに再実行して自信を持ってデプロイしてください。

アシスタントを単なるチャットボックスではなく製品機能にするつもりなら、バックエンドチェック、UIの状態、モバイルでの振る舞いまで含めた全体の道筋を計画してください。AppMaster (appmaster.io) はバックエンドロジック、Web UI、ネイティブモバイル画面を一緒に構築して反復するのを助け、データアクセスルールを一か所で管理したままクラウドにデプロイしたりソースコードをエクスポートしたりできます。

よくある質問

最初に作るべきアプリ内アシスタントは「仕事」を定義することから始めてください。FAQに答える、レコードを検索する、チケット作成などのアクションを実行する、などです。アシスタントが扱えるプライベートデータやシステムの変更範囲が広いほど、厳格な権限管理、ログ記録、そして不確かな場合の安全なフォールバックが必要になります。

ホスティングされたAPIはインフラやスケーリングをプロバイダが担うため、使えるパイロットを素早く立ち上げるのに向いています。一方で、顧客データが自社ネットワーク外に出てはいけないというルールがある場合や、デプロイやオンコール運用を自社で負担する準備がある場合は、セルフホスティングが適しています。

実際に露出するのはユーザーが入力したテキストそのものではなく、あなたがモデルに送るプロンプトです。チャット履歴、注入するアカウント情報、取り出した文書の抜粋、ツールの出力などがすべてリクエストに含まれる可能性があるため、何を送るかを意図的に制限しないとそれらが露出します。

いいえ。セルフホスティングはデータを自社ネットワーク内に留められる可能性を高めますが、プライバシーやコンプライアンスが自動的に解決されるわけではありません。会話へのアクセス制御、バックアップの保護、プロンプトデータがログに混入しない対策、デバッグ用データの保持・削除ポリシーなどを用意する必要があります。

特定のタスクに必要なフィールドだけを送ることが基本です。可能ならメールや電話の代わりにユーザーIDなどの安定した識別子を使い、支払い情報、パスワード、アクセストークン、フルアドレス、内部メモは原則としてプロンプトに含めないでください。

ユーザーはワークフローの途中で待たされると作業が止まったと感じます。単に平均が速いだけでなく、p95（95パーセンタイル）のレイテンシ目標を設定することを目指してください。部分的な出力のストリーミング、短いタイムアウト、データベースからの即時表示などで体感速度を改善できます。

キャッシュでよくある回答を保存したり、検索の結果を再利用したり、古い会話は要約してプロンプトを小さく保つなどでレイテンシを下げられます。モデル呼び出しをループさせない、入出力サイズに上限を設ける、リトライがトークン使用量を増やさないようにすることも重要です。

APIではトークン量、リトライ、文脈の長さによってコストが増えます。セルフホスティングではGPUや監視、アップデート、ダウンタイムのリスクとそれを運用する人件費が主なコストです。いずれも利用パターン次第で予測が難しくなる要素があります。

認証で保護し、ユーザーごとのレート制限を設け、大きな入力をブロックすることでトークンの暴発や悪用を防げます。アクション実行機能がある場合は明示的な確認を必須にし、バックエンドで権限を強制し、各操作をログに残して監査やロールバックを可能にしてください。

出荷前に実世界の質問を少数まとめた回帰テストセットを作り、リリース前やプロンプト変更、モデル切替のたびに実行してください。p95レイテンシ、エラー率、リクエストあたりのコスト、人間の編集が必要な回答の割合など、いくつかの指標を追えば品質の維持に役立ちます。