Contents
RAGの運用費は「使うほど増える」構造になりやすい
RAG(Retrieval Augmented Generation)は、社内文書やナレッジベースを検索し、その結果をLLM(生成AI)に渡して回答を作る仕組みです。社内FAQ、問い合わせ対応、手順書検索、規程の参照など「業務のど真ん中」で使える反面、運用が軌道に乗るほど費用が膨らみやすい特徴があります。
増え方が見えにくい理由は、費用が「モデル利用(従量課金)」と「検索・データ基盤(保守)」の二重構造になっているからです。たとえば同じ「月間1万回利用」でも、質問が長い・資料が大きい・検索が下手で無駄に文書を詰め込む、といった条件が重なると、トークン課金(入出力の文字量に応じた課金)と周辺リソース費用が同時に増えます。
さらに、RAGは導入時に「まず動かす」ことができても、運用で次のような“じわじわコスト”が発生します。たとえば、社内文書の追加・改訂が頻繁で再取り込みが必要、部署ごとに権限が違ってアクセス制御が複雑、回答品質を保つために継続的な評価・改善が必要、といった点です。結果として、当初見積もりでは見えにくい保守工数が積み上がります。
本記事では、専門知識がなくても「どこで費用が増えるのか」を見抜けるように、RAGの費用構造を分解し、増加要因を特定するチェック方法と、従量課金・保守コストを抑える設計パターンを解説します。ポイントは“使い方を制限する”ではなく、“無駄な処理を減らす”ことです。
3分でできる! 開発費用のカンタン概算見積もりはこちら
費用の全体像:従量課金(トークン)と保守コストを分解する
RAGの運用費は、大きく「毎回の問い合わせで発生する費用」と「システムを維持する費用」に分けると理解しやすくなります。ここを混ぜて見ると、原因が特定できず、対策もブレます。
従量課金(変動費)の中心はLLMの利用料金です。多くの生成AIは、入力(プロンプト)と出力(回答)のトークン量に応じて課金されます。RAGでは、検索で拾った文書(コンテキスト)をプロンプトに付けるため、同じ質問でも「何を何ページ分渡したか」で入力トークンが大きく変わります。つまり、検索・要約・文書分割の設計が悪いと、モデル利用費が増えます。
保守コスト(固定〜準固定費)には、検索基盤(ベクトルDBや検索エンジン)、データ格納(ストレージ)、ETL/取り込み(クローラやバッチ)、監視(ログ・アラート)、権限管理、品質評価(テストデータ、評価基盤)、運用人件費などが入ります。クラウドの場合、インスタンス常時稼働・ログ保存・インデックス更新頻度などがコストを左右します。
ここで重要なのが、RAGは「LLM課金だけ見ていると失敗しやすい」点です。実務では、問い合わせが増えるにつれてログ量・評価回数・データ更新・インデックス再構築が増え、保守工数が拡大します。逆に、モデルが高性能でも、データ整備が追いつかず品質が落ちると、結局はチューニング工数が増えます。
まずは費用を次の6カテゴリに分けて、社内見積もり・ベンダー見積もり・請求書の内訳がどこに入るか整理してください。分類できれば「増えているのは何のせいか」が見えます。
- LLM利用(入力・出力トークン、ツール呼び出し)
- 検索(ベクトルDB/検索エンジン、インデックス、クエリ回数)
- データ取り込み(クローリング、PDF/Office変換、分割、埋め込み生成)
- 保存(ストレージ、バックアップ、ログ保管)
- 運用(監視、障害対応、セキュリティ、権限管理)
- 品質(評価データ作成、テスト、改善サイクル)
運用費が増える“典型要因”チェックリスト(非エンジニア向け)
ここからは、情シスや管理側でも判断しやすい「増加要因」を、現場でよくある症状として整理します。各項目は、RAGの設計ミスというより、運用で自然に起きやすい“落とし穴”です。該当が多いほど、費用が上振れする可能性が高いと考えてください。
トークン(従量課金)が増える症状
- 回答がやたら長い(要点がまとまらず、説明が冗長)
- 質問文が長文化しがち(ユーザーが前置きや状況説明を大量に書く)
- 検索結果を大量にプロンプトへ貼り付けている(関連が薄い文書まで投入)
- 同じ質問でも毎回ゼロから検索・生成している(キャッシュがない)
- 「念のため」複数モデルや複数回の生成を実行している(再生成・自己検証が多い)
RAGは「検索で当たりを引く確率を上げたい」気持ちから、つい多めの文書を渡しがちです。しかし、コンテキストを増やすほど入力トークンが増え、モデルも迷いやすくなります。費用と品質は“文書を増やせば比例して良くなる”わけではありません。
検索・データ基盤(保守)が増える症状
- 文書の更新が多く、取り込みが追いつかない(更新漏れで回答が古い)
- 部署ごとに保管場所がバラバラ(SharePoint、Google Drive、ファイルサーバー、Box等)
- PDFや画像が多く、変換・OCRが必要(処理コストと失敗率が上がる)
- 権限が細かく、誤回答より“情報漏えい”が怖い(アクセス制御が複雑)
- ログを長期間フル保存していて容量が肥大化(監査対応で削れない)
RAGはデータが増えるほど便利になりますが、同時に「取り込み・権限・監視・品質」を回す負担も増えます。運用の現実として、AI担当者が少人数だと、改善より“追いつくだけ”で手一杯になりがちです。保守を軽くするには、技術より先に“運用の型”を作る必要があります。
品質改善の工数が増える症状
- 「たまに間違う」ではなく「どこが悪いか分からない」
- 部門ごとに正解が違い、評価基準が決まらない
- 回答の根拠(参照文書)が示されず、確認に時間がかかる
- 質問の言い回しに弱く、ユーザー教育が必要になっている
品質が不安定だと、現場は結局「AIの回答を確認する」二度手間になります。すると利用が伸びず、コストだけが残ることもあります。RAGの運用では、品質を“人手でなんとかする”状態を作らないのが最重要です。
3分でできる! 開発費用のカンタン概算見積もりはこちら
増加要因を数値で特定する:見るべきKPIとログの取り方
「何となく高い」では対策が打てません。RAGの費用増を止めるには、原因を“数字で”切り分ける必要があります。専門的な実装に踏み込まなくても、発注側・運用側として最低限押さえるべき指標があります。
まず、従量課金(トークン)側は次のKPIを見ます。可能なら日次で推移を取り、増えたタイミングで機能変更やデータ追加と突き合わせます。問い合わせ回数が同じでも、トークンが増えているなら設計の問題である可能性が高いです。
- 1リクエストあたりの入力トークン(平均・P95)
- 1リクエストあたりの出力トークン(平均・P95)
- 検索で取得した文書数(top-k)と、実際にプロンプトへ渡した文字数
- 再生成率(同じ質問で「もう一回」や、システム側のリトライ回数)
- キャッシュヒット率(同じ質問・同じコンテキストで再利用できた割合)
次に保守コスト側は、インデックス更新・取り込み処理・ログ保管が肥大化していないかを確認します。クラウド請求の内訳が分かれる場合は、検索基盤、ストレージ、ETL、監視にタグ付けしておくと、後から原因を追いやすくなります。
- 文書数・総文字数・ファイル容量の推移(部署別が望ましい)
- 取り込み頻度(毎日/毎週/手動)と失敗率(変換失敗、権限エラー)
- 埋め込み生成(embedding)回数・処理時間(更新が多いほど増える)
- 検索クエリ回数・レイテンシ(遅いと再試行やユーザー離脱が増える)
- ログ保存量(会話ログ、検索ログ、参照文書、監査ログ)
品質のKPIもコストに直結します。品質が悪いと再生成や問い合わせの二度手間が増え、結局トークンも運用工数も膨らみます。最低限、現場が納得する形で「良い/悪い」を判定できる仕組みが必要です。
- 回答の自己評価だけでなく、ユーザー評価(役に立った/立たない)
- 根拠提示率(参照文書を提示できた割合)
- エスカレーション率(人に回した割合)
- 検索ヒットなし率(該当文書が見つからない)
ログ設計のポイントは、会話全文を無制限に保存することではありません。後から原因を追えるように、「質問」「検索クエリ」「取得文書ID」「渡した文字数」「トークン」「応答時間」「結果の評価」を紐づけて持つのが効果的です。個人情報や機密を扱う場合は、保存範囲とマスキング(伏せ字)も合わせて設計してください。
従量課金を抑える設計:プロンプト・検索・キャッシュの3点で効く
従量課金が増える最大要因は「LLMに渡す文字量」と「無駄な再実行」です。ここでは、RAGの品質を落としにくい、現実的なコスト最適化を紹介します。重要なのは、“安いモデルに変える”より先に、そもそもトークンを使い過ぎない構造にすることです。
コンテキストを絞る:top-kを増やすより「再ランキング」と「重複除去」
検索で拾った文書をそのまま大量投入すると、入力トークンが増え、回答がぶれます。対策としては、検索結果を一度「本当に関係が深い順」に並べ替える再ランキング(rerank)や、同じ内容が繰り返される文書の重複除去が有効です。非エンジニア視点では「AIに渡す資料は、関係が深い少数に絞る」と覚えてください。
文書分割(チャンク設計)を適正化する:大きすぎても小さすぎても損
文書をどの単位で分割して検索するか(チャンクサイズ)は、RAGのコストに直結します。大きすぎると、当たったときに大量の文章を渡すことになりトークンが増えます。小さすぎると、必要情報が散らばり、複数チャンクを拾って結局文字量が増えたり、検索精度が落ちて再試行が増えます。「現場の質問が参照したい単位(手順1件、規程1項目)」に合わせるのが実務的です。
回答を短く“整形”する:要点先出しと出力上限
出力トークンも従量課金です。ユーザーは長文より「結論」「手順」「注意点」を求めます。プロンプトで要点先出しを指定し、必要なら「箇条書き、最大○項目」「最後に参照元を列挙」などフォーマットを固定すると、読みやすさとコストの両方に効きます。さらに、回答の最大文字数(または最大トークン)を業務に合わせて設定すると暴走を防げます。
キャッシュと“決め打ち回答”を使う:FAQは毎回生成しない
社内の問い合わせは偏ります。「パスワード初期化」「稟議の手順」「経費精算の締め」など、頻出質問は同じです。ここはRAGで毎回生成するのではなく、質問パターンを検知してキャッシュを返す、あるいは承認済みのテンプレ回答を返す仕組みが効果的です。生成AIは“毎回考えさせる”ほどコストもリスクも上がるため、安定運用では「生成しない設計」を増やします。
モデルの使い分け:全部を高性能モデルにしない
分類(どの部署の質問か、機密か、緊急か)や、検索クエリ生成、要約などは軽量モデルで十分なことが多いです。一方、最終回答だけ高性能モデルにするなど、段階的に使い分けるとコストが下がります。発注側としては、見積もり時に「どの処理でどのモデルを使うか」を確認し、高いモデルが“常に”呼ばれていないかをチェックしてください。
3分でできる! 開発費用のカンタン概算見積もりはこちら
保守コストを抑える運用設計:データ更新・権限・評価を“仕組み化”する
RAGの保守費が増える場面は、だいたい「データが増えた」「部署が増えた」「セキュリティ要件が上がった」「品質を求められた」です。これらは避けられません。だからこそ、最初からスケールする運用設計にしておくと、後からの改修や運用工数を抑えられます。
データ取り込みは“更新差分”で回す
全件再取り込みを頻繁に行う設計だと、埋め込み生成やインデックス更新が膨らみます。実務では「いつ更新されたか」を見て差分だけ取り込む、失敗したファイルだけ再処理する、夜間バッチでまとめる、などが効果的です。ここは費用だけでなく、更新漏れによる回答の古さ(品質低下)も防げます。差分取り込みの有無は、運用コストの分かれ目です。
“置き場所”を増やさない:ソースを絞るか、連携口を標準化する
SharePointもBoxもローカルも…となると、コネクタ管理と権限同期が難しくなります。難しい場合でも、まず対象を「最初に効果が出る部門・文書」に絞り、次に横展開するのが安全です。どうしても複数ソースが必要なら、連携方式を標準化し、運用手順を一本化します。
権限(アクセス制御)を先に決める:漏えい対策は後付けしにくい
情シスが最も気にするのは情報漏えいです。RAGでは、検索で拾った文書がそのまま回答根拠になり得るため、権限設計を曖昧にすると事故につながります。部署・役職・プロジェクト別など、どの単位でアクセスを切るのかを先に定義し、文書メタデータ(公開範囲タグ)を付けて運用できる形にします。「見せない」ことは技術ではなくルールとデータ設計です。
品質評価を定常業務にする:炎上してから直すと高い
RAGの品質は、導入直後より運用中に変動しやすいです。新しい文書が入る、規程が変わる、質問の傾向が変わる、といった理由で、検索結果や回答がズレます。そこで、代表的な質問セット(テスト質問)を作り、定期的に自動評価・目視レビューを回します。評価がないと、改善が“勘”になり、工数が増えます。
ログの保存と削除のルールを決める
監査・トラブル対応でログは重要ですが、無制限保存はコストとリスクを増やします。保存期間、保存項目、個人情報のマスキング、問い合わせ本文の扱い(全文保存か要約保存か)を決めましょう。ここは法務・セキュリティと合意した上で、運用に落とすのが現実的です。
失敗しない進め方:見積もり・PoC・本番運用で確認すべき質問
RAG導入で「想定より費用が増えた」というケースの多くは、見積もり時点で確認すべき前提が抜けていたことが原因です。非エンジニアでも、次の質問をベンダーや社内開発チームに投げるだけで、コストの地雷をかなり避けられます。“どのくらい使うか”ではなく“どう増えるか”を聞くのがコツです。
従量課金に関する確認質問
- 1問い合わせあたりの入力/出力トークンの想定は?(平均だけでなく最大も)
- 検索結果は最大何件を渡す設計?渡す文字数の上限は?
- 再生成や自己検証(複数回生成)は行う?行うなら条件と回数は?
- キャッシュはある?FAQは生成せず返せる?
- モデルはどこで使い分ける?高性能モデルは何に使う?
保守コストに関する確認質問
- データ取り込みは差分更新か?全件再取り込みはいつ発生する?
- 対象データソースは何個まで増やせる?増えたときの運用は?
- PDF/OCRが必要な比率は?変換失敗時の対応フローは?
- 権限管理はどう実装する?文書単位かフォルダ単位か?
- ログは何をどれくらい保存する?保存費用と削除ルールは?
品質と業務定着に関する確認質問
- 回答の根拠(参照元)を表示できる?ユーザーが確認できる?
- 評価方法は?テスト質問セットは誰が作り、どれくらい維持する?
- 「検索ヒットなし」「権限で見せられない」場合のUXは?
- 問い合わせが増えたとき、監視・改善は誰がどの頻度で回す?
PoC(試験導入)では、精度だけでなく「1回あたりのトークン」「検索で渡している文字数」「取り込みの手間」を必ず測ってください。精度が良くても、裏で大量の文書を渡していたら、本番で利用が増えた瞬間に費用が跳ねます。逆に、PoCで数値が取れていれば、どこを削れば費用が落ちるかが明確になります。
3分でできる! 開発費用のカンタン概算見積もりはこちら
まとめ
RAGの運用費が増える要因は、モデルの従量課金だけではなく、検索・データ取り込み・権限・評価といった保守コストが積み上がる点にあります。費用を抑える第一歩は、請求や見積もりを「LLM」「検索」「取り込み」「保存」「運用」「品質」に分解し、どこが増えているかを特定することです。
従量課金を抑えるには、コンテキストを絞る(再ランキング・重複除去)、文書分割を適正化する、出力を短く整形する、キャッシュやテンプレ回答で“生成しない”場面を作る、モデルを使い分ける、といった設計が効きます。保守コストは、差分取り込み、データソースの整理、権限設計の先行、定期評価の仕組み化、ログ保存ルールの整備で抑えられます。コスト最適化は「制限」ではなく「無駄の削減」です。
もし「自社のケースだとどこがボトルネックになりそうか」「見積もりが妥当か」「小さく始めて安全に拡張したい」といった課題があれば、要件整理と運用設計の段階から支援すると、後戻りのコストを大きく減らせます。
株式会社ソフィエイトのサービス内容
- システム開発(System Development):スマートフォンアプリ・Webシステム・AIソリューションの受託開発と運用対応
- コンサルティング(Consulting):業務・ITコンサルからプロンプト設計、導入フロー構築を伴走支援
- UI/UX・デザイン:アプリ・Webのユーザー体験設計、UI改善により操作性・業務効率を向上
- 大学発ベンチャーの強み:筑波大学との共同研究実績やAI活用による業務改善プロジェクトに強い
コメント