こんにちは、K.Platinum代表の沼田です。
24歳でこの会社を立ち上げて、いま3期目。17人のITコンサルチームで、製造業のAI/RAG案件をかなりの本数こなしています。
最近、現場で経営者や情シスからもらう質問の傾向が、明らかに変わってきました。
「ChatGPT使えば早いのは分かるんですが、工場内のサーバから外に出せないんですよね」
「Claudeも結局クラウドだから、設計図を読ませるところまでは持っていけない」
「LLMの月額が予想の3倍になってきてる、これ続けて大丈夫ですか?」
去年までは「うちもAI入れたい」だったのが、今年は「クラウドLLMを使わないAIの組み立て方」を聞かれるようになった。
これ、僕の体感ではかなり大きな転換点で、答えとして真っ先に出すのがSLM(小規模言語モデル)のオンプレ運用です。
この記事では、僕らが手掛けた中堅製造業の事例をベースに、7BパラメータのSLMを工場サーバ1台に置いて、運用コストを75%下げた話を、わりと生々しめに書きます。
2026年、LLM運用コストが「クラウド従量 vs SLMオンプレ」に二極化した話
業界の話を1分だけ整理させてください。
2026年に入ってから、LLM運用の話題はいくつかの軸で二極化しています。
- モデルサイズの軸:70B〜170B級の巨大LLM vs 7B級のSLM
- 運用形態の軸:クラウド従量課金 vs オンプレ/エッジ運用
- 用途の軸:汎用チャット vs 業務特化タスク
- コストの軸:トークン課金(青天井) vs サーバ固定費(上限あり)
特にコストの軸が、エンタープライズ側にとってクリティカルになってきています。SLMの運用コストは、LLMの10〜30分の1というレポートが各所から出ている。Microsoftが公開しているPhi系SLMでも、オンプレ/エッジで業務に組み込むことでAIインフラコストを最大75%削減できるという試算が各所から示されています。
ここで僕がもう一段強調したいのは、コストだけじゃなくて「クラウド従量課金は、月末に請求書が来るまで上限が分からない」という心理的・経営的な負担が想像以上に重い、ということです。中堅以下のメーカーで「今月いくら来るんだろう……」と毎月情シスがビクビクするタイプのAI運用は、いずれ経営判断で止まります。
製造業の現場では、ChatGPTもClaudeも入れない
ここからが本題で、製造業の現場には、AIを入れるうえで他業種と決定的に違う3つの壁があります。
壁① 情報持ち出し規定が厳しい
工場で扱う設計図・図面・治具情報・歩留まりデータは、契約上は親会社や元請けの所有物。
社員のPCからクラウドサービスに送信するだけで違反扱いになるケースが本当に多い。「ChatGPT禁止」「Claude禁止」と社内通達されている工場は、僕の感覚では中堅製造業の半数を超えています。
壁② 工場内ネットワークが社内ネットから物理分離されている
製造業の工場ネットワークは、サイバー攻撃対策で社内ネットから物理的に切り離されているケースがほとんど。
社内ネットからクラウドLLMにつなぐ運用は組めても、「現場の作業者がタブレットでAIに質問する」みたいなユースケースは、物理的に届かないんです。
壁③ 現場のレイテンシ要件が厳しい
製造業のオペレーションは、秒単位で動く。
「この工程のFAQをAIに聞いたら3秒で返してほしい」が現場の感覚で、クラウド経由で7秒かかったらもう使われない。クラウドLLMの普通のレイテンシ(3〜10秒)は、製造業の現場では「遅すぎる」判定になります。
この3つの壁を全部突破できるのが、SLMのオンプレ運用です。
K.Platinumが7B SLMを"工場サーバ1台"に置いた話
具体的なプロジェクトの話をします。お客様名は伏せますが、年商200億円弱の中堅製造業で、社員数500人くらい、工場を3拠点もっている会社さんです。
最初の依頼は「設計図FAQをAIで答えられるようにしたい」というシンプルなものでした。設計者が新人に対して同じ質問を毎日何回も答えていて、現場の時間が削られている、というよくある課題。
で、最初に提案されていた構成が、クラウドのRAG(Retrieval Augmented Generation)でした。普通にやろうとすると、まずクラウドに設計図PDFをアップロードしないといけない。これがそもそもNGでした。
僕らはここで構成を全面的に組み替えて、こうしました。
採用構成
- モデル:Microsoft Phi-3-Small(7Bパラメータ)の日本語ファインチューン版
- サーバ:工場内サーバ1台(GPU 1枚搭載、RTX 4090ベース)
- ベクトルDB:同サーバ内に同居(Chroma + 設計図PDFを章単位でチャンク化)
- 配信:工場内ネットワーク経由で社員タブレットから接続
- クラウド側との通信:ゼロ。完全ローカル
サーバ調達からセットアップまで含めて、6週間で1拠点目を稼働。3か月後に3拠点全部に同じ構成を横展開しました。
ハマったところ
正直、5割くらいは予想通り、5割くらいは予想外でした。
予想通りだったのは、Phi-3-Small単体だと日本語の専門用語が弱い、というところ。これはあらかじめ覚悟していたので、業界固有の用語辞書を1500語ほどファインチューンして解決しています。
予想外だったのは、「現場の質問が想定以上に断片的」という点でした。設計者向けに考えた質問サンプルでテストしてOKだったのに、現場の作業者が出してくる質問は「これ、何の番号?」「これ何mmだっけ?」みたいな2〜3単語の断片。
SLMは文脈推定力でLLMにやや劣るので、ここのためにフロント側で「最後の操作画面をプロンプトに自動付加する」仕組みを足しました。
3か月後に運用が安定して、いまは1日あたり1拠点あたり200〜300クエリくらい走っています。
——ちょっと宣伝です。こういう「クラウドが使えない前提」でAIをゼロから組み立てる仕事を面白がれるエンジニアと、僕らは一緒に働きたいと思っています。気になる方はエンジニア採用ページも覗いてみてください。
コスト1/15、レイテンシ1/3、機密漏洩リスクゼロの実測値

ここが今回の記事でいちばん書きたかった話です。
社内で「クラウドLLM vs SLMオンプレ」を導入前に1か月併走比較したときの実測値を、ざっくり共有します(顧客承諾済み)。
コスト比較(月額換算)
- クラウドLLM(汎用大手モデル、想定運用ボリューム):約月15万円〜30万円
- SLMオンプレ:サーバ減価償却+電気代+運用工数で月1万円相当
ざっくり1/15〜1/30になりました。サーバ初期費用(GPU込み)は約80〜100万円程度ですが、3年運用想定で割り戻すと月3万円弱で、それでもクラウドより全然安い。
レイテンシ比較
- クラウドLLM:平均3〜10秒(リクエストサイズによる)
- SLMオンプレ:平均1〜3秒
体感1/3くらい。現場タブレットで使うレベルだと、3秒以内に返ってくるかどうかで使い倒されるか放置されるかが決まるので、ここの差は本当に大きい。
機密性
- クラウドLLM:クラウド事業者のリージョン・ログ保管ポリシーに依存
- SLMオンプレ:外部通信ゼロ
これに尽きます。情シスが「外部送信なし」と保証できる状態は、製造業ではほぼ無敵の建付けです。
精度トレードオフ
ここは正直に書きます。SLMは汎用的な質問には弱い。「AIってどういうこと?」みたいな概念質問を投げると、明らかにクラウドLLMより薄い回答が返ってきます。
ただ、業務絞り込みありの設計図FAQ/帳票要約/作業日報整形みたいなタスクだと、十分実用域。「業務特化なら勝てる、汎用は勝てない」と割り切るのが大事です。
SLMオンプレが向く業務/向かない業務の見極めチェックリスト

中堅製造業に展開してみて見えてきた、SLMオンプレが向く/向かないの5軸チェックリストを共有します。
① 業務粒度:細かいタスクの組み合わせか/汎用対話か
- 向く:「決まったテンプレートに沿った回答」「特定領域の知識ベースFAQ」「帳票・日報の整形」
- 向かない:「自由対話」「クリエイティブ生成」
② データ機密性:外に出せるか/出せないか
- 向く:「設計図」「歩留まりデータ」「個人情報を含む顧客データ」
- 向かない:機密性が低い公開情報の活用(コスト面でクラウドが優位なケースが多い)
③ タスクの多様性:1〜5種類で済むか/何でも来るか
- 向く:用途が3〜5種類に絞れる
- 向かない:10種類以上の業務を1モデルで賄いたい
④ 利用頻度:日次・時間単位で来るか/月数回か
- 向く:高頻度(サーバを遊ばせない)
- 向かない:低頻度(クラウド従量のほうが安くなる)
⑤ 運用人員:社内に1人でも面倒見られるか/完全おまかせか
- 向く:社内に1人でもDevOps・MLOpsの素地がある
- 向かない:完全アウトソース前提(外部運用ベンダーが必要)
この5軸で、3つ以上「向く」側に振れたら、SLMオンプレを検討する価値が十分にあります。
おわりに — クラウドLLMを"使わない選択肢"を持っておく
ここまで読んで、「ウチの工場でもいけるかも」と思ってもらえたら嬉しいです。
僕らK.Platinumは17人と小さい組織ですが、中堅製造業のAI/RAG案件をこの1年で何本も走らせていて、その中で「クラウドLLM一択じゃないんだ」と気付けたのは大きな転換点でした。
クラウドLLMがダメ、と言いたいわけじゃないです。汎用対話やクリエイティブ生成はクラウドのほうが圧倒的に強い。
ただ、製造業の現場では「ChatGPTもClaudeも入れない」という前提が当たり前にある。その前提のうえで、SLMオンプレという選択肢を最初から机に乗せておくことが、中堅製造業の情シス・DX推進にとってめちゃくちゃ大事になってきています。
「うちの工場、設計図FAQから始められそうか相談したい」みたいなのも気軽に投げてもらえると嬉しいです。
それでは、また次の記事で。
沼田海斗(ぬまた・かいと)
株式会社K.Platinum代表。24歳で同社を創業し、中堅製造業を中心としたAI/RAG・ITコンサルティング案件を数多く手がける。「エンジニアが実力で正当に評価される社会」の実現を目指している。
K.Platinumでは一緒に働くエンジニアを募集しています。「実力で正当に評価される環境」に興味がある方は、ぜひ採用ページをご覧ください。

