マルチモーダルAIがビジネスにもたらす影響とは？非構造データが現場を変える

文書を読み、数値を見て、判断する──そんなビジネスの当たり前が、転換点を迎えています。現場映像からの異常検知、顧客の声からの感情分析、製品画像からの不良品発見といった、視る・聴くの判断が、業務に組み込まれ始めています。これを支えるのが、画像・音声・動画など複数の情報を横断して処理する「マルチモーダルAI」の進化です。

特に製造・物流・カスタマーサービスといった現場業務では、帳票やテキストでは捉えきれない非構造データこそが、意思決定のカギになりつつあります。本記事では、マルチモーダルAIの進展によって、業務判断に求められる視点や情報の使い方がどう変わるのかを整理し、導入が現実味を帯びる今、企業がどこから着手すべきかを具体的に解説します。

読めない情報が判断材料に─マルチモーダルAIと非構造データの時代へ

これまでのビジネス業務は、主に書類や帳票、議事録といった「テキスト情報」を読み解くことで判断されてきました。しかし近年、現場映像からの異常検知や、通話音声からの感情分析、製品画像からの不良品判別といった、視る・聴くによる判断が業務に入り込みつつあります。

こうした判断を可能にしているのが、マルチモーダルAIの進化です。従来のAI、いわゆる「シングルモーダルAI」は、テキストや画像、音声など、単一の情報形式（モダリティ）を対象に処理していました。これに対し、マルチモーダルAIは複数のモダリティを同時に扱うことで、人間のように文脈や感情、状況の変化を捉えられます。

産総研（国立研究開発法人産業技術総合研究所）の解説でも、マルチモーダルAIは人の動作や感情といった、これまで読み取ることが難しかった情報を扱えるようになりつつあるとされており、判断の前提が大きく変わり始めていることがわかります※1。

※1：出典「マルチモーダルAIとは？科学の目でみる、社会が注目する本当の理由」（産総研・2023）

https://www.aist.go.jp/aist_j/magazine/20231129.html

「見えない情報」がビジネスの判断を左右する

GPT-4oのようなマルチモーダルAIの登場により、読むだけでは捉えきれなかった情報が、実際の業務判断に組み込まれ始めています。たとえば、顧客の表情から不満の兆候を察知したり、現場映像から作業の異常を検出したり、通話音声のトーンから感情の変化を読み取るといった、感覚的な判断が、AIによって再現されるようになっています。

Deloitteの「Tech Trends 2025」でも、テキスト・画像・音声・空間データなどを統合処理するマルチモーダルAIが、現場判断の自動化や意思決定スピードの向上を支える技術として注目されています※2。これは単なるAIの進化にはとどまりません。何を判断の根拠とするか──その基準自体が、いま大きく変わろうとしています。

※2：出典「Tech Trends 2025」（Deloitte・2025）

https://www.deloitte.com/content/dam/insights/articles/2024/us187540_tech-trends-2025/DI_Tech-trends-2025.pdf

現場に眠る非構造データが、次の競争力になる

製造・物流・カスタマーサービスなどの現場業務では、画像・音声・動画といった非構造データが日々蓄積されています。これらの情報は見過ごされがちでしたが、デジタル化やAIの進展に伴って、業務判断に活かす動きが加速しています。

実際、経済産業省とIPA（情報処理推進機構）が策定した「デジタルスキル標準」では、構造化データと非構造化データの分類に触れつつ、文字・画像・音声など多様なデータ形式を理解し、社会での活用方法を知ることがDX人材の基本スキルとして定義されています※3。経済産業省の報告書でも、生成AIを適切に導入するには、非構造データ処理や画像・音声モデルの活用といったマルチモーダル技術を扱う力が不可欠であると明記されています※4。

また、前掲のDeloitte「Tech Trends 2025」では、センサーデータや倉庫映像といった複合的な現場データを統合し、最適な判断を導くAI活用例が紹介されており、マルチモーダルAIによる現場判断の高度化が現実のものとなりつつあります。

※3：出典「デジタルスキル標準（ver.1.2／2024年）」（経済産業省／IPA・2024）

https://www.meti.go.jp/policy/it_policy/jinzai/skill_standard/20240708-p-1.pdf
※4：出典「生成AI時代のDX推進に必要な人材・スキルの考え方」（経済産業省・2024）

https://www.meti.go.jp/press/2024/06/20240628006/20240628006-b.pdf

見えているのに活かせていない─非構造データの棚卸しとユースケース

現場データが意思決定に活かされていない

現場には日々、さまざまな非構造データが蓄積されています。たとえば、製造ラインのカメラ映像、倉庫の人流データ、顧客対応時の通話録音や音声のトーンなどです。しかし、実際には、こうした情報の多くが記録や監査には使われても、業務判断の材料としては活かされていないのが現状です。

活用が進まない要因のひとつは、非構造データの分布や形式が社内で整理されていないことにあります。情報資産としての棚卸しがなされていないため、活用のきっかけすら持てていない企業も少なくありません。

非構造データが眠る場所を可視化する

マルチモーダルAIの導入は、非構造データの所在と種類を正確に把握することから始まります。以下は、主要な業務領域ごとに、非構造データの代表例と活用が進まない背景、そしてマルチモーダルAIによって期待される活用の方向性を整理したものです。

**主要業務における非構造データの分布とマルチモーダルAIの活用可能性**
業務領域	非構造データの例	活用されない要因	マルチモーダルAIによる活用可能性
製造	作業映像、振動音、センサーデータ	異常判断が属人化、データの蓄積が分散	外観検査の自動化、異常予兆の早期検出
物流・倉庫	作業映像、人流、棚カメラ画像	動線改善やリスク検知に活かされない	人流分析によるレイアウト最適化、安全管理
カスタマーサービス	通話録音、応対映像、声の抑揚	品質評価が主観的、分析コストが高い	感情分析、FAQ推薦、教育プログラムの最適化

PoC導入は、既存データの再活用から

非構造データの活用と聞くと、多くの企業が「IoT機器の新規導入」や「大規模な投資」を前提に考えがちです。しかし実際には、既存のカメラ映像や音声データを再活用するだけでも、PoC（概念実証）としてのスモールスタートは十分可能です。現場に眠るデータを可視化し、AIで分析・検証する。そのようなアプローチから始め、全社的な展開へとつなげている企業は、すでに国内外で増え始めています。実際に成果を上げた事例を紹介します。

日立製作所（日本・製造）／AI×既存カメラ映像の活用で不具合の判別100％を実現

日立製作所はGoogle Cloudと連携し、製造ラインにおける外観検査へ「Visual Inspection AI」をPoC導入しました。既存のカメラ映像と過去の学習データを活用することで、不良品の「見逃しゼロ＝不具合判別率100％」を達成。精度・スピードともに現場運用に耐える水準が確認されました。現場スタッフが自ら扱える操作性を重視した運用により、PoCから実用フェーズへの移行もスムーズに進んでいます。

※5：出典「日立製作所：品質管理に Visual Inspection AI を利用した画像認識を導入し PoC で不具合判別率 100% を達成」（Google Cloud ・2023）

https://cloud.google.com/customers/hitachi

Outokumpu（フィンランド・製造）／AIで表面検査を高度化し、品質管理の一貫性を実現

欧州最大級のステンレス鋼メーカーOutokumpuは、既存の表面検査システムにAIを導入し、微細な欠陥を高精度で検出する仕組みを構築しました。人間の目では見落としやすい微小な不良も、AIが一貫して捉えることで、検査の精度と均質性が大幅に向上。この仕組みは、グローバルでの品質基準統一や効率的な品質保証体制の構築にも貢献しています。

※6：出典「AI in Action: Surface Defect Detection in Outokumpu Stainless Steel」（Nortal・2024）

https://nortal.com/insights/ai-in-action-surface-defect-detection-in-outokumpu-stainless-steel

Upwork（アメリカ・IT）／AIによる対応自動化でセルフサーブ率を最大65％に向上

クラウド型業務委託プラットフォームを展開するUpworkは、Forethought社のAIソリューション「Solve」を導入し、顧客からの問い合わせを自動分類・解決する仕組みを構築しました。導入前は約45％だったセルフサーブ率が、チャットウィジェット経由で平均52〜65％まで向上。顧客からの問い合わせの多くをAIで一次対応できるようになり、サポート体制全体の処理効率と応答品質の両立を実現しています。

※7：出典「Upwork Reduces Time to Resolution by 50% with Forethought」（Forethought・2022）

https://forethought.ai/case-studies/upwork

「視て聴く」判断力が、サービス設計と競争戦略を変える

PoC導入によって非構造データの活用可能性が見えてきた今、その次のフェーズで求められるのは、その活用を前提とした設計です。業務プロセスやUI ／UXの改善だけではなく、サービスやプロダクトそのものを、マルチモーダルな判断力を前提にどう組み直すか。その着想が競争力の差を生み始めています。

プロダクト戦略は「視る・聴く」を前提に進化する

マルチモーダルAIは、単なる情報処理の高度化にとどまりません。何を判断材料とするかという前提そのものを問い直す技術です。従来のビジネス判断は読む力、つまりテキスト理解に依存してきました。しかし今、顧客の表情、声のトーン、現場映像といった感覚情報が、判断に直結するようになっています。必要な情報が多様化する今、それを的確に集め、統合的に活用できるかが、プロダクトや業務の成果を大きく左右します。

制度と文化の両輪で判断の質を変えていく

このような判断の変化を受けて、KPIや教育制度の見直しも不可欠です。たとえば、「映像ベースの判断までに要する時間」や「通話応対における感情反応スコア」など、従来は評価が難しかった感覚的スキルも、マルチモーダルAIによって定量化が可能になりつつあります。

こうした評価軸の導入は、属人的だった判断を再現性のある運用スキルへと変え、育成・評価・改善のフィードバックループを制度として機能させるベースになります。Gartnerも、「戦略に沿った先行指標としてのKPI設計が、DXの進捗と成果を大きく左右する」と指摘しています※8。非構造データの定量化は、まさにその一例といえるでしょう。

※8：出典「CIOs: Use the Right KPIs to Measure Digital Performance 」（Gartner・2024）

https://www.gartner.com/en/chief-information-officer/insights/digital-performance-kpis

マルチモーダルAIが変える、サービスのつくり方と届け方

マルチモーダルAIは、判断の仕組みだけでなく、サービスやビジネスモデルのあり方そのものにも影響をおよぼし始めています。アクセンチュア（経済産業省第22回検討会資料）は、「パートナーAIによる個別最適化」や「顧客の行動データを起点としたパーソナライズ」が、競争優位の新たな軸となると述べています※9。どのようなデータを取得し、どう活用できるかが、サービスの価値そのものを決定づける時代です。

さらにGartnerは、「2027年までに生成AIソリューションの40％がマルチモーダル化する」と予測しており、マルチモーダルAIは業務支援にとどまらず、ビジネスモデルやサービスのあり方を問い直すドライバーとして位置づけられています※10。

※9：出典「第22回デジタル時代の人材政策に関する検討会生成AIがビジネスモデルに与える影響とDXの加速」（アクセンチュア・2024）

https://www.meti.go.jp/shingikai/mono_info_service/digital_jinzai/pdf/022_02_00.pdf

※10：出典「生成AIのハイプ・サイクル：2024年」（Gartner ・2024）

https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20240910-genai-hc

データの質が、判断力の精度を決めていく

たとえば、ユーザーの視線や操作、声のトーンといった複数の非構造データをもとに、インターフェースや機能をリアルタイムで調整する──こうした発想が、今後のサービス開発の前提になっていきます。マルチモーダルAIは、判断力の強化にとどまらず、製品やサービスが「どんな情報を、どう集めるか」という競争の構造そのものを問い直し始めています。

「読む」だけでは、ビジネス判断の精度は頭打ちになる

多くの企業では今なお、テキストや帳票といった構造化データを前提に業務が組み立てられています。しかし現場では、映像・音声・動作・空間といった形式に捉われない非構造データが日々生成されており、こうした情報をどう活かすかが、これからの競争力を左右する時代が訪れようとしています。

マルチモーダルAIの進化により、これまで判断材料になりにくかった感覚的な情報も可視化・解析が可能となり、業務判断や戦略立案に活かせる対象へと変わります。製造・物流・カスタマーサービスの現場では、既存の映像や通話ログを活用したPoCが進み、判断のスピードや精度向上に直結する成果がすでに報告されています。

この変化は、単なる現場改善にとどまりません。非構造データを扱う力は、判断スキルの再定義やKPIの見直しにとどまらず、人材育成の仕組みや経営資源のあり方そのものにも踏み込むテーマへと広がりつつあります。ドキュメント文化のみに依存し続ける企業は、判断の選択肢そのものが狭まり、変化への対応スピードに大きな差が生まれることになるのです。

「読む力」に加え、「視て聴く力」も備えた判断軸。それを組織にどう組み込むかが、これからの競争の分岐点となります。

執筆者紹介

株式会社メンバーズ

「“MEMBERSHIP”で、心豊かな社会を創る」を掲げ、DX現場支援で顧客と共に社会変革をリードする、株式会社メンバーズです。