簡潔な答え:基盤モデルとは、膨大かつ幅広いデータセットで学習された大規模で汎用的なAIモデルであり、プロンプト、微調整、ツール、検索などを通して、様々なジョブ(ライティング、検索、コーディング、画像)に適応されます。信頼できる答えが必要な場合は、即興で答えを出すのではなく、グラウンディング(RAGなど)、明確な制約、そしてチェックを組み合わせる必要があります。
重要なポイント:
定義: モデルごとに 1 つのタスクではなく、多くのタスクで再利用される 1 つの広範囲にトレーニングされた基本モデル。
適応: プロンプト、微調整、LoRA/アダプター、RAG、ツールを使用して行動を誘導します。
生成フィット: テキスト、画像、オーディオ、コード、マルチモーダル コンテンツの生成を強化します。
品質信号: 制御性、幻覚の低減、マルチモーダル機能、効率的な推論を優先します。
リスク管理: ガバナンスとテストを通じて、幻覚、偏見、プライバシー漏洩、迅速な注入を計画します。

この記事の次に読むとよい記事:
🔗 AI企業とは何か
AI 企業がどのように製品、チーム、収益モデルを構築するかを理解します。.
🔗 AIコードはどのように見えるか
Python モデルから API まで、AI コードの例をご覧ください。.
🔗 AIアルゴリズムとは何か
AI アルゴリズムとは何か、そして AI アルゴリズムがどのように意思決定を行うのかを学びます。.
🔗 AI技術とは何か
自動化、分析、インテリジェント アプリを強化するコア AI テクノロジーを探ります。.
1) 基礎モデル - 明確な定義 🧠
基礎モデルは、幅広いデータ (通常は大量のデータ) でトレーニングされた大規模な汎用 AI モデルであり、1 つのタスクだけでなく多くのタスクに適応できます ( NIST 、 Stanford CRFM )。
次のために個別のモデルを構築する代わりに:
-
メールを書く
-
質問に答える
-
PDFの要約
-
画像を生成する
-
サポートチケットの分類
-
言語翻訳
-
コード提案をする
…あいまいな統計的方法で「世界を学習する」1つの大きな基本モデルをトレーニングし、プロンプト、微調整、または追加ツールを使用してそれを特定のジョブに適応させます Bommasani et al.、2021 )。
言い換えれば、操縦できる汎用エンジン
はい、キーワードは「一般」です。それがこのトリックのすべてです。.
2) 生成AIにおける基礎モデルとは何か?(具体的にどのように当てはまるか)🎨📝
では、生成AIにおける基盤モデルとは何でしょうか?、テキスト、画像、音声、コード、動画、そして最近ではそれらの組み合わせなど、新しいコンテンツを生成するシステムを支える基盤モデルです NIST 、 NIST Generative AI Profile )。
生成AIは、「スパム/非スパム」といったラベルを予測するだけではありません。まるで人間が作成したかのような出力を生成することを目指しています。.
-
段落
-
詩
-
製品の説明
-
イラスト
-
メロディー
-
アプリのプロトタイプ
-
合成音声
-
そして時には信じられないほど自信に満ちたナンセンス🙃
基礎モデルが特に優れている理由は次のとおりです。
-
彼らは膨大なデータセットから幅広いパターンを吸収してきた( Bommasani et al., 2021 )
-
新しいプロンプト(奇妙なものも含む)に一般化できる( Brown et al., 2020 )
-
ゼロから再トレーニングすることなく、数十の出力に再利用できます( Bommasani et al.、2021 )
パン生地のような「ベース層」です。バゲット、ピザ、シナモンロールなどに焼くことができます…完璧な比喩ではありませんが、ご理解いただけると思います😄
3) なぜ彼らはすべてを変えたのか(そしてなぜ人々は彼らについて語り続けるのか)🚀
基礎モデルが登場する前は、多くの AI はタスク固有のものでした。
-
感情分析モデルをトレーニングする
-
翻訳のために別の人を訓練する
-
画像分類のために別のものを訓練する
-
固有表現認識のために別の人を訓練する
それはうまくいきましたが、遅く、高価で、ちょっと…脆かったです。.
Foundation モデルはそれを反転しました。
-
一度事前トレーニングする(大きな労力)
-
どこでも再利用 (大きな見返り) ( Bommasani et al., 2021 )
この再利用こそが乗数効果を生み出します。企業は車輪を20回も再発明するのではなく、1つのモデルファミリー上に20の機能を構築できるようになります。.
また、ユーザー エクスペリエンスもより自然になりました。
-
「分類器を使わない」
-
あなたはモデルに、眠らない親切な同僚のように話しかけます☕🤝
時には、何でもかんでも誤解している自信過剰な同僚のようなこともありますが、まあ、成長です。.
4) 核となる考え方:事前トレーニング + 適応🧩
ほぼすべての基礎モデルは、次のパターンに従います (スタンフォード CRFM 、 NIST )。
事前トレーニング(「インターネットっぽいものを吸収する」段階)📚
NIST (National Institute of Technology)の自己教師学習を用いて、大規模かつ広範なデータセットで学習されています。言語モデルの場合、これは通常、欠落した単語や次のトークンを予測することを意味します( Devlin et al., 2018 、 Brown et al., 2020 )。
一般的な表現を教えることです。
-
文法
-
事実(ある意味)
-
推論パターン(時々)
-
文体
-
コード構造
-
人間の共通の意図
適応(「実用化する」段階)🛠️
次に、次のいずれかまたは複数を使用してそれを適応させます。
-
プロンプト(平易な言葉による指示)
-
指示チューニング(指示に従うように訓練する)( Wei et al., 2021 )
-
微調整(ドメインデータでのトレーニング)
-
LoRA / アダプター(軽量チューニング手法)( Hu et al., 2021 )
-
RAG (検索拡張生成 - モデルがドキュメントを参照する)( Lewis et al.、2020 )
-
ツールの使用(関数の呼び出し、内部システムの閲覧など)
これが、同じベースモデルでロマンスシーンを記述できる理由です…そして 5 秒後には SQL クエリのデバッグにも役立ちます😭
5) 基礎モデルの優れたバージョンとはどのようなものですか? ✅
これは人々が飛ばして、後で後悔するセクションです。.
「優れた」基盤モデルとは、単に「大きい」だけではありません。大きいことは確かに役立ちますが…それだけではありません。優れた基盤モデルには、通常、次のような特徴があります。
強力な一般化🧠
タスク固有の再トレーニングを必要とせず、多くのタスクで優れたパフォーマンスを発揮します ( Bommasani et al.、2021 )。
ステアリングと操作性🎛️
次のような指示に確実に従うことができます:
-
「簡潔に」
-
「箇条書きを使う」
-
「親しみやすい口調で書く」
-
「機密情報を漏らさないでください」
モデルによってはスマートだけど滑りやすいものもある。シャワーで石鹸を握ろうとしているような感じ。便利だけど、不安定なんだよね😅
幻覚傾向が低い(または少なくとも率直な不確実性がある)🧯
幻覚から免れるモデルは存在しませんが、優れたモデルは次のような特徴を持っています。
-
幻覚を減らす
-
不確実性をもっと頻繁に認める
-
検索を使用するときは、提供された文脈に近づくようにする( Ji et al., 2023 、 Lewis et al., 2020 )
優れたマルチモーダル能力(必要な場合)🖼️🎧
画像を読み取ったり、グラフを解釈したり、音声を理解したりするアシスタントを構築する場合、マルチモーダル性は非常に重要です ( Radford 他、2021 )。
効率的な推論⚡
レイテンシとコストは重要です。強力だが遅いモデルは、タイヤがパンクしたスポーツカーのようなものです。.
安全性とアライメント動作 🧩
「すべてを拒否する」だけではなく、
-
有害な指示を避ける
-
偏見を減らす
-
デリケートな話題を慎重に扱う
-
基本的な脱獄の試みに抵抗する(ある程度)( NIST AI RMF 1.0 、 NIST 生成 AI プロファイル)
ドキュメント + エコシステム 🌱
これは退屈に聞こえるかもしれないが、事実だ。
-
ツーリング
-
評価ハーネス
-
展開オプション
-
企業管理
-
微調整サポート
確かに「エコシステム」という言葉は曖昧です。私も嫌いです。でも、重要なんです。.
6) 比較表 - 一般的な基礎モデルのオプション(およびそれぞれのメリット)🧾
以下は実用的で、少々不完全な比較表です。「唯一の正しいリスト」というわけではなく、むしろ人々が実際に選択しているものに近いものです。.
| ツール/モデルタイプ | 観客 | 価格っぽい | なぜそれが機能するのか |
|---|---|---|---|
| 独自のLLM(チャットスタイル) | スピードと洗練を求めるチーム | 使用量ベース/サブスクリプション | 指示によく従い、全般的に優れたパフォーマンスを発揮し、通常は「箱から出してすぐに」最高の状態になります😌 |
| オープンウェイトLLM(セルフホスト可能) | コントロールを望むビルダー | インフラコスト(そして悩みの種) | カスタマイズ可能、プライバシーに配慮、ローカルで実行可能…真夜中にいじくり回すのが好きな人向け |
| 拡散画像ジェネレータ | クリエイティブ、デザインチーム | 無料から有料まで | 優れた画像合成、スタイルの多様性、反復的なワークフロー(また、指が離れている可能性があります)✋😬( Ho et al.、2020 、 Rombach et al.、2021 ) |
| マルチモーダル「視覚言語」モデル | 画像とテキストを読み取るアプリ | 使用量ベース | 画像、スクリーンショット、図表について質問できます - 驚くほど便利です ( Radford et al., 2021 ) |
| 埋め込み基盤モデル | 検索 + RAGシステム | 通話料金が低い | テキストをセマンティック検索、クラスタリング、推奨のためのベクトルに変換します - 静かなMVPエネルギー( Karpukhin et al.、2020 、 Douze et al.、2024 ) |
| 音声テキスト変換基盤モデル | コールセンター、クリエイター | 使用量ベース/ローカル | 文字起こしが速く、多言語対応で、ノイズの多い音声でも十分です(通常は)🎙️(ささやき声) |
| テキスト読み上げ基盤モデル | 製品チーム、メディア | 使用量ベース | 自然な音声生成、音声スタイル、ナレーション - 不気味なほどリアルになることができます ( Shen et al., 2017 ) |
| コード重視のLLM | 開発者 | 使用量ベース/サブスクリプション | コードパターン、デバッグ、リファクタリングは得意ですが…まだ人の心を読む力はありません😅 |
「基礎モデル」は「チャットボット」だけを意味するわけではないことに注意してください。埋め込みモデルや音声モデルも、タスク間で幅広く再利用できるため、基礎モデルに似ています( Bommasani et al.、2021 、 NIST )。
7) 詳しく見る: 言語基盤モデルの学習方法 (Vibe 版) 🧠🧃
言語基盤モデル(LLMとも呼ばれる)は通常、膨大なテキストコレクションで学習されます。トークンを予測することで学習します( Brown et al., 2020 )。それだけです。特別な魔法の粉は必要ありません。
しかし、魔法は、トークンを予測することでモデルに構造を学習させること( CSET )。
-
文法と構文
-
トピック関係
-
推論のようなパターン(時々)
-
一般的な思考の流れ
-
人々が物事を説明し、議論し、謝罪し、交渉し、教える方法
まるで人間の会話を「理解」することなく、何百万もの会話を真似することを学ぶようなものです。うまくいくはずがないように思えますが…それでもうまくいきます。.
少し大げさに言うと、人間の文章を巨大な確率脳に圧縮したようなものだ。
とはいえ、この比喩はちょっと呪われているかもしれない。でも、私たちは動くんだ😄
8) 詳しく見る: 拡散モデル(画像が異なる動作をするのはなぜか)🎨🌀
画像基盤モデルでは拡散法がよく使用されます( Ho et al., 2020 、 Rombach et al., 2021 )。
大まかなアイデア:
-
画像にノイズを加え、テレビの雑音のようになるまで
-
段階的にノイズを反転するモデルをトレーニングする
-
生成時にノイズから始めて、プロンプトに従って画像に「ノイズ除去」する( Ho et al., 2020 )
これが、画像生成が写真を「現像」しているように感じる理由です。ただし、写真はスーパーマーケットの通路でスニーカーを履いているドラゴンです 🛒🐉
拡散モデルが優れている理由:
-
高品質のビジュアルを生成する
-
テキストによって強く誘導される
-
反復的な改良(バリエーション、インペインティング、アップスケーリング)をサポートする( Rombach et al., 2021 )
また、次のようなことにも悩まされることがあります。
-
画像内のテキストレンダリング
-
細かい解剖学的詳細
-
シーン全体で一貫したキャラクターのアイデンティティ(改善されてはいるが、それでも)
9) 詳しく見る: マルチモーダル基盤モデル (テキスト + 画像 + 音声) 👀🎧📝
マルチモーダル基盤モデルは、複数のデータ タイプを理解し、生成することを目的としています。
-
文章
-
画像
-
オーディオ
-
ビデオ
-
場合によってはセンサーのような入力( NIST Generative AI Profile )
これが現実世界でなぜ重要なのか:
-
カスタマーサポートはスクリーンショットを解釈できる
-
アクセシビリティツールは画像を説明できる
-
教育アプリは図を説明できる
-
クリエイターはフォーマットを素早くリミックスできる
-
ビジネスツールはダッシュボードのスクリーンショットを「読み取り」、要約することができます
内部的には、マルチモーダル システムは表現を揃えることがよくあります。
-
画像を埋め込みに変換する
-
テキストを埋め込みに変換する
-
「猫」が猫のピクセルと一致する共有スペースを学習します😺( Radford et al., 2021 )
必ずしもエレガントとは限らない。キルトのように縫い合わされていることもある。でも、ちゃんと機能している。.
10) 微調整 vs プロンプト vs RAG(ベースモデルをどのように適応させるか)🧰
特定のドメイン(法律、医療、顧客サービス、社内知識)向けに基盤モデルを実用化しようとしている場合は、いくつかの手段があります。
プロンプト🗣️
最も速く、最もシンプル。.
-
利点: トレーニング不要、即時反復
-
短所: 一貫性がない、コンテキストが制限される、プロンプトが壊れやすい
微調整🎯
例に基づいてモデルをさらにトレーニングします。.
-
利点: より一貫性のある動作、より優れたドメイン言語、プロンプトの長さを短縮できる
-
短所: コスト、データ品質要件、過剰適合のリスク、メンテナンス
軽量チューニング(LoRA / アダプター)🧩
微調整のより効率的なバージョン( Hu et al.、2021 )。
-
利点: 安価、モジュール式、交換が簡単
-
短所: トレーニングパイプラインと評価がまだ必要
RAG(検索拡張生成)🔎
モデルは知識ベースから関連文書を取得し、それらを使用して回答します ( Lewis et al.、2020 )。
-
利点: 最新の知識、社内での引用(実装した場合)、再トレーニングの減少
-
短所: 検索品質が成功か失敗かを決める可能性があり、適切なチャンキングと埋め込みが必要
実を言うと、多くの成功しているシステムはプロンプトとRAGを組み合わせています。微調整は強力ですが、必ずしも必要ではありません。聞こえが良いので、ついついそれに飛びついてしまう人がいます😅
11) リスク、制限、そして「盲目的に導入しないでください」というセクション🧯😬
ファウンデーションモデルは強力ですが、従来のソフトウェアのように安定していません。むしろ、自信に欠ける才能あるインターン生のようなものです。.
計画すべき主な制限事項:
幻覚🌀
モデルは次のようなものを発明するかもしれません:
-
偽の情報源
-
誤った事実
-
もっともらしいが間違ったステップ( Ji et al., 2023 )
緩和策:
-
グラウンデッドコンテキストを伴うRAG(ルイスら、2020年)
-
制約された出力(スキーマ、ツール呼び出し)
-
明確な「推測しない」指示
-
検証レイヤー(ルール、クロスチェック、人間によるレビュー)
偏見と有害なパターン⚠️
トレーニング データは人間を反映しているため、次のことが可能になります。
-
ステレオタイプ
-
グループ間のパフォーマンスの不均一
-
安全でない完了 ( NIST AI RMF 1.0 、 Bommasani et al.、2021 )
緩和策:
-
安全チューニング
-
レッドチーム
-
コンテンツフィルター
-
慎重なドメイン制約( NIST Generative AI Profile )
データのプライバシーと漏洩 🔒
機密データをモデルエンドポイントに取り込む場合は、次の点を知っておく必要があります。
-
保管方法
-
トレーニングに使われるかどうか
-
どのようなログが存在するか
-
組織に必要な制御 ( NIST AI RMF 1.0 )
緩和策:
-
プライベート展開オプション
-
強力なガバナンス
-
最小限のデータ漏洩
-
厳格なアクセス制御を備えた内部専用のRAG( NIST Generative AI Profile 、 Carlini et al.、2021 )
迅速な注射(特にRAGの場合)🕳️
モデルが信頼できないテキストを読み取る場合、そのテキストはそれを操作しようとする可能性があります。
-
「以前の指示は無視してください…」
-
「秘密を送ってください…」( OWASP 、 Greshake他、2023 )
緩和策:
-
システム命令を分離する
-
取得したコンテンツをサニタイズする
-
ツールベースのポリシーを使用する(プロンプトだけでなく)
-
敵対的入力によるテスト( OWASP チートシート、 NIST 生成 AI プロファイル)
怖がらせるつもりはありません。ただ…床板がきしむ場所を知っておいた方がいいですよ。.
12) ユースケースに適した基盤モデルの選択方法 🎛️
基礎モデルを選択する場合(または基礎モデル上に構築する場合)、次のプロンプトから始めます。
生成するものを定義する🧾
-
テキストのみ
-
画像
-
オーディオ
-
混合マルチモーダル
事実の基準を設定しましょう📌
高い精度が必要な場合(金融、健康、法律、安全):
-
RAGが必要になります(ルイスら、2020年)
-
あなたは承認を求めるでしょう
-
人間によるレビューを(少なくとも時々)ループに含める必要があります( NIST AI RMF 1.0 )
レイテンシー目標を決定する⚡
チャットは即時対応可能です。バッチ処理による要約には時間がかかる場合があります。
即時対応が必要な場合は、モデルのサイズとホスティングが重要になります。
プライバシーとコンプライアンスのニーズをマッピングする🔐
一部のチームでは以下が必要です:
-
オンプレミス/VPC展開
-
データ保持なし
-
厳格な監査ログ
-
文書ごとのアクセス制御( NIST AI RMF 1.0 、 NIST Generative AI Profile )
予算のバランスと運用の忍耐力😅
セルフホスティングは制御性を高めますが、複雑さが増します。
マネージドAPIは簡単ですが、コストが高く、カスタマイズ性が低くなる場合があります。
ちょっとした実用的なヒント:まずは簡単なものからプロトタイプを作り、その後で強化しましょう。「完璧な」設定から始めると、たいていの場合、すべてが遅くなります。.
13) 生成AIにおける基礎モデルとは?(簡単なメンタルモデル)🧠✨
話を戻しましょう。生成AIにおける基礎モデルとは何でしょうか?
彼らです:
-
広範なデータで訓練された大規模で一般的なモデル( NIST 、スタンフォードCRFM )
-
コンテンツ(テキスト、画像、音声など)を生成できる( NIST Generative AI Profile )
-
プロンプト、微調整、検索を通じて多くのタスクに適応可能( Bommasani et al., 2021 )
-
現代の生成AI製品のほとんどを支えるベースレイヤー
これらは単一のアーキテクチャやブランドではなく、プラットフォームのように動作するモデルのカテゴリです。.
ファンデーションモデルは電卓というよりキッチンのようなものです。色々な料理が作れます。気を付けないとトーストを焦がしてしまうこともありますが…それでもキッチンは結構便利です🍳🔥
14) 要約とポイント ✅🙂
基礎モデルは、生成AIの再利用可能なエンジンです。広範囲に学習された後、プロンプト、微調整、そして検索( NIST 、スタンフォード大学CRFM )を通じて特定のタスクに適応されます。基礎モデルは、驚くべきもの、雑然としたもの、強力なもの、そして時に滑稽なもの、これらすべてを同時に実現します。
要約:
-
基礎モデル = 汎用ベースモデル ( NIST )
-
生成 AI = 分類だけでなくコンテンツ作成 ( NIST 生成 AI プロファイル)
-
適応方法(プロンプト、RAG、チューニング)により実用化が可能( Lewis et al., 2020 、 Hu et al., 2021 )
-
モデルの選択は、精度、コスト、レイテンシ、プライバシー、安全性といったトレードオフが関係します( NIST AI RMF 1.0 )。
生成AIを使って何かを構築するなら、基礎モデルを理解することは必須です。建物が建っている床全体のことです…ええ、床が少しぐらつくこともありますけどね😅
よくある質問
基礎モデルを簡単に説明すると
基盤モデルとは、幅広いデータで学習された大規模で汎用的なAIモデルであり、多くのタスクに再利用できます。ジョブごとに1つのモデルを構築するのではなく、強力な「ベース」モデルから始めて、必要に応じて適応させます。この適応は、多くの場合、プロンプト、微調整、検索(RAG)、またはツールを通じて行われます。中心となる考え方は、広範さと操縦性です。.
基礎モデルと従来のタスク固有のAIモデルの違い
従来のAIでは、感情分析や翻訳など、タスクごとに別々のモデルを学習させることがよくあります。一方、基盤モデルは逆のパターンを採用しています。一度事前学習させ、その後は多くの機能や製品で再利用します。これにより、重複した作業を削減し、新機能の提供を迅速化できます。ただし、制約やテストを追加しない限り、従来のソフトウェアよりも予測可能性が低くなる可能性があります。.
生成AIの基礎モデル
生成AIにおいて、基盤モデルはテキスト、画像、音声、コード、マルチモーダル出力といった新しいコンテンツを生成する基盤システムです。ラベル付けや分類に限定されず、人間が作成したような応答を生成します。事前学習中に幅広いパターンを学習するため、様々なプロンプトの種類や形式に対応できます。これらは、現代のほとんどの生成体験を支える「ベースレイヤー」です。.
基礎モデルが事前トレーニング中に学習する方法
ほとんどの言語基礎モデルは、次の単語やテキスト内の欠落単語などのトークンを予測することで学習します。このシンプルな目的のために、モデルは文法、スタイル、一般的な説明パターンといった構造を内在化しようとします。また、必ずしも信頼できるとは限りませんが、膨大な世界知識を吸収することもできます。その結果、後に具体的な作業に活用できる強力な一般表現が得られます。.
プロンプト、微調整、LoRA、RAGの違い
指示を用いて行動を誘導する最も速い方法はプロンプトですが、不安定な場合があります。微調整は、モデルをサンプルに基づいてさらに訓練することで、より一貫性のある行動を実現しますが、コストとメンテナンスが増加します。LoRA/アダプターは、より軽量な微調整アプローチであり、多くの場合、より安価でモジュール化されています。RAGは関連文書を取得し、そのコンテキストに基づいてモデルの回答を生成するため、鮮度と根拠の維持に役立ちます。.
微調整の代わりにRAGを使用する場合
RAGは、既存のドキュメントや社内の知識ベースに基づいた回答が必要な場合に、しばしば強力な選択肢となります。RAGは、モデル生成時に関連性の高いコンテキストを提供することで、「推測」を減らすことができます。一貫したスタイル、ドメインのフレージング、またはプロンプトでは確実に生成できない動作が必要な場合は、微調整がより適しています。多くの実用的なシステムでは、微調整を行う前にプロンプトとRAGを組み合わせています。.
幻覚を軽減し、より信頼できる答えを得る方法
一般的なアプローチは、モデルをRAG(Retrieval)でグラウンディングし、提供されたコンテキストに近い状態を維持することです。また、スキーマで出力を制約したり、重要なステップでツール呼び出しを必須にしたり、「推測しない」という指示を明示的に追加したりすることも可能です。ルールチェック、クロスチェック、そしてリスクの高いユースケースでは人間によるレビューといった検証レイヤーも重要です。モデルを、デフォルトで真実の源泉となるものではなく、確率的な補助ツールとして扱うことが重要です。.
実稼働環境における基盤モデルの最大のリスク
一般的なリスクとしては、幻覚、トレーニングデータからの偏った、あるいは有害なパターン、機密データの不適切な取り扱いによるプライバシー漏洩などが挙げられます。また、モデルがドキュメントやウェブコンテンツから信頼できないテキストを読み取る場合、システムはプロンプトインジェクションに対しても脆弱になる可能性があります。こうしたリスクを軽減する対策としては、ガバナンス、レッドチーム演習、アクセス制御、より安全なプロンプトパターン、構造化された評価などが挙げられます。これらのリスクへの対策は、後からパッチを適用するのではなく、早期に実施しましょう。.
迅速な注入とそれがRAGシステムにおいて重要な理由
プロンプトインジェクションとは、信頼できないテキストが「以前の指示を無視する」や「秘密を明らかにする」といった指示を無視しようとすることです。RAGでは、取得したドキュメントにこうした悪意のある指示が含まれている可能性があり、注意を怠るとモデルがそれに従う可能性があります。一般的なアプローチとしては、システム指示を分離し、取得したコンテンツをサニタイズし、プロンプトだけでなくツールベースのポリシーを活用することが挙げられます。敵対的な入力を用いたテストは、弱点を明らかにするのに役立ちます。.
ユースケースに適した基盤モデルの選択方法
まず、生成する必要があるもの(テキスト、画像、音声、コード、マルチモーダル出力など)を定義します。次に、ファクトリティの基準を設定します。高精度な領域では、多くの場合、グラウンディング(RAG)、検証、そして場合によっては人間によるレビューが必要になります。レイテンシとコストも考慮してください。強力なモデルでも、速度が遅かったりコストが高かったりすると、リリースが困難になる可能性があります。最後に、プライバシーとコンプライアンスのニーズを、導入オプションとコントロールにマッピングします。.
参考文献
-
アメリカ国立標準技術研究所 (NIST) -基盤モデル (用語集) - csrc.nist.gov
-
アメリカ国立標準技術研究所 (NIST) - NIST AI 600-1: 生成AIプロファイル- nvlpubs.nist.gov
-
アメリカ国立標準技術研究所(NIST) - NIST AI 100-1: AIリスク管理フレームワーク(AI RMF 1.0) - nvlpubs.nist.gov
-
スタンフォード基礎モデル研究センター(CRFM) -レポート- crfm.stanford.edu
-
arXiv -基礎モデルの機会とリスクについて (Bommasani 他、2021) - arxiv.org
-
arXiv -言語モデルは少数ショット学習者である(Brown et al., 2020) - arxiv.org
-
arXiv -知識集約型NLPタスクのための検索拡張生成(Lewis et al., 2020) - arxiv.org
-
arXiv - LoRA: 大規模言語モデルの低ランク適応 (Hu et al., 2021) - arxiv.org
-
arXiv - BERT: 言語理解のための深層双方向変換の事前学習 (Devlin et al., 2018) - arxiv.org
-
arXiv -微調整された言語モデルはゼロショット学習者である(Wei et al., 2021) - arxiv.org
-
ACMデジタルライブラリ-自然言語生成における幻覚の調査(Jiら、2023年) - dl.acm.org
-
arXiv -自然言語教師からの転移可能な視覚モデルの学習 (Radford et al., 2021) - arxiv.org
-
arXiv -拡散確率モデルのノイズ除去 (Ho et al., 2020) - arxiv.org
-
arXiv -潜在拡散モデルを用いた高解像度画像合成 (Rombach et al., 2021) - arxiv.org
-
arXiv -オープンドメイン質問応答のための高密度パッセージ検索 (Karpukhin et al., 2020) - arxiv.org
-
arXiv - Faiss ライブラリ (Douze et al.、2024) - arxiv.org
-
OpenAI - Whisper の紹介- openai.com
-
arXiv - WaveNet をメルスペクトログラム予測に適応させることによる自然な TTS 合成 (Shen et al., 2017) - arxiv.org
-
ジョージタウン大学セキュリティ・新興技術センター(CSET) -次単語予測の驚くべき力:大規模言語モデルの説明(パート1) - cset.georgetown.edu
-
USENIX -大規模言語モデルからのトレーニングデータの抽出 (Carlini et al., 2021) - usenix.org
-
OWASP - LLM01: プロンプトインジェクション- genai.owasp.org
-
arXiv -ご要望以上の成果:アプリケーション統合型大規模言語モデルに対する新たなプロンプトインジェクション脅威の包括的分析(Greshake et al., 2023) - arxiv.org
-
OWASP チートシートシリーズ- LLM プロンプトインジェクション防止チートシート- cheatsheetseries.owasp.org