最終更新日:2024年1月18日
「ChatGPT」が急速に社会へ浸透する中、今では当たり前のように使われている「生成AI」という言葉ですが、そもそも「生成AI」とはどういう意味なのか、具体的に何を指しているのか、疑問に思う方も多いのではないでしょうか。
そこで今回は初心に返り、「生成AI」とは何か、今までのAIと一体何が違うのか、具体的にどのような種類があるのか、について詳しく解説していきます。
後半では、生成AIのビジネス活用例や、トラブルを避けるために「やってはいけないこと」もご紹介していますので、ぜひ最後までご覧ください。
目次
1.生成AIとは?
生成AIとは、「ジェネレーティブAI(Generative AI)」とも呼ばれるAI(人工知能)の一種であり、入力された指示にしたがって文章、画像、音楽などの新しいコンテンツを生成するAIのことです。
AIへ指示を入力するだけで様々なオリジナルコンテンツを簡単に生成できることから、近年では人間の仕事や作業をサポートするツールとして、日常生活やビジネスシーンにおいて幅広く活用されるようになってきています。
2.従来のAIとの違い
「従来のAI」と「生成AI」の決定的な違いは、一言で表すなら「AI自身が新しいコンテンツを生成できるか否か」です。
「従来のAI」は、人間が与えた大量の学習データをもとに結果を予測したり、あらかじめ決められた行為を自動的に行うことが主な役割でした。
一方で「生成AI」は、ディープラーニング(深層学習)によってAI自ら学習を重ね、人間が与えていない情報やデータさえもインプットし、新たなオリジナルコンテンツを生み出すことができます。
【従来のAI】
役割:学習したデータに基づく結果の予測、決められた行為の自動化
人間から与えられた大量の学習データの中から、適切な回答を探して提示する
(AIが人間のようにクリエイティブな成果物を生み出すわけではない)
【生成AI】
役割:オリジナルコンテンツの創造(0から1を生み出す作業)
既存の学習データ以外にも、ディープラーニングによってAI自身が学習を重ねることで、人間が与えていない情報やデータもインプットし、新しいコンテンツを生成する
これまで人間にしかできないとされていた「0から1を生み出す」クリエイティブな行為を、AIで実現できるようになったのです。
3.AI・機械学習・ディープラーニングの違い
生成AIについて理解するうえで何よりも欠かせないのが、それぞれ似たような意味を持つ「AI」「機械学習」「ディープラーニング」という言葉の区別をしっかりとつけることです。
よく混同されがちですが、概念の広さから言うと「AI>機械学習>ディープラーニング>生成AI」という関係性になります。
生成AIは、機械学習の手法の1つであるディープラーニングによって知識を積み重ねることで、オリジナルのコンテンツを生成できるようになったAIの一種ということになります。
AI(人工知能)
人間の脳が普段行っているさまざまな知的活動(認識・思考・判断・学習など)を、コンピューターでも同じように再現しようとする技術のことを指します。
身近な例としては、自動車の自動運転や音声アシスタント、お掃除ロボット、顔認証システム、チャットボットなどが挙げられます。
機械学習
AIに大量のデータを読み込ませて背景にあるルールやパターンを学習させ、その成果に基づいて未知のデータを予測・判断できるようにした技術のことです。
別名「マシンラーニング」とも呼ばれ、手法としては大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3種類があります。
- 教師あり学習:問題(データ)およびその正解となる情報を与えて学習させる方法。
- 教師なし学習:問題(データ)のみを与え、その正解となる情報は与えずに学習させる方法。
- 強化学習:正解の無い課題に対して、機械自身が試行錯誤を繰り返しながら最適な行動を取るよう学習させる方法。
ディープラーニング(深層学習)
機械学習の手法の1つで、人間の脳を構成する神経細胞「ニューロン」の構造と働きを模倣して作られたモデル「ニューラルネットワーク」のうち、入力されたデータの分析を担う「中間層」の数を何層にも増やし、より複雑な情報処理を可能にしたものを指します。
従来の機械学習との最大の違いは、「データの判別に必要な情報(=特徴量)を、人間が事前に指定しなくてもAIが自動で抽出できる」ようになった点です。
これにより、人力での特徴量の指定が難しかったテキストや画像、音声といった非構造化データも、AIで取り扱えるようになりました。
そして、ディープラーニングを用いた自然言語処理分野の研究が急速に進んだ結果、ChatGPTのような高度な文章生成能力を持つAIツールの開発に至ったというわけです。
4.生成AIの種類
生成AIには、「テキスト生成」「画像生成」「動画生成」「音声生成」など、いくつかの種類があります。
用途に応じてそれぞれの生成AIを使い分けることで、これまで人間の手で行っていた作業を大幅に効率化したり、自分1人では思いつかなかったアイデアを形にしたりできるようになります。
テキスト生成
テキスト生成AIでは、ユーザーがテキストボックスに質問や命令文(=プロンプト)を入力すると、AIがその内容を解析して、回答となるテキストを自動的に生成してくれます。
OpenAIの「ChatGPT」やMicrosoftの「Bing AIチャット」、Googleの「Bard」などがこれに該当します。
近年は、テキスト生成AIに使用されている言語モデル(例:ChatGPTで言う「GPT-3.5」や「GPT-4」)の進化により、ますます人間が書いたような自然で高精度な回答が返ってくるようになっています。
その汎用性と便利さから、長文の要約・キャッチコピーのアイデア創出・プログラムのコード生成やエラー修正など、今では多くの用途に利用されており、私たちの中で特に身近な生成AIと言ってもよいでしょう。
ChatGPT・Bing AI・Google Bardの違いを簡単比較
AIのビジネス活用を学べるメディア・コミュニティ「SHIFT AI」を運営する株式会社SHIFT AIが発表した「2023年下半期AIトレンドランキング」のうち、「実際に今使っている生成AIツール」の上位3位にランクインしたのが、「ChatGPT」「Bing AIチャット」「Google Bard」です。
テキスト生成AIを代表するこれら3つのサービスの主な違いについて簡単に整理すると、次のようになります。
さらに、これら3つのサービスの違いについてもっと詳しく知りたい方や、全く同じ質問をして出力される回答内容にどれほど差が出るのか興味のある方は、以下の記事もぜひご参照ください。
画像生成
画像生成AIでは、ユーザーがテキストで指示を入力すると、わずか数秒~数十秒程度で、イメージに近いオリジナル画像を自動で生成してくれます。
世界的に利用されている主要なサービスとしては、「Stable Diffusion」(ステーブルディフュージョン)や「Midjourney」(ミッドジャーニー)、「DALL・E2」(ダリ・ツー)などが知られています。
Stable Diffusion:
英国Stability AI社によって開発された画像生成AI。
生成したい画像のイメージを英語で入力すると、クオリティの高い画像を自動で生成してくれる。
拡張機能を使えば日本語化も可能。
Midjourney:
米国LeapMotion社の創業者であり、元NASAの研究者であるデビッド・ホルツ氏が代表を務めるAI研究チームが開発した画像生成AI。
アメリカ発のゲーマー向け無料チャットアプリ「Discord」(ディスコード)から利用できる。
DALL・E2:
2022年4月にOpenAI社がリリースした画像生成AI。
2023年9月には、DALL・E2の後継となる「DALL・E3」(ダリ・スリー)が発表され、2023年10月からChatGPTの「Plus」と「Enterprise」の2つの有料プラン向けに提供が開始された。
Microsoftの「Bing Image Creator」では「DALL・E3」をいち早く体験できる。
Bing AIチャットから誰でも気軽に無料で試せるのでおすすめ。
画像生成AIの活用により、Webサイト用の素材を簡単に作成してクリエイティブな作業にかかる時間を大幅に短縮できるほか、新しいアイデアやインスピレーションを得るためにも役立つことから、デザイン業界をはじめとした多くの業界で幅広い活用が期待されています。
動画生成
動画生成AIは、生成したい動画のイメージをテキストで入力すると、そのイメージに沿った短い動画を生成できるAIです。
開発の難易度が非常に高いと言われていますが、2023年3月にはアメリカのRunway社から「Gen-2」(ジェンツー)という動画生成AIが発表されており、かなりクオリティの高い映像を生成してくれると話題です。
現時点では数秒ほどの短い動画しか生成できないものの、技術が進歩すればもっと長い尺の動画を生成できるようになると考えられます。
プロモーションビデオの作成など、将来的には多岐にわたって応用できる可能性も秘めており、さらなる進化が期待されている生成AIです。
音声生成
音声生成AIは、音声またはテキスト入力によって、新しい音声データを自動で生成できるAIです。
ある1人の声を大量に学習させると、本人がその場にいなくても、その人の声質と全く同じ音声で、様々な文章を読み上げてもらうことができます。
例えば、Microsoftが開発した「VALL-E」(ヴァルイー)は、たった3秒分の音声サンプルを入力するだけで、本人そっくりの音声を忠実に再現することができます。
実際に本人の声を収録することなく、特定の人間の声を再現して任意のナレーションを自動的に生成できることから、メディア、エンターテイメント、教育など、多くの分野で活用が模索されています。
5.生成AIに用いられているモデル
生成AIが新規コンテンツを生み出すために用いられている代表的な4種類の生成モデルとして、「VAE」「GAN」「拡散モデル」「GPT」があります。
画像生成にはVAE・GAN・拡散モデル、テキスト生成AIにはGPTがよく採用される傾向にあります。
VAE
VAE(Variational Auto-Encoder)は、画像生成AIに用いられている生成モデルの1つで、「変分オートエンコーダー」と呼ばれるディープラーニング技術が活用されています。
与えられた学習用データの特徴を学び取り、そのデータと近しい性質を持つ新たな画像を生成できる点が特徴です。
例えば、あるイラストレーターの作品を大量に学習させると、VAEはそのイラストレーターの作風や絵柄に似た新たなイラストを生み出すことができます。
また、VAEは複雑性が高い画像の特徴を捉えることにも適しているため、構造が複雑な工業製品の異常検知などにも利用されています。
【VAEのコンテンツ生成プロセス】
- 学習用データをAIに供給
- AIが与えられたデータから特徴を学習
- 学習したデータの特徴をもとに、全く新しいコンテンツを生成
- 生成したコンテンツをユーザーに提供
GAN
GAN(Generative Adversarial Networks)も、画像生成AIに利用される生成モデルの1つです。
ただし、先述のVAEとは仕組みが異なり、「Generator(生成器)」と「Discriminator(識別器)」という2種類のネットワーク構造を用いることで、より解像度の高い画像を生成します。
「Generator」=ランダムに生成された画像、「Discriminator」=学習用の正しい画像であり、Discriminatorに近づけるために何度も繰り返しGeneratorとDiscriminatorを比較することで、画像の精度を高めていきます。
【GANのコンテンツ生成プロセス】
- ランダムなノイズから「Generator」を生成
- 学習用の正しいデータである「Discriminator」を用意
- GeneratorとDiscriminatorを繰り返し比較し、Generatorの精度を高める
- 十分に精度が高まった画像を出力
拡散モデル
拡散モデルは、GANの進化系ともいえるモデルで、GANよりもさらに解像度の高い画像を生成することが可能です。
今では「Stable Diffusion」「DALL・E2」「DALL・E3」など、多くの画像生成AIサービスで活用されています。
仕組みとしては、学習用の画像にノイズを追加したうえで、その画像からノイズを除去していき、元の画像を復元します。
このように、「与えられた画像にノイズを付加し、ノイズを除去した後の画像を元の画像にできるだけ近づける」というプロセスを何度も繰り返すことで、画像生成の方法をAIに学習させ、より高精度な画像を生成することができます。
【拡散モデルのコンテンツ生成プロセス】
- 学習用の画像にノイズを付加
- ノイズを除去し、元の画像を復元
- 1~2のプロセスを繰り返し、高精度な画像を生成
GPT
GPTは、アメリカのOpenAI社が開発した自然言語処理モデルの一種です。最新版は「GPT-4」であり、GPT-3やGPT-3.5といった旧バージョンの性能を遥かに大きく凌駕するほどの高精度なテキスト生成能力を有しています。
GPTが組み込まれている最も代表的なサービスが「ChatGPT」で、人間が書いたような自然で違和感のない文章を短時間で生成できるのが特徴です。
【GPTを利用したテキスト生成の仕組み】
- ユーザーがテキストボックスに質問を入力・送信
- AIが質問の内容を解析し、最適な回答を自動で生成
- 生成した回答をユーザーに提供
「正確さ」よりも「無難さ」を重視するGPT
GPTのような自然言語処理モデルは、Webページ・書籍・ニュース記事・雑誌・論文・Wikipediaなどから大量のテキストデータを収集し、文章中に含まれる単語・フレーズの出現パターンや、言葉の関連性を学習します。
そうして学習したパターンや関連性の情報をもとに、特定の言葉の後ろに確率的に続きそうな言葉を並べることで、人間が書いたような自然で文脈に合う「もっともらしい」文章が生成されるという仕組みです。
これまでに学習した単語の中から、次に並ぶ確率がいちばん高いと判断した言葉を選んで文章を作成しているにすぎないため、出力された情報が正しいかどうかは二の次で、真偽については保証されておらず、利用にあたっては十分な注意が必要です。
6.生成AIのビジネス活用例
生成AIは、業務効率化やクリエイティブ業務のサポートなど、アイデア次第で様々なビジネスシーンに応用することができます。
ここでは、生成AIの具体的なビジネス活用例を6つご紹介します。
キャッチコピー作成
商品やサービスのキャッチコピーが思い浮かばない時は、テキスト生成AIにアイデア出しをお願いしてみましょう。
自社商品・サービスの特長を生成AIに伝えるとともに、複数の案を提示するようプロンプトに入力すると効果的です。
生成AIが提案してくれたキャッチコピーの案をベースにして、人間の手でよりブラッシュアップすれば、ゼロからアイデアを考えなくても、短時間で質の良いキャッチコピーが出来上がります。
外国語の翻訳や長文の要約
テキスト生成AIは、翻訳や長文の要約も得意です。
外国語で書かれた文章を入力して「日本語で短く要約してください」と指示すれば、翻訳に加え長文の要点をくみ取ってコンパクトな文章にまとめてもらえるので、情報収集や調査が効率的に行えます。
ただし、出力された情報に誤りがないかどうかは慎重に検証することが大切です。
プログラムのコード生成やデバッグ
テキスト生成AIでは、プログラムのコード生成やデバッグを行うこともできます。
コードを新たに生成する際は、どんな動作を実現したいのかできるだけ詳細に入力すると、コピペするだけですぐに使用できる精度のコードを生成してくれます。(※生成内容によっては修正が必要な場合も)
また、記述済みのコードが動作しない時は、「原因を教えてほしい」と指示するだけでコードの誤っている部分を指摘してくれるため、デバッグにも役立ちます。
データからの傾向分析
ExcelやCSVなどに入力されたデータなどをテキスト生成AIに貼り付ければ、その内容を細かく分析し、傾向や特徴を説明してもらうこともできます。
試しに、アイルランド発のアクセス解析サービス「StatCounter」が公表している世界のブラウザ市場シェア(2022年9月 – 2023年9月)のCSVデータをChatGPTに貼り付け、分析をお願いしてみました。
各ブラウザのシェア率とその変動について詳細に分析してくれているほか、最後には総括も書いてくれており、データの傾向や特徴が瞬時に把握できるようになっています。
デザインのラフ案作成
画像生成AIでは、入力されたキーワードから全く新しいオリジナル画像を作り出すことができます。
新しいデザインのラフ案を画像生成AIに作ってもらい、人間の手でさらに完成度を高めていけば、白紙の状態からデザインの方向性を考え始めるよりも具体的なイメージが湧く分、作成にかかる時間やコストを削減できます。
試しに、「人間と仲良くしているAI」というテーマで、Microsoftの画像生成AI「Bing Image Creator」と、Canvaの画像生成AI「Text to Image」に作成をお願いすると、10秒ほどでそれぞれ4枚の画像を生成してくれました。
ただし、生成AIが作成した画像を自身のコンテンツに利用する場合は、他の作品の著作権を侵害していないか、しっかりと確認することが大切です。
類似した作品を見かけた場合は、使用を控えるようにしましょう。
会議音声の文字起こし
「Whisper」などの文字起こしAIに、会議の内容を録音した音声データを入力すると、音声の内容を自動的にテキスト化することができます。
Whisper:
OpenAIが開発した、音声認識モデルを活用した自動文字起こしAI。
2022年9月からオープンソースとして無料で一般公開され、日本語や英語などの音声を精度高く文字起こしできるツールとして知られる。
議事録やインタビュー記事の作成など、これまでは音声データを聞き返しながら手動で文字起こしを行っていた作業を自動化できるため、業務効率化にはうってつけです。
7.生成AIでやってはいけないこと
生成AIは便利なツールですが、使い方を間違えると思わぬトラブルに見舞われる可能性があります。
ここでは、生成AIを利用する際に「やってはいけないこと」を4つまとめました。
NG①:生成AIの回答を鵜吞みにする
生成AIは完璧ではありません。
真偽が定かでない情報や、市場の現状・トレンドに即していない古い情報、倫理的に問題のある表現や差別的な思想が含まれる情報が出力される場合もあるため、回答内容は必ず人間が最終チェックを行い、必要に応じて調整を加えることが大切です。
NG②:著作権に抵触するコンテンツを使用する
特に、画像生成AIや音声生成AIにおいては、著作権に細心の注意を払うようにしましょう。
著作権に抵触しない全くオリジナルのコンテンツを生み出す分には問題ないものの、あるイラストレーターが作成したイラストを無断でAIに学習させ、似たような絵柄の作品を量産するような行為は、著作権に抵触するため絶対にしてはいけません。
NG③:企業秘密や個人情報を入力する
企業秘密や個人情報といった機密情報を生成AIに入力すると、第三者に漏えいしたり、AIの学習データとして二次利用されたりするリスクがあります。
そのため、機密情報を含むデータを取り扱う場合は、生成AIのプラットフォーム側へのデータ提供をオプトアウトするか、法人向けのプランにグレードアップして、セキュリティ上安全な環境で利用するよう心がけましょう。
NG④:悪意のあるコードや文章を生成する
当たり前のことですが、生成AIの高度なテキスト生成能力を悪用して、フィッシングメールの文面を作成したり、システムの脆弱性を突くようなサイバー攻撃用のプログラムを生成したりしてはいけません。
生成AIは倫理的・道徳的判断力を持ち合わせていないので、人間側が良識に基づいて適切に生成AIを使いこなしていく必要があります。
8.まとめ
いかがでしたでしょうか?
生成AIは、業務効率化やクリエイティブなコンテンツ制作を促進するための便利ツールとして、昨今様々な分野で注目を集めています。
その反面、偽情報の拡散や機密情報の漏えい、著作権侵害といったリスクも持ちうることから、生成AIの出力内容をビジネス等に活用する場合は、良識のある使い方を心がけたいところです。
なお、「情報システム部門の業務標準化に向けて、専門家の視点から具体的なアドバイスが欲しい」と感じている企業様向けに、当社では情シス支援サービス「ION」を行っております。
以下リンクより情シス支援サービス「ION」に関する資料を無料でダウンロードすることができますので、興味のある方はぜひチェックしてみてください。
お電話・FAXでのお問い合わせはこちら
03-5828-7501
03-5830-2910
【受付時間】平日 9:00~18:00
フォームでのお問い合わせはこちら
この記事を書いた人
Y.M(マーケティング室)
2020年に株式会社コンピュータマネジメントに新卒入社。
CPサイトのリニューアルに携わりつつ、会社としては初のブログを創設した。
現在は「情シス支援」をテーマに、月3本ペースでブログ更新を継続中。