2024年3月4日

マンガでわかる生成AI【第2話】写真も文書も読み込んじゃえ!

一人暮らしを始めたばかりの沙織の心強いパートナーは「生成AI」!? 日常や仕事で起きるさまざまなピンチを、生成AIと共に乗り切れるのか!? 「ChatGPT」などでおなじみの生成AIを使いこなすためのヒントをマンガで解説します。

マンガでわかる生成AI_第二話_1

(企画・原作:森一弥 作画:佐倉イサミ

マンガで分かる生成AI【第3話】に続く・・・ 前回のお話はこちら

キーワード解説

漫画の原作者である、アステリア株式会社 ノーコード変革推進室 エバンジェリストの森が、今回のお話の概要や会話に登場したキーワードについて簡単に解説します!

ゼロショット プロンプティング 【Zero-Shot Prompting】
特に例示などをすることなく、AIモデルに対して質問を直接投げかける方法。LLMもどんどん賢くなっているので、問題なく回答できることが多くなってきている。例えば前回や今回のマンガの中で料理のレシピを出してもらっているが、「今日のランチを3件提案して!」のような一発で回答を求めるものをゼロショットプロンプティングという。

CoT プロンプティング 【Chain-of-Thought Prompting】
問題の解き方を順を追って説明したうえで回答してもらう手法。解き方の例示を示すという方法もあるし、「ステップバイステップで考えて」とプロンプトに追加するゼロショット的な使い方もあり、こちらの方が手軽。小学校の算数ででてくるような、「Aさんが◯商店でりんごを3個買って、Bマーケットでお肉を〜」のような文章問題みたいなものの計算は苦手だったりするので、「ステップバイステップで」と追記すると求める答えになることもある。ただしLLMの学習が進んでいることもあり、特に指定しなくても解いてくれることもある。

マルチモーダルAI【Multimodal AI】
テキストだけでなく画像や動画、音声など複数の情報を利用するAIのこと。使っている生成AIによって対応している形式も異なるし、有料版だけで対応しているということもある。今回は部屋や食材の画像や、算数の問題のドキュメント(PDFやOfficeファイル等)のインプットの話にしたが、例えば音声入力も一昔前よりだいぶ認識率が上がっているし、多少の誤字があっても正しく回答されることも多くなっている。同じテキストでも自然言語だけでなく、プログラムコードや、センサーデータなども入力として使うこともできる。

トト先生の生成AI塾

今回から本編で大活躍のトト様じゃ。・・・ん!?
どこぞの猫とはワシのことか?
お主どこから…。ふむ。我と同類ということか。まぁ良いわ。
今回は画像を使う話じゃったの。文字だけではなく画像も含めて様々な情報を使うことを「マルチモーダル」と呼んだりもするぞ。このマルチモーダル化は大規模言語モデル(Large Language Models、略称LLM)で一気に使えるようになってきておる。Youtubeの動画を要約してもらったりもできるので、タムパを重視する若者はどんどん使いこなしていくかもしれんのぉ。

センサー情報や様々なシステムの出力を入力として使うのはあり得るのぉ。出力側も画像を出したり、グラフを出したり、プログラムを作成なんてこともできるぞ。とにかく進化のスピードが早いので普段から使ってチェックしておくことを勧めるぞ。
センサー情報もか。あやつにも使わせるよう促すかのぉ…。

原作者のオマケ裏話

部屋の片付けに生成AIを使う話は、実際にAI界隈で話題になった話です。技術の進歩もそうなんですが、日々色んな使い方をする人が現れたりするので目が離せないし、面白いですよね。我が家では最近、自宅にある食材の写真を撮影して料理のアドバイスをもらってみました。白菜が「キャベツ」と誤認識されるなんてこともありましたが、普段と違った料理を作ることもできましたよ。1回で完璧に答えてくれるのを期待すると「あれ?」ってなることもありますが、そこは「チャット」ですので、会話を続けて修正すればよいだけですしね。

プロンプトエンジニアリングも日々新しいものが出てきています。新しく“発見”されたとも言われます。生成AIは、研究者の中でも明確な手法があるわけではなく、様々な手法を試して論文が出されているというのが現状です。新しく出てきてもすぐに使えなくなってしまうものもあると思われますので、暫く読まれ続けるマンガとしては定番のものを取り上げるように心がけました。とはいえ、ここ最近で私が生成AIを触っていた際に「ステップバイステップで教えて」などの指示を出さなくても、的確に答えをくれる場面にも遭遇したので、しばらく定番と思っていても変わってくることは十分ありそうです。

ちなみに執筆時点ではChatGPTで画像を使うのは有料版のみの機能となっていますが、GeminiやBingなどでは使えたりもしていますし、ChatGPTでも早々に通常の機能となることもあるかもしれません。ホントの最新技術を知りたい方はネットの情報、特に海外も含めてウォッチするのが良いですね。

Xにてマンガの裏話や日々のつぶやきも更新中です。ぜひフォローしてみてください。https://twitter.com/dekiruco
この記事がよかったら「いいね!」
この記事を書いた人
森 一弥 アステリア株式会社 ノーコード変革推進室 エバンジェリスト。 2012年よりインフォテリア(現アステリア)勤務。2017年3月までは主力製品「ASTERIA WARP」のシニアプロダクトマネージャーとしてデータ連携製品の普及に務め、特に新技術との連携に力を入れる。 ブロックチェーン技術推進の一環として実証実験やコンサルティングなどを実施。ブロックチェーンを活用した株主投票では特許を取得。またブロックチェーン推進協会(BCCC)では技術応用部会を立ち上げ、技術者へブロックチェーンアプリケーションの作り方を啓発している。現在はAIやIoTなど先端技術の調査、普及啓発に努めている。