ChatGPT / LangChain / Bing Chat|検索+情報整理の速さと質を比較検証

はじめに

株式会社cross-Xの古嶋です。DX戦略の立案やデータ・AI活用の支援をしています。

今回は、ChatGPT、LangChain、Bing Chatのそれぞれの手法を用いた情報検索+情報整理の速さと質を比較検証したいと思います。

まずは以下の表をご覧ください。

これは、3つの質問について以下の3つの手法ごとの出力完了までにかかった時間出力した文字数を表にまとめたものです。

  • ChatGPTのBrowsing機能で検索実行
  • gpt-4とGoogleのCustom Search APIをLangChainで操作し、検索実行
  • Bing Chatで検索実行

表の左側にも記載していますが、以下に質問文を再掲します。

  1. 2023年が始まってから現在に至るまで、OpenAIが提供を初めたサービスと、それによるAIへのインパクトを400字程度で具体的に整理してください。
  2. ChatGPTについての活用方法を調べ、調べた結果をアプローチごとにカテゴライズし、それぞれの概要と詳細を書いてください。また、全体で500字程度の文字量でまとめてください。
  3. GPT-4のような大規模言語モデルを使いこなすためのスキルをwebリサーチし、スキルリストを作成してください。各スキルごとの概要もあわせて記述してください。

表の中身だけを見ると、Bingの出力スピードが圧倒的に速い様子が伺えます。また、ChatGPTのBrowsing機能の出力スピードは相対的に見て遅い様子も伺えます。LangChainを用いた検索実行のアプローチは、中間的な出力スピードのように見受けられます。

これらの点を踏まえ、具体的な出力の中身を見ていきましょう。

質問文1:

質問文1を再掲します。

2023年が始まってから現在に至るまで、OpenAIが提供を初めたサービスと、それによるAIへのインパクトを400字程度で具体的に整理してください。

この質問文を用いた狙いは、リサーチによって情報間の時系列をどの程度まとめ、かつ整理できるのかを手法ごとに比較検証することです。今年(2023年)の頭から現在(2023年5月半ば)までという短い期間ですが、検索の実行と情報整理の精度を見ていきます。

ChatGPT PLUSの場合

まずはChatGPT PLUSの出力結果です。

出力完了までの時間:3分22秒

また、プルダウンを開けば、出力に至る検索の実行履歴も閲覧できます。

リサーチの情報ソースとしては、techcrunchの記事を参照していることが分かります。その内容を見ると、情報ソースとして良い記事を発見し活用している様子が伺えます。現在の2023年5月22日時点ではiOS用のChatGPTアプリは日本ではまだ使うことが出来ない状況ですが、最新情報をリサーチして記述している点は評価できます。

ただし、現在に至るまでの経緯に関する説明は弱く、整理した情報そのものに偏りが見られます。情報ソースそのものには経緯に関する整理が記載されているだけに、惜しいですね。

LangChain活用の場合

続いて、LangChainを用いた場合の出力内容です。途中部分に(省略)と書いているところは、出力文が長いため私の方で省略していることを示しています。

“> Finished chain.”以降に、結論となる出力が記載されています。

出力までの時間:3分28秒

2023年が始まってから現在に至るまで、OpenAIが提供を初めたサービスと、それによるAIへのインパクトを400字程度で具体的に整理してください。

> Entering new AgentExecutor chain...
まず、2023年にOpenAIが提供を開始したサービスについて調べる必要がある。
Action: Google Search
Action Input: OpenAI services launched since 2023
Observation: Nov 30, 2022 ... Try it now at chat.openai.com. ... For example, you could add ...(省略)

Thought:2023年以降にOpenAIが提供を開始したサービスには、Azure OpenAI、ChatGPT、GPT-4、ChatGPT Plusが含まれているようだ。それでは、それぞれのサービスによるAIへのインパクトについて詳しく調べることにしよう。
Action: Google Search
Action Input: Impact of Azure OpenAI and ChatGPT
Observation: Azure OpenAI Service offers industry-leading coding and language AI models that you can ...(省略)
Thought:Azure OpenAIとChatGPTによるAIへのインパクトとして、...(省略)

次に、GPT-4とChatGPT Plusのインパクトについて調べる。
Action: Google Search
Action Input: Impact of GPT-4 and ChatGPT Plus
Observation: Mar 14, 2023 ... We are releasing GPT-4's text input capability via ChatGPT and the API ...(省略)
Thought:GPT-4とChatGPT PlusによるAIへのインパクトとして、...(省略)

> Finished chain.

GPT-4とChatGPT PlusによるAIへのインパクトとして、GPT-4はChatGPT Plusのユーザーに利用可能であり、そのテキスト入力機能もAPIを経由して利用できる。また、GPT-4はOpenAIによって開発されたChatGPTの後継であり、前世代よりもさらなる進化を遂げている。新しいChatGPT Plusサブスクリプションプランは20ドル/月で提供されており、加入者にはさまざまな特典がある。GPT-4は限定的な形で提供されており、ウェイトリストに登録したユーザーやChatGPT Plusの加入者に利用可能である。また、GPT-4は、短期間で市場に大きな影響を与えることが期待されている。

まとめると、2023年以降にOpenAIが提供を開始したサービスには、Azure OpenAI、ChatGPT、GPT-4、ChatGPT Plusがあります。これらのサービスは、独自のニーズに最適化した業界をリードするAIモデルを提供しており、REST APIによる利用が可能なAzure OpenAIサービスが開発者に利用されています。また、GPT-4の登場によって前世代と比べてさらに進化したAI技術が実現され、今後世界中のあらゆる規模の個人や組織に大きなインパクトを与えることが期待されています。そうした中で、ChatGPT Plusはより高度な機能を提供し、GPT-4を利用することができるサービスとなっています。

ThoughtやActionのところで、自律的な判断の元で検索が実行されています。非常に面白い振る舞いです。これはReAct(Reasoning and Acting)と呼ばれる仕組みで、最近非常に注目が集まっているLLM活用の手法です。

上の内容をよく見てみると、「まず、2023年にOpenAIが提供を開始したサービスについて調べる必要がある。」という推論を自ら行い、Google Searchを選択して「Action Input: OpenAI services launched since 2023」という処理を自律的に実行しています。その処理で得られた情報をもとに。「Thought:2023年以降にOpenAIが提供を開始したサービスには、Azure OpenAI、ChatGPT、GPT-4、ChatGPT Plusが含まれているようだ。それでは、それぞれのサービスによるAIへのインパクトについて詳しく調べることにしよう。」と、更に推論を行い、次のアクションを考えています。まさにAI、といった振る舞いですね。

この処理を実現するために、具体的には、LangChainのAgentsという機能を実行するinitialize_agent()において、Agent Typesをzero-shot-react-descriptionに設定して実行します。詳しくはLangChainのHPに書かれていますが、この「LangChain+OpenAI API(gpt-4)+Custom Search API」を組み合わせた検索+要約の実行プロセスの概観を図示すると下図の通りです。

さて、“> Finished chain.”以降に結論となる出力が記載されているので、そこだけ抜き出します。

GPT-4とChatGPT PlusによるAIへのインパクトとして、GPT-4はChatGPT Plusのユーザーに利用可能であり、そのテキスト入力機能もAPIを経由して利用できる。また、GPT-4はOpenAIによって開発されたChatGPTの後継であり、前世代よりもさらなる進化を遂げている。新しいChatGPT Plusサブスクリプションプランは20ドル/月で提供されており、加入者にはさまざまな特典がある。GPT-4は限定的な形で提供されており、ウェイトリストに登録したユーザーやChatGPT Plusの加入者に利用可能である。また、GPT-4は、短期間で市場に大きな影響を与えることが期待されている。 まとめると、2023年以降にOpenAIが提供を開始したサービスには、Azure OpenAI、ChatGPT、GPT-4、ChatGPT Plusがあります。これらのサービスは、独自のニーズに最適化した業界をリードするAIモデルを提供しており、REST APIによる利用が可能なAzure OpenAIサービスが開発者に利用されています。また、GPT-4の登場によって前世代と比べてさらに進化したAI技術が実現され、今後世界中のあらゆる規模の個人や組織に大きなインパクトを与えることが期待されています。そうした中で、ChatGPT Plusはより高度な機能を提供し、GPT-4を利用することができるサービスとなっています。

内容を見てみると、先程のChatGPT PLUSの出力結果よりも情報量が多い様子が伺えます。

例えば、サブスクリプションプラン及び費用についての説明、ウェイトリストに登録することが必要だという説明、Azure OpenAIへの言及など、具体的な内容に踏み込んだ記述がされています。

さらに、GPT-4がChatGPTの後継で全世代よりも進化しているなど、質問文の意図を汲み取った回答を出力している様子が伺えます。

Bing Chatの場合

続いて、Bing Chatの出力結果を見てみましょう。

出力までの時間:0分32秒

先の2つの出力結果と比較してみると、かなり物足りない出力結果と言えそうです。文字数も400字に届いていません。

事例をもう2〜3個列挙してくれれば、AIのインパクトを表現するアプローチとしては良さそうですが、ちょっと“省エネ”感が見られる出力ですね。

質問文2:

質問文2を再掲します。

ChatGPTについての活用方法を調べ、調べた結果をアプローチごとにカテゴライズし、それぞれの概要と詳細を書いてください。また、全体で500字程度の文字量でまとめてください。

この質問文を用いた狙いは、特定のテーマについて情報検索し、その内容を「分類」したうえで整理出来るかどうかを検証することです。さらに、「概要」と「詳細」という異なる粒度において、500文字という一定度の情報量を兼ね備えた解説を記述できるかどうかを検証します。

ChatGPT PLUSの場合

まずはChatGPT PLUSの検証結果を見ていきましょう。

出力までの時間:3分55秒

出力に至る検索の実行履歴

内容としては非常に充実したものとなっているようです。活用方法を「一般」「業界別」「プログラミング」の3類型に分けて解説しています。

私の感覚としては、「プログラミング」についてのコード理解度や解説もかなりのレベルだと思っていましたが、“本人”はどうやら未熟だと認識しているようです。

LangChain活用の場合

続いて、LangChainを用いた場合の出力内容です。ReActの処理が実行されている部分は割愛し、結論となる出力部分のみ記載します。

出力までの時間:2分18秒

ChatGPTを活用する方法は様々で、以下のようにカテゴライズできます。
1. 管理職向けのコミュニケーションサポート
2. チャットAIサービスの統合
3. 自動化ツールとしての活用
4. 投資銀行システムへの統合

これらの活用方法において、特徴は次の通りです。

1. 管理職向けコミュニケーションサポートでは、ChatGPTを使って問題解決や意思決定プロセスを補助し、効果的なコミュニケーションができるようになります。
2. チャットAIサービスの統合では、ChatGPTと他のチャットAIツールをまとめて利用し、幅広いニーズに対応することができます。
3. 自動化ツールとしての活用では、例えばVSCodeと連携して開発作業を効率化したり、複数ページPDFの一括保存やネットワークエラーの対処法などの繁雑な作業を軽減できます。
4. 投資銀行システムへの統合では、UBSなどの銀行がChatGPTを使って金融市場の分析やレポート作成などを効率化し、ビジネスの成長を加速させることができます。

これらの活用方法は、ビジネスや個人のニーズに合わせて柔軟に対応できるため、職種や業種を問わず幅広く利用されています。ただし、注意点として、情報保護やプライバシーに関する指針に従って適切に利用することが重要です。

分類の軸としてはかなり微妙な分け方となっていますね。「管理職向け」「投資銀行システム」など、粒度感もバラバラですし、分類の観点としてもかなり偏っています。

一方で、記述されている内容はかなり具体的な印象を受けます。プロンプトを工夫することで、分類の軸をより良いものとしつつ、記述内容の具体性を保持するといったこともできそうですね。

Bing Chatの場合

続いてBing Chatの場合です。

出力までの時間:0分26秒

これは実務で活用する際のパターンを示しているように見られますね。カテゴライズされている様子が弱く、各アプローチごとの解説も簡略化されている印象です。

質問文3:

質問文3を再掲します。

GPT-4のような大規模言語モデルを使いこなすためのスキルをwebリサーチし、スキルリストを作成してください。各スキルごとの概要もあわせて記述してください。

この質問文の狙いは、リサーチした内容そのものを分類+整理するのではなく、リサーチした結果からスキルとして必要だと思われる要素を抽出したうえで分類+整理するという、一段深い思考を試すことです。

それでは出力結果を見ていきましょう。

ChatGPT PLUSの場合

出力までの時間:4分26秒

出力に至る検索の実行履歴

最初の項目から、ちょっとズレている印象を受けますね。これらが大規模言語モデルを使いこなすスキルかと言われると、おそらく違うでしょうね。スキルと言うより、大規模言語モデルを利用するためのステップと、利用したら何が出来るかの部分的解説、というように見受けられます。

LangChain活用の場合

途中のReActのステップは省略し、結論となる出力のみ記載します。

出力までの時間:3分16秒

GPT-4のような大規模な言語モデルを扱うための特定のスキルリストを見つけることは難しいようです。しかし、見つかった情報をもとに、大規模な言語モデルを扱う際に役立つと思われるスキルのリストを提案することができます。

1. 自然言語処理: 人間の言語を処理し理解するために使用される技術やアルゴリズムを理解することは、これらのモデルを扱う際に不可欠です。

2. 機械学習: 機械学習のアルゴリズムと概念、特にディープラーニングとトランスフォーマーモデルに精通していることが、大規模な言語モデルを理解し、トレーニングするために必要です。

3. プログラミングを行う: 大規模言語モデルの実装、微調整、デプロイをサポートするために、Pythonなどのプログラミング言語に習熟していることが必要です。

4. データの前処理 大規模言語モデルを扱う上で、モデルのトレーニングや評価のためにデータセットを前処理し、キュレーションする能力は重要なスキルである。

5. クラウドベースの技術とAPIに関する知識: OpenAIのようなクラウドベースのプラットフォームやAPIに精通していることは、大規模な言語モデルをより効率的に活用・展開する上で役立ちます。

6. モデルのファインチューニング GPT-4のような大規模な言語モデルを使用する場合、特定のタスク、ドメイン、または業界に適応させるために、事前に訓練されたモデルを微調整するプロセスを理解することは価値があります。

7. プロンプトエンジニアリング 大規模言語モデルから有用な回答を得るための効果的なプロンプトやクエリーを作成することは、これらのモデルを扱う上で重要なスキルです。

8. クリティカルシンキングと分析スキル: 大規模言語モデルの出力や動作を分析する能力は、潜在的な落とし穴、バイアス、制限を特定するのに役立ち、より正確で信頼性の高い結果を可能にします。

9. マルチモーダルな理解 GPT-4は画像とテキストの両方を入力できるため、コンピュータビジョンやマルチモーダル学習技術に関する知識があれば、モデルの能力を最大限に活用することができます。

10. 倫理的考察 GPT-4のような大規模な言語モデルを扱う場合、倫理的な意味を理解し、潜在的な偏見、公平性、法的問題を認識することがますます重要になります。

まさにこのようなスキルリストが欲しかった、という内容ですね。このリサーチ結果をさらに詳細化するための指示をすれば、より充実したスキルリストが作成できそうです。

Bing Chatの場合

最後に、Bing Chatの出力結果を見てみましょう。

出力までの時間:0分53秒

内容としては、1〜7の項目の内容について、8〜14の項目が詳細を解説しているという整理となっています。出力の形式としては読み取りづらいですね。

一方、出力スピードが速いことはメリットなので、ざっくりと要点を掴むためという割り切りで使えば良いのかもしれません。

結論

以上の内容をまとめると、以下のようなことが言えそうです。

  • Bing Chatよりも、ChatGPT PLUSやLangChainを用いた情報検索+整理のほうが精度が高く、情報量も多い
  • ChatGPT PLUSとLangChain活用の両者の出力結果の質については、どちらが優れているという結論を出すことは難しい。両方同時に扱って、双方の出力を参照しながら活用するという方法が当面は望ましいと思われる。
  • ChatGPT PLUSとLangChain活用は、両者ともに出力完了までの時間が長く、やや扱いづらい。処理速度が速くなることに期待。

当然ながら、今回は質問文のパターンが3つと限定的な検証であったため、正確な検証にはより多くの試行回数が必要だという点について、念のため触れておきます。

おわりに

ChatGPTのBrowsing機能は現在ベータ版で、LangChainは度々バージョンアップがされており、まだまだ精度改善の余地が期待されます。

また、各手法ごとに活用用途の相性もありそうな気がしています。プロンプトを工夫するだけでなく、プロンプトを実行する処理そのものも設計、チューニングすることによって、さらにLLMのポテンシャルを引き出していくという考え方が、今後より一層注目されるのではないかと思います。

最後までお読み頂き、ありがとうございました。皆さまの実務において、何かしらのヒントになれば幸いです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です