はじめに
初めまして、Sreake事業部アプリケーション開発支援チームの大美です。
先日、Googleのマルチモーダル生成AIモデル Gemini 1.5 Pro のコンテキストウィンドウが100万→200万トークンにアップデートされました。200万トークンは2時間の動画をインプットできます。
他社の生成AIモデルとの比較すると200万トークンがいかにすごいかわかります。
Gemini 1.5 Pro | 2,000,000 |
GPT 4系 | 128,000 |
Claude 3系 | 200,000 |
今回は、この圧倒的なコンテキストウィンドウを活かして商談会議動画をGeminiに解析してもらい、弊社で使っているトーク分析ツールに取って代わるポテンシャルがあるかを検証しました。
料金(Vertex AIでの利用)
https://cloud.google.com/vertex-ai/generative-ai/pricing?hl=ja
注意
現在、GeminiはVertex AIとGoogle AIから利用可能ですが、Google AIで利用するとインプットが学習に利用されるので注意が必要です。
詳しくは以下を参照してください。
https://ai.google.dev/pricing?hl=ja
検証
検証したモデルと設定値は以下です。
モデル名 | gemini-1.5-pro-preview-0514 |
---|---|
Temperature | 0 |
TopP | 0.95 |
※今回は、できるだけ素のGeminiのポテンシャルを検証したいのでプロンプトチューニングは最低限しか行っていません。
検証項目
以下の項目を検証しました。
- 出席者名
- 議事録
- 沈黙回数
- 会話のラリー数(話者が切り替わった回数)
- 発言比率(営業・顧客の発言比率)
- 抑揚スコア
- キーワード抽出(与えたキーワードが動画中でいつ出たか)
- トピック抽出(会話をトピックで分ける)
検証結果
まず先に検証結果の一覧です。
項目 | できるできない | 満足いくレベルか |
---|---|---|
出席者名 | ⭕️ | ⭕️ |
議事録 | ⭕️ | ⭕️ |
沈黙回数 | ❌ | ❌ |
会話のラリー数 | ⭕️ | ⭕️ |
発言比率 | ⭕️ | ⭕️ |
抑揚スコア | ⭕️ | ⭕️ |
キーワード抽出 | ❌ | ❌ |
トピック分割 | ⭕️ | ❌ |
※「満足いくレベルか」:完全に主観です。
それぞれ見ていきます。
出席者名
できるできない | 満足いくレベルか |
---|---|
⭕️ | ⭕️ |
商談動画の説明
出席者(偽名):
弊社側:佐藤(背景画像に名前が表示されている。)
相手側:鈴木(背景画像に名前が表示されていない。)
動画の長さ:
35分
Geminiへの質問
[商談動画]
この会議の参加者名をわかる限り列挙してください。
Geminiの回答
会議の参加者は、佐藤さんと鈴木さんの2名です。
所感
参加者数、参加者名ともに取得できています。
相手側は背景に名前が表示されておらず、弊社営業が相手の名前を数回出している程度です。それだけの文脈から参加者を正確に割り出せています。すごいですね。
相手側の名前が登場しない別会議では、「佐藤、女性1人」のように回答してくれています。その場合は、「企業名+女性1人」のような出力になるように指示するといいのかもしれません。
追加検証
追加検証として、出席者数が3人、4人の場合の会議動画についても検証しました。
背景に名前を表示させている参加者については結構正確に把握できています。ただ、背景に名前が表示されていない参加者の取得精度はまだまだな感じです。3人なのに2人のようなハルシネーションが起きてしまいます。
Geminiにとっても、会議にとっても(?)冒頭に自己紹介の時間を設けることが重要なのかもしれません。😑
議事録
できるできない | 満足いくレベルか |
---|---|
⭕️ | ⭕️ |
商談動画の説明
動画の概要:
弊社プロダクト「Securify」についての商談
動画の長さ:
35分
Geminiへの質問
[商談動画]
3-shake の営業メンバーとお客様との商談におけるビデオ会議の様子です。
この商談における議事録を作成してください。
以下のようなフォーマットのマークダウンで出力してください。
-----------------------------------
# 参加者
3-shake: xxx
先方: xxx
# ネクストアクション
* (3-shake) xxx
* (先方) xxx
# 議事録
xxxx
Geminiの回答
-----------------------------------
# 参加者
3-shake: 佐藤
先方: {顧客企業名}
# ネクストアクション
* (3-shake) 60万円の見積書を送付する
* (先方) 検討の上、導入時期を決定する
# 議事録
* 佐藤から自社の脆弱性診断ツール「Securify」の紹介を行う。
* {顧客企業名}は、現在、自社のセキュリティ対策として、他社の脆弱性診断ツール「{ツール名}」とオープンソースのツールを併用して使用している。
* Securifyは、{ツール名}と比較して、診断項目数が多く、網羅的な診断が可能である点が強みである。
* {顧客企業名}は、Securifyの診断結果をPDFファイルで出力できる点や、SlackやTeamsと連携して診断結果を通知できる点に魅力を感じている。
* 佐藤は、{顧客企業名}の利用状況を踏まえ、月額5万円の「STARTERプラン」を提案する。
* {顧客企業名}は、導入時期や予算について検討し、改めて連絡する旨を伝える。
* 佐藤は、60万円の見積書を送付し、{顧客企業名}からの連絡を待つことになった。
-----------------------------------
所感
かなりいい感じで取れている気がします。
ネクストアクションが取れていることに驚きました。確かに会議動画を見ると弊社側が60万円のプランの見積書を送ると発言していますし、相手側も「検討します」と発言しています。ただ、”導入時期の決定”についてはハルシネーションです。
沈黙回数
できるできない | 満足いくレベルか |
---|---|
❌ | ❌ |
商談動画の説明
動画の説明:
冒頭と後半に5秒以上続く沈黙あり
動画の長さ:
35分
Geminiへの質問
[商談動画]
この動画は商談動画です。
会話をすべて理解してください。
会話中、5秒以上続けて参加者の発言がない時間を教えてください。
Geminiの回答
動画の会話で、5秒以上続けて参加者の発言がない時間はありません。
所感
冒頭と後半に5秒以上続く沈黙がありますが、「ない」と回答していまっています。
原因調査として、以下のような項目の追加検証が効果的かと思っています。
- Geminiが「5秒以上続けて」のような時間幅を理解できているか確認
- いくつかの動画を渡して、「この動画の長さは?」みたいに質問
- わかりやすい何かが数秒続いている動画を渡して、「何秒続いているか」を質問
- 「発言がない」について理解できているか確認。
- 理解させるために、言葉を言い換える。「音声がない」とか?
- 例題を与える(Few Shot手法)←動画でFew Shotができるかも検証したいです。
プロンプト改善案
スクリプトを作成してもらい、時間が空いているところを答えてもらう
ラリー回数
ラリー回数 ≡ 話者が切り替わった回数(相槌は除く)
できるできない | 満足いくレベルか |
---|---|
⭕️ | ⭕️ |
商談動画の説明
動画の説明:
話者が切り替わった回数を長尺動画で検証が難しいので、5分にカットした動画で確認しています。
動画の長さ:
5分
Geminiへの質問
[商談動画]
これは、営業と顧客の商談動画です。
動画を理解して、出席者を確認してください。
話者が切り替わった回数を教えてください。
Geminiの回答(個人名は偽名)
出席者は、営業の佐藤さんと顧客の鈴木さんの2名です。
話者が切り替わった回数は、29回です。
所感
自分で話者の切り替わり回数をカウントしてみると、21回でした。
Geminiの回答の29回は悪くない数字だと思います。(私がカウントした話者の切り替わりタイミングも主観が入っちゃってると思うので)
別動画でも試したところ、悪くない数字を回答してくれています。
ただ、会議参加者が3人以上になると、検討違いの回答をしてしまいます。
発言比率
できるできない | 満足いくレベルか |
---|---|
⭕️ | ⭕️ |
商談動画の説明
発言比率(弊社で利用している商談解析ツールにより算出):
弊社営業:77.6 %
動画の長さ:
35分
Geminiへの質問
[商談動画]
この動画は、3-shakeの営業と顧客の商談動画です。
動画から出席者を把握してください。
出席者を営業と顧客に分類してください。
営業側が話している時間の全体に対する割合を教えてください。
Geminiの回答(個人名は偽名)
## 出席者と分類
**営業:** 佐藤 (3-SHAKE)
**顧客:** {相手側企業名}(会社名不明) 鈴木 (担当者名)
## 営業側の発言時間割合
動画全体の長さは約35分です。そのうち、馬渕さんが話している時間は約25分です。
したがって、営業側の発言時間割合は、
25分 / 35分 × 100% = **約71%**
となります。
所感
商談解析ツールで算出した割合は77.6 %と、かなり良い線いっていると思います。
今回、Temperatureを0に設定していることもありますが、数回実行してみても70-80 %付近に落ち着いています。
出席者3人の会議動画でも試してみましたが、こちらもやはり精度良くないです。
抑揚スコア
できるできない | 満足いくレベルか |
---|---|
⭕️ | ⭕️ |
商談動画の説明
動画の長さ:
35分
Geminiへの質問
[商談動画]
この動画は、ビジネスの商談動画です。
まずは動画とその音声を理解してください。
スピーカーの声の抑揚を以下の手順に従って評価してください。手順は1から順番に実行してください。
1. 会話の音声を全て理解してください。
2. 出席者の人数を数えてください。
3. 全ての出席者の抑揚を声のみで評価してください。
4. 100を満点として、理由とともにスコアをつけてください。
Geminiの回答
音声の評価
1. 会話内容の理解
この音声は、セキュリティ診断ツール「Securify」を提供する会社と、顧客である企業との商談の様子です。顧客は既に「Securify」の無料プランを利用しており、その結果を踏まえて、有料プランへの移行を検討しています。
顧客は、競合他社のツール「{他社ツール名}」も検討しており、価格や機能面で比較検討しています。Securifyの担当者は、顧客のニーズをヒアリングしながら、適切なプランや導入方法を提案しています。
2. 出席者の人数
出席者は2名です。
3. 全ての出席者の抑揚評価
Securify担当者: 声のトーンは全体的に明るく、ハキハキと話しています。顧客の質問に対しては、丁寧に説明し、理解を深めようとする姿勢が感じられます。特に、自社製品の強みをアピールする際には、熱意がこもっており、自信を持っている様子が伝わってきます。
顧客: 声のトーンは落ち着いており、質問も簡潔で分かりやすいです。Securify担当者の説明に対しては、相槌を打ちながら、理解を示している様子が伺えます。
4. スコアと理由
Securify担当者: 85点
明るくハキハキとした話し方で、聞き取りやすい。
顧客の質問に丁寧に答え、理解を深めようとする姿勢が好印象。
自社製品への自信と熱意が感じられる。
若干早口な部分があり、より落ち着いて話すとさらに聞きやすくなる。
顧客: 75点
落ち着いて話しており、質問も簡潔で分かりやすい。
相槌を打ちながら、Securify担当者の説明を聞いている様子が伝わる。
声のトーンがやや単調なため、もう少し抑揚があると、より感情が伝わりやすくなる。
まとめ
Securify担当者は、顧客のニーズを的確に捉え、分かりやすく説明することで、成約に繋げようとする意欲が感じられる、好印象な話し方でした。顧客も、Securify担当者の説明をしっかりと理解し、前向きに検討している様子が伝わってきました。
所感
完全に主観ですが、私も会議動画を視聴してGeminiの回答(スコアと理由)に納得できました。
他の方にも動画を視聴してもらい、Geminiの回答に納得できるか評価してもらおうと思います。
ただ、「理解を深めようとする姿勢」であったり、「相槌を打ちながら」であったりと抑揚以外の部分も評価対象に入っているのでプロンプトチューニング等で改善する必要があると感じています。
追加検証
少し棒読み気味な動画も判定してもらいましたが、60点と低めの評価を下しています。なんでも高得点を出す訳ではないと確認できました。
キーワード抽出
指定したキーワードを会話から抽出
できるできない | 満足いくレベルか |
---|---|
❌ | ❌ |
商談動画の説明
動画の長さ:
35分
Geminiへの質問
[商談動画]
この動画は営業と顧客の商談動画です。
まず、動画と会話を全て理解してください。
以下のキーワードを探してください。
- 「もし」
- 「たとえば」
見つけた場合は時間も教えてください。
Geminiの回答
おっしゃるとおり、動画は営業と顧客の商談動画ですね。会話の内容を理解し、「もし」「たとえば」のキーワードを探してみました。
「もし」 6回
0:06
0:28
1:23
1:27
1:30
「たとえば」 1回
0:32
ご参考になりましたでしょうか。 他に気になる点などございましたら、お気軽にご質問ください。 😊
所感
かなり検討違いです。
「話(はなし)」を「もし」と誤認していたり、言ってもいない時間帯を回答していたりしました。
プロンプト改善案
スクリプトを作ってもらい、それがある程度正確であればその中から”キーワード”を抽出してもらうとか良いかもしれません。
トピック分割
会話をトピックに分割する
できるできない | 満足いくレベルか |
---|---|
⭕️ | ❌ |
商談動画の説明
動画の長さ:
35分
Geminiへの質問
[商談動画]
動画は、営業と顧客の商談の動画です。
会話を理解してください。
1. 会話の内容をトピックごとに分けてください。
2. そのトピックの時間帯を教えてください。
3. トピックと時間帯のみ回答してください。
各トピックの詳細を出力させないように、「3. トピックと時間帯のみ回答してください。」を追加しています。
Geminiの回答
もちろんです。会話の内容をトピックごとに分けて、その時間帯を以下に示します。
挨拶と導入 (0:00-0:30)
顧客の状況とニーズの確認 (0:30-1:47)
セキュリティ診断ツールの説明 (1:47-13:58)
価格とプランの説明 (13:58-17:52)
顧客の懸念と今後の検討事項 (17:52-29:02)
提案内容と見積もり (29:02-31:21)
顧客の導入時期と検討事項 (31:21-32:52)
提案内容の確認と今後の流れ (32:52-34:57)
締めくくり (34:57-34:59)
所感
トピックとして良く分類できています。ただ、時間帯に関しては誤差が目立ちました。たとえば、「顧客の状況とニーズの確認」は実際の会議動画では4:00ぐらいまで続いていました。
ただ、トピックの順番は合っているので商談の流れはGeminiが教えてくれますね。
「沈黙回数」「キーワード抽出」でもそうでしたが、細かい数値化みたいなものはまだ苦手みたいです。
結論
本記事のテーマである、「Geminiはトーク分析ツールに取って代わるか」ですが、
”ポテンシャルは十分にある”
と曖昧にさせてください🙇
検証項目8つのうち5つ で「満足いくレベル」と評価しましたが、出席者が2人の場合などの制約付きです。ただ、今回はかなり簡単なプロンプトで検証した結果です。それにも関わらずこの結果を叩き出しているGeminiはかなりすごいのではないでしょうか。
実際にプロンプトをチューニングしたらどうなるか、また検証したいと思います。
(料金のことを言うと、現時点では1時間の動画で1500円ほど掛かるので今のところ現実的ではない気がしますが…)
感想
全体に対して主観性のようなものを持ってアクションする作業はGeminiは得意そうです。反対に細かい数値化的な作業は苦手みたいです。
人間やん。。笑
今後試したいこと
全体を通して、動画後半の精度が落ちていく印象がありました。これは、前半と後半で分けてそれぞれでGeminiに考えてもらう手法(Zero-shot CoT的な)を取ると改善できるかもしれません。
また、動画のFew Shot(いくつか例題を提示する)手法についても今後試してみたいです。これができるのは、Gemini 1.5 Proが200万トークンも入力できるおかげです。すごい。