どうも。Kenny(tsujikenzo)です。このシリーズでは、 「GASでGemini APIを使おう」 について、全3回でお送りします。久しぶりの技術ブログ更新で緊張してます。
はじめに
わたしは、2年前からプログラミング学習の手を止め、本業(北海道の海産物屋さん)に集中していました。なので、昨今の生成系AIの情報収集や社内活用について、完全に浦島太郎状態です。
しかし、聞き捨てならないニュースが飛び込んできました。それはGoogle WorkSpaceの値上げです。
この値上げ(2025年3月17日)には、Gemini(ジェミナイ)というGoogleの生成AIが無料で使える機能が含まれています。ならばと思い、勉強を再開することにしました。
なのでこの記事は、以下にお悩みの読者を対象としています。
- Geminiって何ですか?
- ChatGPTに課金してるけど解約した方がいいのかな?
- 社内ワークスペースはGoogleさんに寄せている
- Geminiだけじゃなく、他の生成系AIも使ってみたい
それでは、行ってみましょう。
GeminiとGeminiの歴史
Geminiは、Googleが開発したマルチモーダルAIモデルファミリーです。
Gemini Proは、そのファミリーに属する中規模のモデルで、多様なテキスト処理タスクに対応できます。Geminiの最初のバージョンであるGemini 1.0では、3つの異なるサイズに最適化されてリリースされました。
Geminiのバージョン
Geminiには、バージョンがあり、ものすごいスピードで進化しています。現在は2.0が使えるようになるための準備をしているようです。
日付 | 歴史 |
---|---|
2023年5月 | Google I/O で Gemini 発表 |
2023年12月 | Gemini 初版リリース (Bard に搭載) |
2024年2月 | Gemini 1.5 Pro 発表 (Gemini Advanced に搭載) |
2024年5月 | Gemini 1.5 Pro のコンテキストウィンドウ拡張 |
2024年12月 | Gemini 2.0 発表 (Gemini Advanced に搭載) |
注意事項
この記事で扱うモデルは、「Gemini pro(中規模モデル)」です。proを省略して「Gemini」と呼ぶことがあるかもしれません。ご了承ください。
また、Geminiには、1.0、1.5とバージョンがありますが、バージョン名を省略して「Gemini」と呼ぶことがあるかもしれません。ご了承ください。
GWSの無料プランでは利用できず
そんな、Geminiですが、残念ながらGWSの無料プランでは、利用できません。
最低でも、法人プラン月額800円のBusiness Starter以上の契約が必要ですので、ご注意ください。Starterプランでは、Gmailのサイドパネルと、Geminiアプリでのチャット(ChatGPTのようなアプリです)が利用できるようです。
Gemini APIのキーを取得するばあいは、Business Standard以上の契約が必要です。(API キーの取得はどのプランでも可能なようです)
個人向けに、Google One AI Premiumという月額2,900円のプランがあります。家族でストレージを共有できるなどメリットがありそうですが、わたしはあまり詳しくないです。ごめんなさい。
Gemini API
Gemini APIは、そんなGemini Proに処理を依頼するための、インターフェイス(窓口)となってくれる存在です。
Gemini APIを操作するのは、GoogleドキュメントやGmailなどの各アプリです。
しかしながら、我々がアプリを操作するときにGemini APIを操作することを意識することはなく、ボタン1つで、Gemini Proの処理結果を堪能すればよいのです。
Gemini APIを直接操作する
本題です(長かった)。
Gemini APIは、GASやその他のプログラミングから操作できます。
アプリと違って、さまざまな設定や下準備が大変ですが、細かいカスタマイズや他のサービスとの連携(たとえばLINEなど)など、幅広く応用できるでしょう。
生成系AIのその他のAPIを利用する
世の中には、OpenAI社が提供するChatGPTやAnthropic社が提供するClaudeなど、さまざまな生成系AIがあります。
テキスト生成、翻訳、要約、質疑応答などのAPIを提供しているサービスも増えてきました。
API名 | 提供元 | モデル |
---|---|---|
Gemini API | Gemini Pro、Gemini 2.0 Flash | |
OpenAI API | OpenAI | GPT-4、GPT-3.5、DALL·E、Whisper |
Anthropic API | Anthropic | Claude |
Groq API | Groq | Groq LLM |
Azure OpenAI Service | Microsoft | GPT-4、GPT-3.5、Codex、DALL·E 2 |
これらのAPIを利用する手続きは、共通しているものが多いです。
以下の手続きは、この後の記事で紹介しますので、今は覚えなくても大丈夫です。(一部のサービスでは処理が異なるばあいがあります)
- アカウントを作成する
- APIキーを取得する
- エンドポイントを指定する
- エンドポイントから処理をリクエストする
Groq APIは現在開発中(ベータ版)とのことで、無料で使えるみたいです。 https://zenn.dev/mizunny/articles/58be26d25f9589
わたしは、Gemini APIを使いこなせるようになったら、ChatGPTのサブスクは解約しようかなぁなんて思ってます。
逆に、ChatGPTがものすごい勢いで低単価高性能を打ちだしたら、また乗り換えるかもしれません。
日新月歩を楽しむのもいいかもしれません。
まとめ
以上で、「GASでGemini APIを使おう」の第1回目をお送りしました。
次回は、「Gemini APIの下準備」をお届けします。お楽しみに。