Gemini APIの情報をお探しですね。
広告
Gemini APIの基礎知識と料金体系|Google発の最新AIモデルとは
最近話題の生成AIを使ったアプリ開発で、Googleが提供している「Gemini API」がすごく注目されています。
性能が高いのに料金が安いというコスパの良さが魅力なんです。
特にPythonで開発する場合、公式のツールがしっかり揃っているので、テキスト生成から画像認識、難しい推論まで、ほんの少しのコードで実現できちゃいます。
Geminiの一番の特徴は「マルチモーダル」という能力。
これは、テキストだけじゃなくて、画像、音声、動画、プログラムコードなど、いろんな種類の情報を同時に理解して処理できるってことなんです。
今使えるGemini APIのモデルは、どんどん進化しています。
最新の「Gemini 2.5」シリーズや「Gemini 2.0 Flash」は、以前のモデルと比べて処理スピードも正確さも段違いに良くなっています。
例えば「Gemini 2.5 Flash Image」は、キャラクターの見た目を保ったまま画像を編集できる高度な機能があって、クリエイティブな作業でも大活躍します。
さらに、数百万トークンという超広いコンテキストウィンドウを持つモデルもあって、長編小説まるごと一冊分のデータを一気に読み込んで分析することもできるんです。
これから開発を始める人が一番気になるのは、やっぱり「料金」ですよね。
Gemini APIには太っ腹な無料枠(Free Tier)が用意されているので、試作品を作ったり個人で開発する程度なら、お金の心配をせずに高性能なAIを試せます。
本格的にビジネスで使う場合でも、Flashモデルのような軽量版を選べば、「100万トークンあたり数セント」という超低価格で運用できます。
まずは無料枠でAPIの動きを確認して、必要になったら有料プラン(使った分だけ支払う方式)に移るのがおすすめです。
APIキーの取得とPython環境の準備|Google AI Studioでの設定手順
Gemini APIを使うには、まずGoogleの公式開発ツール「Google AI Studio」でAPIキーを手に入れる必要があります。
Googleアカウントさえあれば誰でも使えて、クレジットカードの登録もいらないので、すぐにAPIキーを発行できるのが便利なポイントです。
Google AI Studioにログインして、「Get API key」というボタンを押して、「Create API key in new project」を選ぶだけ。
そうすると、英数字がランダムに並んだAPIキーが作られます。
このキーはアプリとGoogleのサーバーをつなぐための大事な認証情報なので、絶対に他の人に見られないように大切に保管してくださいね。
次は、Pythonの開発環境を整えましょう。
Pythonがインストールされているパソコン(Windows、Mac、Linuxどれでもオッケー)があれば、ターミナルやコマンドプロンプトで必要なライブラリを入れるだけで、すぐに開発スタートできます。
Gemini APIを使うための最新の公式ライブラリは `google-genai` です。
次のコマンドを実行して、ライブラリをインストールしましょう。
`pip install google-genai`
セキュリティ対策として、APIキーをプログラムのコードに直接書き込むのはやめたほうがいいです。
うっかりGitHubで公開しちゃうリスクがあるので、環境変数として設定するか、`.env`ファイルなどで管理するのが一般的なやり方です。
例えば、MacやLinuxのターミナルなら `export GEMINI_API_KEY=”あなたのAPIキー”` と設定して、Pythonのコードでは `os.environ.get(“GEMINI_API_KEY”)` で読み込むようにすると安全です。
Windowsの場合は、システムのプロパティから環境変数を設定するか、PowerShellで `$env:GEMINI_API_KEY=”あなたのAPIキー”` と入力して一時的に設定する方法があります。
これで準備完了です!Google AI Studioには、ブラウザ上でプロンプト(AIへの指示)を試せる機能もついているので、コードを書く前に「どんな指示を出したら、どんな答えが返ってくるか」をテストする場所としても使えます。
APIキーの取得と環境構築は、AI開発の最初のステップですが、Gemini APIの場合はこの作業がとてもシンプルになっているので、初心者でも5分くらいで終わるはずです。
基本的なテキスト生成と画像認識の実装|Pythonコードで動かすGemini
環境が整ったら、実際にPythonのコードを書いてGeminiを動かしてみましょう。
まずは一番基本的な「テキスト生成」からです。
下のコードは、ユーザーの質問に対してGeminiが答えを返してくれるシンプルなチャットボットの例です。
新しい `google-genai` ライブラリを使うと、とても分かりやすく書けるようになっています。
“`python
import os
from google import genai
# クライアントの初期化(APIキーは環境変数から読み込み)
client = genai.Client(api_key=os.environ.get("GEMINI_API_KEY"))
# モデルを指定してテキストを生成
response = client.models.generate_content(
model="gemini-2.0-flash",
contents="PythonでAIアプリを作りたいです。初心者向けのアドバイスをください。",
)
print(response.text)
“`
このコードを実行すると、Geminiは指定されたモデル(ここでは `gemini-2.0-flash`)を使って質問の内容を理解して、ちゃんとしたアドバイスを返してくれます。
モデル名は目的に合わせて変更できて、もっと高度な推論が必要なときは `gemini-1.5-pro` などを指定することもできます。
レスポンスをストリーミング形式で受け取ることもできるので、その場合はAIが考えながら文字を出力しているような、ChatGPTみたいな表示も実装できますよ。
次に、Geminiの本領発揮である「マルチモーダル機能」を試してみましょう。
テキストだけじゃなくて画像も読み込ませて、その内容について質問できる機能です。
例えば、手書きのメモを写真に撮って「これをテキストにして」とお願いしたり、風景写真を見せて「ここってどこ?」って聞いたりできるんです。
“`python
import os
from google import genai
from google.genai import types
import PIL.Image
# 画像ファイルの読み込み
image = PIL.Image.open("sample_image.jpg")
client = genai.Client(api_key=os.environ.get("GEMINI_API_KEY"))
response = client.models.generate_content(
model="gemini-2.0-flash",
contents=[
"この画像に写っているものを詳しく説明してください。",
image
]
)
print(response.text)
“`
こんな感じで、`contents` のリストの中にテキストと画像オブジェクトを並べて渡すだけで、Geminiは両方の情報をまとめて処理してくれます。
これって、今までのAI開発だと、OCR(文字認識)モデルと画像認識モデルを別々に組み合わせて実装するような、けっこう複雑な処理だったんです。
でもGemini APIを使えば、たった数行で実現できちゃいます。
画像だけじゃなくて、PDFファイルや動画ファイルをアップロードして解析させることもできるので、仕事の効率化ツールを作るときにすごく便利です。
実務で役立つ「構造化データ出力」の活用法|JSON形式でデータを抽出する
AIをシステムに組み込むとき、一番困るのが「出力形式がバラバラになること」です。
AIに「レシピを教えて」って頼むと、文章で返ってくるときもあれば、箇条書きで返ってくるときもあって、プログラムで自動処理するのが難しかったんです。
でも、Gemini APIの「構造化出力(Structured Outputs)」機能を使えば、必ず指定したJSON形式でデータを返してもらえます。
これは、バラバラなデータ(文章やメール、ニュース記事など)から特定の情報だけを抜き出してデータベースに保存したいときに最適です。
例えば、「料理のレシピ文章」から「料理名」「材料リスト」「手順」だけを取り出してJSON化するプログラムを考えてみましょう。
Pydanticというライブラリを使ってデータの「型」を定義すると、Geminiはその型に従ったデータを作ってくれます。
* **構造化出力のいいところ**
* **後で加工する必要がない**: 正規表現とかでテキストを切り出さなくても、そのままプログラムで使える。
* **型が安全**: 数値であるべきところには必ず数値が入るようにコントロールされる。
* **開発がラクになる**: データの形式が保証されるから、エラー対応が簡単になる。
具体的なコードはこんな感じです。
ここでは `Recipe` というクラスを定義して、その形式に沿ってデータを出力させています。
“`python
from google import genai
from pydantic import BaseModel, Field
from typing import List
import os
# 出力してほしいデータ構造を定義
class Ingredient(BaseModel):
name: str = Field(description="材料名")
quantity: str = Field(description="分量")
class Recipe(BaseModel):
recipe_name: str = Field(description="料理名")
ingredients: List[Ingredient]
instructions: List[str]
client = genai.Client(api_key=os.environ.get("GEMINI_API_KEY"))
prompt = """
以下のテキストからレシピ情報を抽出してください。
「おいしいカレーの作り方。材料は、じゃがいも2個、人参1本、牛肉200g、カレールー半箱です。
作り方は、まず野菜と肉を炒めます。次に水を加えて煮込みます。最後にルーを溶かして完成です。」
"""
response = client.models.generate_content(
model="gemini-2.0-flash",
contents=prompt,
config={
"response_mime_type": "application/json",
"response_schema": Recipe,
},
)
# JSONとして取得されたデータを確認
print(response.text)
“`
このコードを実行すると、Geminiは入力された日本語の文章を理解して、`Recipe` クラスで定義した通りのキレイなJSONデータを返してくれます。
これを使えば、Webサイトから情報を集めて整理したり、会社のドキュメントから特定の項目を抜き出してExcelにまとめたりといった仕事の自動化アプリが簡単に作れます。
構造化出力は、AIを単なる「チャットボット」から「データ処理マシン」に進化させる大事な機能なんです。
Gemini APIは毎日のように進化していて、処理スピードや正確さが上がるだけじゃなくて、こういう開発者向けの便利な機能もどんどん充実してきています。
Pythonの基礎知識があれば、アイデア次第で今までになかった画期的なアプリを作ることができますよ。
まずは無料のAPIキーを手に入れて、簡単なコードから試してみてください。
実際に動かしてみると、AIが持っている可能性の大きさを実感できるはずです。
広告
