ついにOpenAI からローカルモデルが!

2025-08-06、OpenAI から待望のローカルモデル gpt-oss が発表されました。

20Bであれば私の環境(M4 Mac mini/24GB メモリ)でもなんとか動きそうなので、さっそく試してみました。モデルサイズは13gbほど。 推論モデルということもあり、さすがにサクサクとはいかない。回答が出力されるまで毎回数秒は待機時間になります。

性能が高いのは間違いありませんが、Gemma3 (12B) も十分にすごいモデルだと感じていたため、正直いって体感では比較が難しいところがあります。そこで、、、

そうだ、対決させよう!!

gpt-o3 に「LLM モデルの性能を簡単に試せる日本語問題を考えて」という指示を出して、評価用の問題を10問作ってもらいました。

また、同じく gpt-o3Streamlit + Ollama を使ってローカルのモデルを二つ見比べられるチャットアプリを作成してもらい、gpt-oss (20B)Gemma3 (12B) を競わせてみました。

1問目

スクリーンショット 2025-08-06 22.23.58

どちらも正解か、と思いきや、Gemma3 の方は「はい。」と「。」がついてしまってます。どうやらいきなりgpt-ossが一歩リードです。

2問目

スクリーンショット 2025-08-06 22.25.44

こちらの問題もgpt-ossの勝利、なんですが、ここでちょっとハプニング。

スクリーンショット 2025-08-06 22.26.58

なんと、出題者であるgpt-o3も間違っていたことが発覚 一瞬gpt-ossがo3を超えてきたようです。

3問目

スクリーンショット 2025-08-06 22.28.33

Json配列を返す問題。これはどっちも正解でいいのかな。。

4問目

スクリーンショット 2025-08-06 22.31.46

Gemma 3 は文字数超過。gpt-ossのみ正解。

5問目

スクリーンショット 2025-08-06 22.33.18

引き分け。日本語を処理する系はGemma3も負けてない感じ。

6問目

スクリーンショット 2025-08-06 22.39.43

私もちょっと考えてしまった。gpt-ossさすが!

7問目

スクリーンショット 2025-08-06 22.41.57

計算式を書く、書かないあれどどちらも正解。 gpt-ossの方がクドクドとたくさん出力してくるイメージがあるが、この時は逆だった。

8問目

スクリーンショット 2025-08-06 22.43.40

gpt-ossのみ正解。

9問目

スクリーンショット 2025-08-06 22.45.04

両方正解。

10問目

スクリーンショット 2025-08-06 22.46.48

o3の想定はGemma3 の回答だったようだが、意味は成立するのでどちらも正解かな。

結果

gpt-oss(20b):全問正解

Gemma3(12b) :5問正解

正解率では完全にgpt-oss に軍配。しかしながら、スピードはGemma 3 の方が圧倒的に早く、日本語の言葉使いなんかを処理させる問題では負けてない印象なので、用途に応じて使い分けるのが良いと感じました。

それにしても、o3-mini相当というのも頷ける性能のgpt-ossローカルのLLMがついにここまで来たかという印象です。

なおメモリ消費はこんな感じ。左側の天井ギリギリがgpt-oss(20b)。 右の山がGemma3(12b)。

スクリーンショット 2025-08-08 23.01.21

Gemma3(12b)も軽量、高速で日本語処理強いので、どしどし使っていきたいと思います。