Из-за релиза GPT-5 открытые модели gpt-oss остались в тени и совершенно зря
С момента выхода модели gpt-oss-20b я периодически пользовался ей и хочу отметить пару интересных особенностей)
На текущий момент самый простой способ использовать модель это использовать Ollama или Lm Studio и лучше использовать второе)
Я тестировал оба варианта на своей видеокарте с 12гб видеопамяти и заметил, что Ollama не загружает видеокарту почти совсем, хотя в своей новости на сайте они говорят о прекрасной работе на карточках Nvidia RTX Вся нагрузка при работе модели идет на процессор и от этого скорость работы очень низкая, и использовать модель в таком режиме просто невозможно)
Lm Studio в этом плане сильно лучше, и загружает GPU, как итог модель работает шустро и этим действительно можно пользоваться даже на 12гб видеокарте) Скорость - 14 токенов/сек
Судя по сообщениям на Reddit и GitHub issues многие пользователи отмечают тоже самое) Поэтому если у вас нету необходимых для gpt-oss-20b 16гб видеопамяти и больше, то лучше используйте Lm Studio)
По поводу скорости работы gpt-oss-20b через LM Studio на RTX 4070
Вот вам небольшое видео того как работает эта модель на моей конфигурации (12гб VRAM + 32гб RAM), многое зависит от сложности запроса и настроек самой Lm Studio, но даже так работает модель шустро (быстрее чем gpt-4.5 в вебе).
А если уменьшить длину контекста, то можно еще немного ускорить работу модели.
Прямых тестов для сравнения с gpt-4o еще не проводил, но для бытового использования в случаях когда лень менять IP адрес модель отлично подходит, пользоваться очень комфортно)