Созданием IrbisGPT занимались MOST Holding и Gen2b.ai, протестировать модель уже сейчас может любой желающий. Разработчики обучили ее на 20 Гб «сырых» данных из новостей и статей на казахском языке, расширив словарь почти в три раза по сравнению с предрелизом.
Разработчики отмечают, что IrbisGPT достаточно точно и корректно отвечает на вопросы на казахском и может поразмышлять на разные темы. Диалоговое окно LLM рассчитано на более чем 60 тыс. токенов.
К слову, следующую модель разработчики хотят создать на более совершенной архитектуре и рассчитывают дополнительно получить big data со стороны госорганов.
#комментарий
«Мы выложили проект в открытый доступ для того, чтобы собрать вокруг него коммьюнити и дать возможность энтузиастам развития казахского языка протестировать его и внести свой вклад в обучение модели», — отмечает фаундер проекта Бахт Ниязов.
Разработчики отмечают, что IrbisGPT достаточно точно и корректно отвечает на вопросы на казахском и может поразмышлять на разные темы. Диалоговое окно LLM рассчитано на более чем 60 тыс. токенов.
«LLM Irbis умеет обрабатывать входящую информацию, натренирована отвечать на простые вопросы, способна работать с контекстом, что дает возможность ее подключения к актуальным базам знаний, например, к налоговому кодексу. В перспективе она может стать полезным инструментом по получению релевантной информации. Также благодаря более эффективному токенизатору, скорость генерации текста на государственном языке увеличилась от 3 до 5 раз раз по сравнению с моделями GPT», — поделился Армен Атаян, CEO Gen2b.ai.
К слову, следующую модель разработчики хотят создать на более совершенной архитектуре и рассчитывают дополнительно получить big data со стороны госорганов.
#комментарий