Публикация #345 — Khan of data & analytics🎲 (@khan17analytics)

TGStat

Введите текст для поиска

Расширенный поиск каналов

Russian

Язык сайта

Russian English Uzbek
Вход на сайт

Каталог

Каталог каналов и чатов Поиск каналов
Добавить канал/чат
Рейтинги

Рейтинг каналов Рейтинг чатов Рейтинг публикаций
Рейтинги брендов и персон
Аналитика
Поиск по публикациям
Мониторинг Telegram

Khan of data & analytics🎲

28 Nov 2024, 18:55

Открыть в Telegram Поделиться Пожаловаться

Тут классные новости 🔥🔥🔥

Мои друзья Бексултан и Санжар, специалисты в области NLP/DL, объединились для решения важных проблем в разработке казахских LLM моделей и выпустили два набора данных:

1️⃣ Оценка понимания и логического мышления:
• MMLU переведенный на казахский (KK): Адаптация многозадачного языкового понимания на казахском языке. ссылка
• GSM8K переведенный на казахский (KK): Проверка математической логики и мышления. ссылка

2️⃣ Знания, специфичные для Казахстана:
• Казахская Конституция MC: Оценка юридических и гражданских знаний. ссылка
• Казахские традиции MC: Особенности культурного наследия и традиций. ссылка
• Единое национальное тестирование MC: Включает темы по казахской истории, литературе, географии и другим предметам. ссылка

Эти данные помогут моделям LLM не только отвечать на вопросы, но и глубже понимать богатую культуру казахского народа, что позволит применять эти знания на практике. Без таких датасетов модели будут отставать в качестве, особенно когда речь идет о локальных особенностях. А эти данные — как раз мост между нашими реалиями и технологиями. Это шаг к тому, чтобы казахский язык уверенно чувствовал себя в мире больших данных и искусственного интеллекта. 🚀🇰🇿

подробности в LinkedIn пост

kz-transformers/mmlu-translated-kk · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.