Тут классные новости 🔥🔥🔥
Мои друзья Бексултан и Санжар, специалисты в области NLP/DL, объединились для решения важных проблем в разработке казахских LLM моделей и выпустили два набора данных:
1️⃣ Оценка понимания и логического мышления:
• MMLU переведенный на казахский (KK): Адаптация многозадачного языкового понимания на казахском языке. ссылка
• GSM8K переведенный на казахский (KK): Проверка математической логики и мышления. ссылка
2️⃣ Знания, специфичные для Казахстана:
• Казахская Конституция MC: Оценка юридических и гражданских знаний. ссылка
• Казахские традиции MC: Особенности культурного наследия и традиций. ссылка
• Единое национальное тестирование MC: Включает темы по казахской истории, литературе, географии и другим предметам. ссылка
Эти данные помогут моделям LLM не только отвечать на вопросы, но и глубже понимать богатую культуру казахского народа, что позволит применять эти знания на практике. Без таких датасетов модели будут отставать в качестве, особенно когда речь идет о локальных особенностях. А эти данные — как раз мост между нашими реалиями и технологиями. Это шаг к тому, чтобы казахский язык уверенно чувствовал себя в мире больших данных и искусственного интеллекта. 🚀🇰🇿
подробности в LinkedIn пост
Мои друзья Бексултан и Санжар, специалисты в области NLP/DL, объединились для решения важных проблем в разработке казахских LLM моделей и выпустили два набора данных:
1️⃣ Оценка понимания и логического мышления:
• MMLU переведенный на казахский (KK): Адаптация многозадачного языкового понимания на казахском языке. ссылка
• GSM8K переведенный на казахский (KK): Проверка математической логики и мышления. ссылка
2️⃣ Знания, специфичные для Казахстана:
• Казахская Конституция MC: Оценка юридических и гражданских знаний. ссылка
• Казахские традиции MC: Особенности культурного наследия и традиций. ссылка
• Единое национальное тестирование MC: Включает темы по казахской истории, литературе, географии и другим предметам. ссылка
Эти данные помогут моделям LLM не только отвечать на вопросы, но и глубже понимать богатую культуру казахского народа, что позволит применять эти знания на практике. Без таких датасетов модели будут отставать в качестве, особенно когда речь идет о локальных особенностях. А эти данные — как раз мост между нашими реалиями и технологиями. Это шаг к тому, чтобы казахский язык уверенно чувствовал себя в мире больших данных и искусственного интеллекта. 🚀🇰🇿
подробности в LinkedIn пост