Khan of data & analytics🎲


Kanal geosi va tili: Qozog‘iston, Ruscha


Канал об аналитике, data science, алгоритмах и математике. Здесь я делюсь интересными задачами для подготовки к собеседованиям (и просто чтобы пошевелить мозгами), рассказываю о крутых книгах, олимпиадах и многом другом.
по вопросам @khan17ds

Связанные каналы  |  Похожие каналы

Kanal geosi va tili
Qozog‘iston, Ruscha
Statistika
Postlar filtri


Начал читать и слушать (в Яндекс Книге удобно — аудио с текстом синхронизированы, так что когда хожу, слушаю, когда сижу, читаю) книгу «The Maniac» Бенджамина Лабатута. Автор круто смешивает факты и вымысел, так что иногда вообще не понимаешь, где заканчивается реальность. Главный герой — гениальный математик (Джону фон Нейман), чьи идеи повлияли и на ЭВМ, и на ядерное оружие, и на то, как мы в целом смотрим на мир.

Но самое сильное здесь — это то, как Лабатут показывает «тёмную сторону» гения. Вдруг понимаешь, что есть очень тонкая грань между великой идеей и безумной одержимостью, и она может легко сдвинуться. Пока не закончил, но уже рекомендую всем!

#kitap_khan


На собеседованиях на позицию лидов в ML или аналитики я люблю давать небольшие «разогревочные» задачки, перед бизнес кейсами. Например:

«Равной силы команды играют до трёх побед. Какова вероятность, что матч завершится ровно за три партии?»


Но в последнее время плохо с этим)

Почему это важно:

Оценка математической подготовки. Задачи на вероятность демонстрируют, насколько быстро кандидат видит решение и умеет обращаться с базовыми статистическими методами.

Проверка логики и структурного мышления. Нужно уметь разложить задачу на этапы, взвесить все возможные варианты исхода.

Гибкость мышления. Умение рассуждать на абстрактных примерах часто говорит о том, как человек будет справляться со сложными бизнес-кейсами и обрабатывать реальные данные.

Такого рода задачи — простой, но эффективный способ «разогреть» кандидата и оценить его умение применять математическую логику и критическое мышление на практике.

#задачи


Наткнулся на сайт от Амазона — MLU-Explain.

Сделали реально классные визуализации по ключевым темам в ML:
Случайный лес, Перекрёстная проверка, Обучение с подкреплением, Поиск компромисса между смещением и дисперсией, Нейронные сети

Тем пока не так много, но, возможно, будут добавлять. Вообще, очень крутая штука, чтобы освежить знания или объяснить новичкам.

#ML


Прочитал статью "Что мы узнали о LLM в 2024" Саймона Виллисона — человека с опытом работы в веб-разработке и Python более 20 лет!
Статья огонь, поделюсь главными мыслями!

Главные уроки 2024 года

LLMs продолжают удивлять, но и показывают свои ограничения. Вот основные выводы:

⚡️ Контекст — наше всё: Модели стали лучше в обработке длинных текстов, но всё ещё иногда теряют нить повествования. Кто виноват? Ограничения технологии.

🌍 Многоязычность: Работают с десятками языков, но, как говорится, «где данные лучше, там и результат». Пока не везде идеально.

🔐 Этика и безопасность: Использование моделей для дезинформации и прочего деструктива — острый вопрос, который до сих пор решают.

🔍 Узкие задачи — лучший результат: Если модель обучена на конкретной теме, результат просто топ. На широких данных пока «не так всё однозначно».

Технические достижения 2024 года

Сначала про то, что действительно впечатляет:

🪟 Контекстное окно до 100 000 токенов: Теперь LLMs могут «читать» книги, статьи и большие документы. Это уже уровень.

🤖 Интеграция с инструментами: Модели умеют обращаться к базам данных и API, чтобы отвечать на сложные вопросы.

🧩 Модульные архитектуры: Соединение нескольких моделей для разных задач — это что-то новое.

Применение LLMs в реальном мире

Теперь о том, где это всё реально работает:

📊 Бизнес: Автоматизация отчётов, анализ данных, подготовка документов. Времени экономит куча!

🏥 Медицина: Помощь в анализе клинических данных и расшифровке записей врачей.

🎓 Образование: Персонализированные учебные материалы. Учиться стало проще, но не всем.

🛠️ Программирование: Генерация кода, поиск багов. Говорят, джуны начали нервничать.

Проблемы и вызовы
Но не всё так радужно:

Точность: Модели иногда несут чушь. Над этим надо работать.

🕶️ Чёрный ящик: Даже разработчики иногда не понимают, как это работает внутри.

⚠️ Этика: Кто и как будет контролировать использование? Пока больше вопросов, чем ответов.

🌐 Энергопотребление: Модели требуют огромных ресурсов. Экология говорит: «Ай-ай-ай!»

Интересные факты

🔄 Самообучение: Появились модели, которые могут учиться в реальном времени.

🌍 Глобальное внедрение: Даже развивающиеся страны используют LLM для автоматизации.

🧬 Модели с памятью: Теперь они запоминают, что обсуждали раньше. Удобно!

📱 Мобильные версии: LLM, которые работают на смартфонах и IoT-устройствах.

Что нас ждёт в будущем?

🧑‍⚖️ Новые законы: Глобальные правила использования ИИ — это вопрос времени.

🔬 Специализация: Будут модели для конкретных задач, а не «всё обо всём».

🤝 Коллаборации: Компании и страны начнут работать вместе.

🌱 Экологичность: Учёные разрабатывают энергоэффективные методы обучения.

#AI


Data Explorers Hub dan repost
SQL Squid Game

Представьте себе: вас только что наняли на должность Data Scientist в загадочную организацию Squid Game. Front Man, руководитель игр, заманил вас обещаниями полностью удаленной работы и возможностью работать с передовым ИИ.
Но... сюрприз!
Классическая ситуация в мире данных: вас обманули.

Вместо обещанного вы получаете:
- Product Analytics на SQL.
- Гибридный график (5 дней в офисе, 2 дня возможно удаленно).

И пока вы размышляете о том, как бы пожаловаться на Reddit, Front Man приставляет пистолет к вашей голове и требует ответы на бизнес-вопросы.
Теперь ваша задача - писать SQL-запросы, чтобы выжить!

Готовы проверить свои навыки SQL в экстремальных условиях? Присоединяйтесь к игре!


AI Агенты: Что за монстр?

Решил вот разобраться, что такое AI агенты. С одной стороны, вроде понятно — что-то умное, с другой — как только начинаешь углубляться, кажется, что каждый понимает это по-своему. Да и вообще, когда что-то становится модным, как термин Big Data, туда накидывают всё подряд.

Попробую накидать своё понимание и мысли. Возможно, это поможет кому-то (включая меня самого) лучше разобраться.

Что такое AI агент?

Если кратко, AI агент — это программное обеспечение, которое:
1. Использует технологии ИИ (от классического ML до современных LLM).
2. Может активно взаимодействовать с внешним миром (то есть не просто отвечает на вопросы, а действует).
3. Ориентирован на выполнение конкретной задачи.

По сути, это как Джеймс Бонд 007, только не в смокинге, а с промптом внутри.

Почему "активное взаимодействие"?

Вот что важно. Раньше мы привыкли, что ИИ — это что-то пассивное: спросил → ответили.
AI агент же идёт дальше:
- Может писать и отправлять письма.
- Запускать скрипты.
- Работать с API.
- Даже заказывать вам пиццу или сделать перевод, если слишком устали.

Это делает их более полезными, но и сложными в разработке, потому что тут нужна куча интеграций, правил и тестов.

LLM — обязательно или нет?

Не обязательно. Хотя сейчас все ассоциируют AI с LLM (например, ChatGPT), агент может использовать что угодно:
- Правила и паттерны.
- ML модели.
- Баесовские алгоритмы
.
Но LLM сейчас как тренд, так что почти все новые агенты завязаны на них. Они бомбят модель запросами (промптами) для решения задач.

Как агенты думают?

Самое интересное — это как AI агент строит цепочку действий. Вот примеры популярных подходов:
1. Chain of Thought (CoT): Линейная цепочка. Подходит для задач, где каждый шаг зависит от предыдущего.
Пример: Планирование поездки: выбрать город → забронировать билеты → заказать отель.
2. Tree of Thought: Строит дерево решений, где каждая ветка — возможный вариант.
Пример: Подбор маршрута, где есть несколько вариантов транспорта и остановок.
3. Graph of Thought: Строит граф, учитывая сложные связи и перекрёстки.
Пример: Организация логистики с учётом множества складов и точек доставки.

Агент не просто выполняет один алгоритм, а как будто придумывает его на ходу, адаптируясь под новые данные.

В чём будущее?

AI агенты — это движение от детерминированных решений (где всё заранее запрограммировано) к вероятностным.
Это похоже на переход от шахматного алгоритма к чему-то более гибкому, способному решать задачи с миллионом неизвестных.

Будущее тут за такими вещами:
- Узкая специализация: Один агент = одна задача. Много задач = связка агентов.
- Автономность: Минимум ручного управления. Агент должен учиться, адаптироваться и даже сам исправлять свои ошибки.
- Интеграции: Чем больше систем умеет использовать агент, тем больше пользы он приносит.

Кстати если вы читали (или хотя бы слышали) книгу Даниэла Канемана «Думай медленно, решай быстро», то знакомы с концепцией Системы 1 и Системы 2. Канеман объясняет, что:

Система 1 — быстрая, интуитивная, но иногда ошибочная.

Система 2 — медленная, аналитическая, но требует больше времени и усилий.

Эта аналогия как раз описывает разницу между работой LLM и AI-агентов.



https://youtu.be/KrRD7r7y7NY?si=USrlIMO0pN2IAJWU

#AI


Вы участвуете в игре Дальгон, где перед вами лежит сахарная фигурка в виде треугольника. Вам нужно вырезать эту фигурку, используя иголку, так чтобы не сломать её. Ваша задача — действовать аккуратно, так как:

1. Каждое нажатие на фигурку с вероятностью 10% приводит к трещине.
2. Если фигурка получает 3 трещины, она ломается, и вы проигрываете.

Вопрос:
Какова вероятность того, что вы сможете вырезать фигурку, сделав ровно 20 нажатий, не сломав её?

#задачи


Продуктовые метрики: что нужно знать всем (не только аналитикам!)

Продуктовые метрики — это как health-check вашего бизнеса. Если не следить за ними, можно легко потерять клиентов, деньги и даже мотивацию команды. Здесь собрал 10 самых интересных и полезных метрик, которые будут понятны не только аналитикам, но и менеджерам, разработчикам. В дальнейшем буду отправлять неочевидные и интересные метрики.

1️⃣ DAU/WAU/MAU (Daily/Weekly/Monthly Active Users)

Что это: Показывает, сколько у вас активных пользователей за день, неделю или месяц.
Зачем нужно: Видите динамику — растёте, стагнируете или падаете.
Пример: Если DAU падает, а маркетинг крутит акции — значит, где-то утечка: баг, неудобный UX или конкуренты переманили.

2️⃣ Retention Rate (Удержание пользователей)

Что это: Процент пользователей, которые вернулись после первой сессии.
Зачем нужно: Без удержания все деньги уйдут на привлечение, а пользователи так и не станут постоянными.
Пример: Игровое приложение: если на третий день остаётся только 10%, то либо игра скучная, либо гейм-дизайнер был в отпуске.

3️⃣ Churn Rate (Отток пользователей)

Что это: Процент пользователей, которые ушли за определённый период.
Зачем нужно: Чутьё на проблемы — чем выше отток, тем больше риска для бизнеса.
Пример: В музыкальном сервисе Churn резко вырос после обновления — оказалось, что добавили платную подписку без уведомления.

4️⃣ ARPU (Average Revenue Per User)

Что это: Средний доход с одного пользователя.
Зачем нужно: Помогает понять, кто ваш самый прибыльный сегмент.
Пример: Если ARPU падает, а скидки раздают всем подряд, то может, вы просто дарите деньги, а не зарабатываете.

5️⃣ NPS (Net Promoter Score)

Что это: Мера лояльности пользователей. Спрашиваете: "Оцените, как вы нас порекомендуете от 0 до 10".
Зачем нужно: Выяснить, кто фанат вашего продукта, а кто пишет вам гневные отзывы.
Пример: Если NPS падает, а вы игнорируете тикеты в саппорте, готовьтесь к антирекламе в соцсетях.

6️⃣ Conversion Rate (Конверсия)

Что это: Процент пользователей, выполнивших целевое действие (покупка, подписка).
Зачем нужно: Помогает измерить эффективность вашей воронки продаж.
Пример: В интернет-магазине с новой формой оплаты конверсия выросла на 15%. Деньги любят, когда удобно.

7️⃣ LTV (Lifetime Value)

Что это: Доход, который пользователь приносит за всё время взаимодействия с продуктом.
Зачем нужно: Чтобы понять, сколько можно потратить на привлечение.
Пример: Если LTV ниже затрат на рекламу, то вы просто спонсируете чужие клики.

8️⃣ Bounce Rate (Показатель отказов)

Что это: Процент пользователей, которые покинули продукт, не совершив ни одного действия.
Зачем нужно: Диагностика UX/UI.
Пример: Сайт с регистрацией в 10 шагов? Bounce Rate 90%, и половина ушедших даже не дошла до первого экрана.

9️⃣ Time to Value (TTV)

Что это: Время, за которое пользователь получает первую ценность от продукта.
Зачем нужно: Чем быстрее клиент увидит пользу, тем выше вероятность, что он останется с вами.
Пример: Если для настройки CRM системы требуется неделя, а у конкурента это занимает день, у вас явно длинный TTV, который отпугивает клиентов. Оптимизируйте первые шаги — меньше инструкций, больше автоматизации.

🔟 Feature Adoption Rate (Уровень освоения фич)

Что это: Процент пользователей, которые начали активно использовать новую фичу или обновление.
Зачем нужно: Чтобы понять, насколько ваши нововведения действительно полезны и понятны.
Пример: Вы добавили суперфункцию для аналитики, но её освоили только 5% пользователей. Может, дело в сложном интерфейсе или недостаточной обучающей информации?




Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
Недавно, ну как недавно, уже 2 недели назад (по меркам AI — это давно😃), OpenAI представила Sora — новый мощный генератор видео

Что умеет Sora?
- Генерация видео из текста и изображений. Можете делать ремиксы, склеивать ролики в единый видеоряд и экспериментировать.
- Качество просто топ!
- Удобный интерфейс. Галерея, создание папок, монтаж — всё на месте.
- Гибкость настроек. Видео до 20 секунд в 1080p, плюс возможность продлить генерацию до пяти раз.
- Платный доступ. $20 в месяц за 50 генераций или $200 за безлимит и видео без водяных знаков.

Вообщем, прикольно и круто. Конечно, я ещё тот промптовик 😂
Попробовать можно здесь. Если сделаете прикольные видосы — кидайте сюда))




Недавно начал читать в перелетах «Блиц-масштабирование» Рида Хоффмана, основателя LinkedIn. Интересная книга, рекомендую.

В целом, существует 4 вида масштабирования, и один из них — блиц-масштабирование. Это про то, когда нужно расти быстро и в условиях неопределённости, отдавая приоритет скорости, а не производительности.

Я всегда был немного перфекционистом: считал, что сначала нужно довести продукт до идеала, а уже потом думать о росте. Но книга заставила задуматься. Иногда важнее просто захватить рынок, даже если продукт ещё сыроват.

Особенно зацепило, как авторы показывают ошибки, которые встречаются на пути у стартапов. Многие из них я сам наблюдал, когда консультировал команды. Например:

- Фокус только на технологии, забывая про бизнес-модель. Если не знаешь, как зарабатывать, никакая инновация не поможет.
- Медленный рост из-за страха рисков. Тут нужна готовность действовать, даже если нет полной уверенности.
В книге много практичных советов, которые полезны не только стартапам, но и крупным компаниям. Вообще, если вы хотите понять, как расти в условиях хаоса и стать лидером, рекомендую прочитать. Лично мне некоторые вещи реально поменяли взгляд на масштабирование.

#kitap_khan


Первый казахский лидерборд запущен! 🇰🇿

Так, тут большое событие! Мои друзья из прошлого поста сдержали обещание и выпустили лидерборд на основе бенчмарков, о которых мы говорили ранее. Вот ссылка: https://huggingface.co/spaces/kz-transformers/kaz-llm-lb

Что это значит для нашего языка и страны?

Это огромный шаг для развития технологий на казахском языке! 🔥 Мы впервые видим инициативу, которая системно поднимает уровень AI-моделей для родного языка.
Раньше казахский часто оставался на задворках крупных AI-разработок. Этот лидерборд — шанс исправить ситуацию:
- Стимул для открытых исследований. Разработчики по всему миру могут вносить вклад и улучшать модели на казахском.
- Поддержка локальных разработчиков. Появляются метрики и инструменты, которые помогают создавать качественные продукты.
- Инвестиции в будущее. Это закладывает основу для технологий, которые будут полезны бизнесу, образованию и государственным проектам.

Итоги первого запуска:

-- Открытый сегмент:
Лидирует ISSAI с моделью LLaMA-3.1-KazLLM-1.0-8B, которая дала +5% к своему бэкбону и обошла Google Gemma-2-9b-it на 1%.
-- Все модели:
Абсолютный лидер — GPT-4o, который опережает ближайшего конкурента Sonnet 3.5 на 2%.

Что дальше?

1. Оффлайн арена с системой рейтинга ELO (духи шахмат уже ликуют!)
2. Более сложные бенчмарки для реальных задач. Это поможет проверить модели в боевых условиях.
3. Кастомные instruct-датасеты. Пора учить AI понимать наши реальные потребности.

Ребята открыты к предложениям и готовы сотрудничать! 🙌 Фидбек, новые идеи или сабмит своей модели — все это можно сделать через GitHub или кнопку Submit на HuggingFace.

Давайте покажем поддержку!
🔗 Репостните, чтобы больше людей узнали о нашем лидерборде.
📢 Чем больше участников и идей, тем быстрее наш язык получит достойное представительство в мире AI.

Подключайтесь! 💪💪💪


😁




🎉 Внимание! Сегодня и завтра на платный курс по Deep learning от AI-Academy действует скидка 40%!

Скидка действует только первым 15 человек купившим курс

В программе курса:
• Алгоритмы глубокого обучения с нуля, начиная с математики
• Нейронные сети для распознавания изображений на pytorch
• Обработка естественного языка (NLP) с задачами из реального мира

❗ Акция действует только до 22:00 завтрашнего дня!

Подробности на сайте ai-academy.kz
Напишите в ЛС @imanmal1k чтобы записаться


А теперь расскажите, что вам интересно читать и обсуждать в канале? Если вашего варианта нет — пишите в комментариях! можно выбирать несколько вариантов
So‘rovnoma
  •   📊 Задачи
  •   🤖 ML/AI
  •   📈 Аналитика
  •   ⚖️ А/Б тесты
  •   🔗 Причинно-следственные связи
  •   📐 Математика
  •   💻 Программирование / Алгоритмы
  •   🎓 Курсы
  •   🛠 Дата инжиниринг
  •   😂 Мемы
229 ta ovoz


Теперь давайте узнаем ваш уровень
So‘rovnoma
  •   1️⃣ Школьник
  •   2️⃣ Студент
  •   3️⃣ Junior
  •   4️⃣ Middle
  •   5️⃣ Senior
  •   6️⃣ Lead
  •   7️⃣ Head
  •   8️⃣ C-level
  •   Другое
151 ta ovoz


В нашем канале уже более 1к подписчиков, и хочется поближе познакомиться с вами. Кто вы?) Запускаю небольшое голосование, чтобы узнать вашу сферу деятельности:
So‘rovnoma
  •   1️⃣ Data Scientist / ML Engineer
  •   2️⃣ Data Analyst / Product Analyst
  •   3️⃣ MLOps/ DevOps
  •   4️⃣ Product Manager
  •   5️⃣ Data Engineer
  •   6️⃣ Разработчик
  •   7️⃣ Еще учусь
  •   8️⃣ Другое
235 ta ovoz


Всем привет!

Очень нужна ваша поддержка для школьников-стартаперов из команды MOMENTUM AI! 🎉

Наши ребята участвуют в конкурсе High School Start-up League — международном соревновании стартапов среди старшеклассников. Конкурс организован совместно с Masters Union (университет бизнеса и экономики из Индии) и впервые проводится в Казахстане в сотрудничестве со Spectrum School.

В первом этапе в Астане участвовало около 170 человек и 17 команд. В результате отбора выбрали 4 лучшие команды, и MOMENTUM AI — одна из них! 🚀 Теперь перед ребятами стоит задача попасть в ТОП-15 мирового рейтинга на основе голосования. Конкуренция жесткая — команды со всего мира! 🌍

Цель конкурса — помочь школьникам развивать свои инновационные идеи. Топ-15 команд получат уникальную возможность презентовать свои проекты международным инвесторам и продолжить развивать свои стартапы.

На данный момент MOMENTUM AI занимает 1 место среди казахстанских команд, но в мировом рейтинге пока только на 26 месте.

Давайте поддержим наших ребят! Ваш голос может реально помочь им выйти в ТОП и представить Казахстан на мировом уровне! 🙌

Vote for Momentum AI
More than 30% of computer users struggle to locate and organize their files cluttered across their devices, decreasing their efficiency and productivity while performing assignments (e.g. school, job, meetings, etc).


That is why we’ve created MOMENTUM AI, the AI which is capable of sorting your documents in a Moment
Vote for Momentum, vote for the future of innovations, make an Impact

🗳Here to vote: https://mastersunion.org/events/hssl-leaderboard-details/67513adf30ca264e0eff503d
Our instagram: https://www.instagram.com/m0mentum.a1/profilecard/?igsh=d2QzdXAxMW0wcW94

Спасибо за поддержку! ❤️

20 ta oxirgi post ko‘rsatilgan.