Khan of data & analytics🎲


Channel's geo and language: Kazakhstan, Russian
Category: Technologies


Канал об аналитике, data science, алгоритмах и математике. Здесь я делюсь интересными задачами для подготовки к собеседованиям (и просто чтобы пошевелить мозгами), рассказываю о крутых книгах, олимпиадах и многом другом.
по вопросам @khan17ds

Related channels  |  Similar channels

Channel's geo and language
Kazakhstan, Russian
Statistics
Posts filter


🚀 Открыта регистрация на Beetech Conf by QazCode
📅 31 мая | Алматы | NARXOZ

В прошлом году был в программном комитете этой конференции — отбирали доклады. Было реально круто. Лично для меня — Beetech Conf это топ-1 конфа в Казахстане. В этом году снова буду — приходите, познакомимся 🙌

Что будет в этом году?

🧠 AI and beyond — стрим про всё, что связано с искусственным интеллектом. Не только про LLM, но и про то, как AI меняет индустрию и мир.
🛠️ General — инженерия, менеджмент, рост, софт-скиллы. Всё, что волнует айтишников сегодня.

И ещё:
• 🎤 20 докладов без воды — только практический опыт от ребят из Apple, Авито, Yandex KZ, Kolesa Group, QazCode и др.
• 🏠 Квартирники — живые и местами холиварные дискуссии.
• ⚡ Speed-менторинг — пообщаешься с экспертами 1-на-1, прокачаешь карьерные и проектные штуки.
• 🧪 Воркшопы — плотный практикум с пользой и навыками на выходе.

🎟️ Early bird — 15.000 ₸ до 20 апреля
Потом будет 20.000 ₸

🔗 Билеты: beetech.kz

До встречи на конфе 👋


Просто наткнулся на интересную инфографику — решил сохранить)


Давно меня цепляют работы нобелевских лауреатов по экономике — особенно те, кто занимался оценкой эффектов от госмер.
Казалось бы, простая задача: вот у нас есть программа поддержки — например, бесплатные лекарства или субсидия IT курсов — ну и что? Просто посчитай, сколько выдали и сколько людей воспользовались.
Но вот тут и начинается интересное.

🧨 Оценить эффекты от какой-либо меры господдержки — это вообще не простая задача, как думают некоторые наши высокопоставленные люди)
Именно за такие «непростые задачки» и дают Нобелевские премии — когда умеешь аккуратно отделить эффект программы от всего остального шума.

📌 Как-то тут уже делился об этом

Сейчас работаю над продуктом Социальный кошелек — через него в Казахстане выдают льготы, ваучеры, лекарства, питание и т.д. И вот это прям кейс из учебников: можно ли точно посчитать, помогает ли мера или нет? И кому именно?

🧠 Поэтому месяц назад в SDU мы запустили конкурс:
Студентам предложили выбрать одну меру гос.поддержки и исследовать её эффект — с аналитикой, гипотезами, расчётами.
🔥 Теперь я решил продлить конкурс ещё на месяц и открыть его не только для студентов SDU, а для всех желающих.
Но при этом студентов SDU буду оценивать отдельно, остальных — отдельно тоже.

🎓 Это отличный шанс прокачаться, попробовать себя в роли настоящего исследователя, и даже повлиять на будущее госпрограмм.

А вдруг именно твоя работа станет отправной точкой реальных изменений на уровне страны?


Работая у нас во многих компаний — и изнутри, и в роли консультанта — я для себя выработал один лайфхак: достаточно задать пару правильных вопросов, чтобы понять, насколько в компании реально уважают аналитику, или всё держится на вере, BI и магии Excel.

🧠 Ниже — не все, но важные вопросы, которые я использую. Можно применять при найме, аудите, или просто для самодиагностики своей команды.

🔹 1. Роль аналитики в бизнесе
— Кто инициирует задачи: бизнес или аналитики?
— Были ли кейсы, когда аналитика реально повлияла на ключевые решения?
— Есть ли регулярные product reviews, где цифры — главный аргумент, а не украшение на слайде?
— Какие 3 бизнес-решения в компании были недавно приняты на основе аналитики? Если никто не вспомнит — возможно, и не было.

🔹 2. Команда и процессы
— Есть ли карьерный трек у аналитиков?
— Разделены ли роли: аналитик, BI, Data Engineer, ML? Или у всех «всё подряд»?
— Проводятся ли код-ревью, гайды по SQL, A/B тестам, документации?
— Есть ли единый стандарт расчёта метрик? Или каждый считает DAU по-своему?

🔹 3. Инфраструктура и инструменты
— Сколько времени занимает ответ на вопрос вроде “Сколько новых пользователей в марте?”
— Есть ли витрина данных и единая точка правды?
— Какой процент расхождений по ключевым метрикам между системами? Есть ли процесс сверки или у всех «свои цифры»?
— Версионируются ли SQL-запросы и пайплайны? Или всё хранится как final_FINAL_last_ok.sql?

🔹 4. A/B тесты и Causal Inference
— Делаете ли A/B тесты? Как часто?
— Проверяете ли SRM и корректность распределения?
— Есть ли подходы к причинно-следственному анализу там, где тесты невозможны?

🔹 5. Продуктовое мышление
— Участвуют ли аналитики в генерации гипотез или только цифры выдают по запросу?
— Делаете разбор провалившихся фич? Учитесь на них?
— Есть ли регулярный анализ retention, LTV, сегментов?
— Есть ли посчитанная юнит-экономика? Кто ей реально пользуется? Или она лежит в архиве презентаций?

🔹 6. Культура и взаимодействие
— Делятся ли аналитики инсайтами между командами?
— Проводятся ли внутренние митапы, демо, обсуждения?
— Подключают ли аналитику на ранних этапах продуктовых идей? Или когда уже “пора померить”?
— Есть ли процесс контроля качества данных? Или снова “BI багует”?
— Есть ли сквозная аналитика от денег до денег? Можно ли проследить путь пользователя от клика до прибыли?

📌 Эти вопросы — простой способ быстро понять, насколько компания реально data-driven.
Красивый дашборд — не признак зрелости. Зрелость — это когда по данным принимаются решения.

Какие еще вопросы можно задать?) пишите в коментах


Недавно другу на собесе (и мне когда-то давали такую же) попалась классика

#задачи


Video is unavailable for watching
Show in Telegram
Может кто-то уже слышал, а для кого-то это будет открытие — у нас в Казахстане есть стартап мирового уровня в сфере искусственного интеллекта.

Речь про Higgsfield AI — казахстанский AI-стартап, который ворвался на глобальную сцену.
Основан он немалоизвестным в мире ML и парнем с моей школы Ерзатом Дулатом — крутым ресечером, с которым реально гордимся 🇰🇿

🔬 31 марта команда Higgsfield представила новую модель, которая умеет оживлять фото и видео, добавляя кинематографические эффекты. Это уже не просто фильтры — это генерация движения, стиля, композиции, как будто ты сам режиссёр.

📈 В Америке и Китае модель просто взорвала — обогнала конкурентов, собрала миллионы просмотров, мемов и ремейков.
А недавно команда объявила партнёрство с AMD — мировым гигантом в сфере GPU и процессоров 🔥

Загляните к ним на сайт — https://higgsfield.ai
Или в инсту: там уже переснимают сцены из фильмов в новых стилях, как из будущего.

🤖 Я сам поигрался — мощь!
Хотя промпты у меня пока так себе 😅 надо прокачиваться и в этом)


Как привлечь математика)

Сорри, просто недавно видел что-то похожее))


Математика существует не для того, чтобы навязывать кому-либо тяжелую работу. Наоборот, она существует только для удовольствия. Для удовольствия тех, кто любит анализировать то, что он делает, или может сделать, или то, что уже сделал в надежде сделать это еще лучше.


Роберт Брингхерст


🚀 Запускаю самообучающийся курс с менторством (Х-Analytics)!

Так получается, что в мае, после праздников, у меня чуть освободятся руки, и я решил сделать бесплатный проект — взять на менторство 5 зеленых ребят (джунов, студентов и тех, кто только начинает свой путь в аналитике), у которых есть потенциал стать сильными аналитиками.

🎯 Как это будет?

Формат самообучения с моей поддержкой: каждую неделю буду открывать вам доступ к новым темам и материалам (SQL, Python, статистика, A/B-тесты, причинно-следственные связи, базовый ML и AutoML, Метрики, Продуктовые кейсы).

Вы будете изучать материалы самостоятельно, я буду направлять, ставить задачи и проверять их выполнение.

Курс продлится примерно 2 месяца.

📌 Курс полностью бесплатный!

Моя цель — вырастить реально сильных аналитиков. Про платные проекты пока не думал, хоть и много раз звали — всегда отказывался. Может, позже вернусь к этой теме, но сейчас — только так.
Может позже сделаю отдельный поток для сеньоров, которым не хватает хардкора — возможно, с подготовкой к различным кубкам по аналитике, посмотрим в общем.

⚡️ ВАЖНОЕ ДОПОЛНЕНИЕ!

Техническим навыкам можно научиться самому при правильном подходе или делегировать алгоритмам. То, чему я хочу научить, гораздо глубже: это насмотренность, эрудиция и самое главное — продуктовое мышление.

⚠️ ВАЖНО!

Буду очень тщательно отбирать первых участников. Обязательно опишите подробно и искренне свою мотивацию в форме, расскажите, почему хотите именно ко мне. Мне нужны ОЧЕНЬ мотивированные ребята, которые будут действительно стараться и делать то, что я скажу. Если вы придёте ко мне и не будете относиться серьёзно — я сильно обижусь (а этого лучше не надо 😅). Мир аналитики у нас очень тесный)

📋 Минимальные требования:

Базовые знания SQL, Python, статистики

⏳ Дедлайн подачи заявки — ровно месяц. После праздников в мае я отберу и свяжусь с вами.

👉 Заполняйте форму максимально четко, чтобы я смог сформировать правильную картину о Вас

📢 Можете распространить этот пост студентам и всем, кому он будет полезен — уверен, среди них найдутся сильные будущие аналитики!


Обычно каждое утро у меня есть полезная привычка – минут на 20 решать задачи: математические, логические или на программирование. Это здорово заряжает мозг на весь день, помогает раскачаться и настроиться на продуктивный лад. Очень рекомендую эту практику всем – даже простые задачи отлично подойдут, чтобы «запустить» вашу внутреннюю нейронку с утра.

Последние несколько месяцев я, правда, немного отошел от этой полезной привычки, но сейчас решил возобновить свой утренний ритуал и стал искать, какую бы книжку или базу задач порешать. И, листая один из каналов с базой книг, неожиданно наткнулся на сборник задач моего школьного тренера по математике – Ибрагима Жоржевича.

Начал постепенно решать задачи из этой книги – и реально кайфую. Отличный материал для тренировки мозга и прокачки аналитического мышления. Не пугайтесь слова «олимпиадные» – задачи здесь для учеников 7-9 классов, то есть идеально подходят для аналитиков и всех, кто хочет размять мозги без особого напряжения.

В будущем обязательно напишу серию статей или даже мини-книгу с рекомендациями по задачам, которые помогут аналитикам развивать аналитическое мышление максимально эффективно.


Сколтех и Вышка приглашают студентов выпускных курсов любого математического и IT-бакалавриата помериться силами в решении сложных математических задач машинного обучения в рамках Олимпиады Math of Machine Learning 2025.

Может кому-то будет интересно, да и в целом прикольно поучаствовать)

https://hse.skoltech.ru/mml_2025_rus


Привет всем! Ищу к себе мощного Senior Data Engineer'а в продукт «Социальный кошелек»,
Который построит DWH с нуля и наладит процессы сбора, хранения и обработки данных.
Вам предстоит проектировать ETL/ELT-процессы, выбирать инструменты и архитектуру,
а также обеспечивать надёжность и масштабируемость решения.
Будем вместе тесно работать и развивать дата-культуру!


SELECT *
FROM data_engineers
WHERE role = 'Senior Data Engineer'
AND product = 'Социальный кошелек'
AND remote_work = TRUE
AND experience_years >= 4
AND skills IN (
'DWH design', 'ETL/ELT', 'SQL (advanced)', 'Airflow', 'dbt', 'Kafka', 'PostgreSQL',
'ClickHouse', 'Docker', 'Kubernetes', 'Git', 'Python' )
AND understands IN ('Data Vault', 'ODS', 'Lakehouse')
AND abilities = ('Building DWH from scratch', 'Optimizing data pipelines', 'Data monitoring and alerting', 'Process automation')
AND collaboration = ('Analysts', 'Developers', 'Business')
AND bonus_skills IN ('Real-time data processing', 'Kafka', 'Debezium', 'DataOps', 'CDC')
AND motivation_level = 'high'
AND passion_for_data = TRUE;



Буду благодарен, если отправите знакомым дата-инженерам!
По вопросам ко мне @khan17ds

#вакансия


Forward from: Data Secrets
Video is unavailable for watching
Show in Telegram
А вы уже видели новую рекламу Perplexity в стиле Игры в кальмара? Они даже актера Ли Чжон Чжэ с главной роли позвали. Но особенно порадовал «Poogle» 😐

Маркетинг ИИ, который мы заслужили


С праздником Наурыз, друзья! 🌷

Пусть ваш жизненный датасет всегда будет полон счастья, здоровья и удачи! Желаю точных прогнозов, чистых данных, стабильных моделей и алгоритмов, которые всегда сходятся.

Пусть в вашем аналитическом пайплайне всегда царит порядок, метрики уверенно растут, а гипотезы подтверждаются с первого раза. Желаю вам, чтобы данные были чистыми, дашборды понятными, а запросы на собеседованиях — решаемыми!

Пусть этот Наурыз станет для вас точкой роста, а весеннее обновление принесет крутые инсайты и ясность в каждую задачу!

Наурыз құтты болсын! 🚀🌱✨


📌 Вот еще моя любимая задача, где есть парадокс

Представьте, что человек играет в игру: на каждом шаге его капитал либо увеличивается на 10%, либо уменьшается на 10% с равной вероятностью. И так продолжается много раз, например, тысячу. Как изменится его капитал в долгосрочной перспективе?

🔹 Интуитивный взгляд на процесс

На большом количестве шагов выигрышные и проигрышные исходы будут встречаться приблизительно равное число раз. Кажется, что это должно привести к сохранению капитала, но давайте разберёмся внимательнее.

Если сначала капитал увеличился на 10%, а затем уменьшился на 10%, то итоговое значение становится:

1.1 × 0.9 = 0.99

То есть за два шага игрок теряет 1% капитала. Если же сначала уменьшить капитал на 10%, а затем увеличить на 10%, результат будет тот же:

0.9 × 1.1 = 0.99

Получается, что за тысячу партий, где примерно 500 пар «выиграл-проиграл», общий капитал постепенно уменьшается, ведь на каждой такой паре игрок теряет 1%.

🔹 Но если решать по статистике, а она обычно правильная

При каждом ходе капитал умножается либо на 1.1 (при выигрыше), либо на 0.9 (при проигрыше) с вероятностью 0.5 для каждого. Тогда математическое ожидание множителя на одном шаге:

EM = 0.5 × 1.1 + 0.5 × 0.9 = 1.0

То есть среднее арифметическое значение капитала остаётся равным начальному даже после тысячи шагов.

Почему же тогда игрок в большинстве случаев теряет деньги?

Даже если сделать симуляцию на Python, можно увидеть, что в основном люди будут терять.

#задачи


Video is unavailable for watching
Show in Telegram


Временные ряды

Временные ряды — это данные, которые меняются со временем: продажи, выручка, число заказов, активность пользователей, курсы валют и т. д. Аналитики постоянно сталкиваются с задачей предсказания, ведь бизнесу важно понимать, что будет дальше.

Почему это важно?
Прогнозирование помогает:


1️⃣ Следить за метриками – аналитики работают с показателями продукта и бизнеса, и важно не просто анализировать прошлое, но и понимать, что будет впереди.
2️⃣ Планировать – зная, сколько пользователей ожидается в приложении, можно подготовить инфраструктуру, рекламу или складские запасы.
3️⃣ Обнаруживать аномалии – прогноз помогает настроить алерты, чтобы сразу увидеть, если метрика резко изменилась.
4️⃣ Оптимизировать ресурсы – правильный прогноз снижает риски и позволяет компании тратить ресурсы эффективнее.
5️⃣ Автоматизировать процессы – динамическое ценообразование, прогнозы загрузки серверов, персонализированные рекомендации — всё это строится на временных рядах.

Как предсказывать?
🔵Классические методы – ARIMA, экспоненциальное сглаживание, BATS. Требуют опыта, но работают.
🔵Машинное обучение – превращаем временной ряд в табличный датасет и обучаем модели (градиентный бустинг, регрессия).
🔵Нейросети – трансформеры, LSTM, Temporal Fusion Transformer. Используются, когда данные сложные.

⚙️ Библиотеки
Etna (Tinkoff) – мощная библиотека для работы с временными рядами.
Prophet (Meta) – простой и удобный инструмент для быстрого прогнозирования.
NeuralProphet – Prophet, но с нейросетями.
Sktime – универсальная библиотека для временных рядов.
PyCaret – AutoML для предсказания временных рядов.

📚 Материалы
Вводный курс на Kaggle
Крутая статья от ODS
Лекции ВШЭ, как раз про ETNA


Forward from: Kazakhstan CP Federation
🎯 AI Olymp – Жасанды интеллект бойынша республикалық олимпиада!

🚀 ЖИ-ді меңгеріп, жаңа деңгейге көтеріл! Бастау алдында – олимпидаларға дайындық үшін вебинарлар өтеді.

🏆 Сені не күтеді?
📢 Қорытынды кезеңнің қорытындысы бойынша ТОП-12 финалист жиындарға шақыру алады, олардың ең үздіктері Қытайға IOAI - беделді халықаралық жасанды интеллект олимпиадасына барады!

🗓 6 сәуір 2025 (онлайн) | 9–12 сыныптар

💡 ЖИ – бұл болашақ. Өз жолыңды баста!

🔗 Тіркелу үшін сілтемеден өт! 🚀
_______________________________________
🎯 AI Olymp – Республиканская олимпиада по искусственному интеллекту!

🚀 Освой ИИ и выйди на новый уровень! Перед стартом – вебинары для подготовки к олимпиаде.

🏆 Что ждёт тебя?
📢 ТОП-12 финалистов по результатам заключительного этапа получат приглашение на сборы по итогам лучшие из них отправятся в Китай на IOAI – престижную международную олимпиаду по искусственному интеллекту!

🗓 Отборочный этап 6 апреля 2025 (онлайн) | 9–12 классы

💡 ИИ – это будущее. Начни свой путь!

🔗 Регистрируйся по ссылке! 🚀


Известная платформа A/B-тестов Optimizely выпустила когда-то отчёт с анализом 127 000 экспериментов за последние 5 лет. И вот что они обнаружили:

1. 88% экспериментов проваливаются
Вообщем лишь 1 из 10 ваших самых гениальных и продуманных идей в итоге действительно растит метрики.
Примерно такая же +- статистика наблюдается и в Big Tech компаниях.

💡 Вывод: важно не бояться неудач, а быстро тестировать гипотезы и извлекать уроки.

2. Половина компаний делает менее 36 тестов в год
Это всего 3 эксперимента в месяц – крайне мало.
По моему опыту, в ВК прям ощутимый эффект от A/B-платформы начинался только при 8–12 экспериментах в месяц.

3. Выручка как метрика: часто бесполезна
Примерно 30% экспериментов используют выручку как основную метрику.
Но красятся они меньше 1% случаев!

💡 Вывод: используйте чувствительные и релевантные метрики. Не берите просто самую верхнеуровневую (например, выручку), а раскладывайте её через деревья метрик и декомпозицию.

4. Тестирование нескольких вариантов даёт +50% к успеху
Оптимальные стратегии тестирования:
✔️ Multivariate тесты (MVT) успешнее классических A/B в 1.5 раза
✔️ Крупные UX-изменения повышают успех на 25%
✔️ Персонализированные тесты дают на 41% больший эффект

💡 Вывод: хотя у тестов с несколькими вариантами есть нюансы, экспериментируйте шире, а не только в формате A/B.

5. Топ-5% экспериментов приносят 50% импакта
Большая часть ценности приходит от малого числа успешных тестов.

💡 Вывод: важно не только генерировать гипотезы, но и приоритизировать их, чтобы находить самые перспективные.

Дополнительно
📌 Топовые компании делают 200+ экспериментов в год (~16+ тестов в месяц).
📌 Медианное количество – 3 эксперимента в месяц.
📌 500+ тестов в год делают лишь 3% компаний.

А вообще часто недооценивается ценность «неуспешных» тестов
Даже если тест «не дал роста», он убрал гипотезу с дороги, сэкономил ресурсы и помог скорректировать стратегию.

Сколько экспериментов вы проводите в месяц?)


Forward from: DATApedia | Data science
Video is unavailable for watching
Show in Telegram
Как завалить собес за 2 секунды:

20 last posts shown.