Khan of data & analytics🎲


Channel's geo and language: Kazakhstan, Russian
Category: Technologies


Канал об аналитике, data science, алгоритмах и математике. Здесь я делюсь интересными задачами для подготовки к собеседованиям (и просто чтобы пошевелить мозгами), рассказываю о крутых книгах, олимпиадах и многом другом.
по вопросам @khan17ds

Related channels  |  Similar channels

Channel's geo and language
Kazakhstan, Russian
Statistics
Posts filter


🚀 Запускаю самообучающийся курс с менторством (Х-Analytics)!

Так получается, что в мае, после праздников, у меня чуть освободятся руки, и я решил сделать бесплатный проект — взять на менторство 5 зеленых ребят (джунов, студентов и тех, кто только начинает свой путь в аналитике), у которых есть потенциал стать сильными аналитиками.

🎯 Как это будет?

Формат самообучения с моей поддержкой: каждую неделю буду открывать вам доступ к новым темам и материалам (SQL, Python, статистика, A/B-тесты, причинно-следственные связи, базовый ML и AutoML, Метрики, Продуктовые кейсы).

Вы будете изучать материалы самостоятельно, я буду направлять, ставить задачи и проверять их выполнение.

Курс продлится примерно 2 месяца.

📌 Курс полностью бесплатный!

Моя цель — вырастить реально сильных аналитиков. Про платные проекты пока не думал, хоть и много раз звали — всегда отказывался. Может, позже вернусь к этой теме, но сейчас — только так.
Может позже сделаю отдельный поток для сеньоров, которым не хватает хардкора — возможно, с подготовкой к различным кубкам по аналитике, посмотрим в общем.

⚡️ ВАЖНОЕ ДОПОЛНЕНИЕ!

Техническим навыкам можно научиться самому при правильном подходе или делегировать алгоритмам. То, чему я хочу научить, гораздо глубже: это насмотренность, эрудиция и самое главное — продуктовое мышление.

⚠️ ВАЖНО!

Буду очень тщательно отбирать первых участников. Обязательно опишите подробно и искренне свою мотивацию в форме, расскажите, почему хотите именно ко мне. Мне нужны ОЧЕНЬ мотивированные ребята, которые будут действительно стараться и делать то, что я скажу. Если вы придёте ко мне и не будете относиться серьёзно — я сильно обижусь (а этого лучше не надо 😅). Мир аналитики у нас очень тесный)

📋 Минимальные требования:

Базовые знания SQL, Python, статистики

⏳ Дедлайн подачи заявки — ровно месяц. После праздников в мае я отберу и свяжусь с вами.

👉 Заполняйте форму максимально четко, чтобы я смог сформировать правильную картину о Вас

📢 Можете распространить этот пост студентам и всем, кому он будет полезен — уверен, среди них найдутся сильные будущие аналитики!


Обычно каждое утро у меня есть полезная привычка – минут на 20 решать задачи: математические, логические или на программирование. Это здорово заряжает мозг на весь день, помогает раскачаться и настроиться на продуктивный лад. Очень рекомендую эту практику всем – даже простые задачи отлично подойдут, чтобы «запустить» вашу внутреннюю нейронку с утра.

Последние несколько месяцев я, правда, немного отошел от этой полезной привычки, но сейчас решил возобновить свой утренний ритуал и стал искать, какую бы книжку или базу задач порешать. И, листая один из каналов с базой книг, неожиданно наткнулся на сборник задач моего школьного тренера по математике – Ибрагима Жоржевича.

Начал постепенно решать задачи из этой книги – и реально кайфую. Отличный материал для тренировки мозга и прокачки аналитического мышления. Не пугайтесь слова «олимпиадные» – задачи здесь для учеников 7-9 классов, то есть идеально подходят для аналитиков и всех, кто хочет размять мозги без особого напряжения.

В будущем обязательно напишу серию статей или даже мини-книгу с рекомендациями по задачам, которые помогут аналитикам развивать аналитическое мышление максимально эффективно.


Сколтех и Вышка приглашают студентов выпускных курсов любого математического и IT-бакалавриата помериться силами в решении сложных математических задач машинного обучения в рамках Олимпиады Math of Machine Learning 2025.

Может кому-то будет интересно, да и в целом прикольно поучаствовать)

https://hse.skoltech.ru/mml_2025_rus


Привет всем! Ищу к себе мощного Senior Data Engineer'а в продукт «Социальный кошелек»,
Который построит DWH с нуля и наладит процессы сбора, хранения и обработки данных.
Вам предстоит проектировать ETL/ELT-процессы, выбирать инструменты и архитектуру,
а также обеспечивать надёжность и масштабируемость решения.
Будем вместе тесно работать и развивать дата-культуру!


SELECT *
FROM data_engineers
WHERE role = 'Senior Data Engineer'
AND product = 'Социальный кошелек'
AND remote_work = TRUE
AND experience_years >= 4
AND skills IN (
'DWH design', 'ETL/ELT', 'SQL (advanced)', 'Airflow', 'dbt', 'Kafka', 'PostgreSQL',
'ClickHouse', 'Docker', 'Kubernetes', 'Git', 'Python' )
AND understands IN ('Data Vault', 'ODS', 'Lakehouse')
AND abilities = ('Building DWH from scratch', 'Optimizing data pipelines', 'Data monitoring and alerting', 'Process automation')
AND collaboration = ('Analysts', 'Developers', 'Business')
AND bonus_skills IN ('Real-time data processing', 'Kafka', 'Debezium', 'DataOps', 'CDC')
AND motivation_level = 'high'
AND passion_for_data = TRUE;



Буду благодарен, если отправите знакомым дата-инженерам!
По вопросам ко мне @khan17ds

#вакансия


Forward from: Data Secrets
Video is unavailable for watching
Show in Telegram
А вы уже видели новую рекламу Perplexity в стиле Игры в кальмара? Они даже актера Ли Чжон Чжэ с главной роли позвали. Но особенно порадовал «Poogle» 😐

Маркетинг ИИ, который мы заслужили


С праздником Наурыз, друзья! 🌷

Пусть ваш жизненный датасет всегда будет полон счастья, здоровья и удачи! Желаю точных прогнозов, чистых данных, стабильных моделей и алгоритмов, которые всегда сходятся.

Пусть в вашем аналитическом пайплайне всегда царит порядок, метрики уверенно растут, а гипотезы подтверждаются с первого раза. Желаю вам, чтобы данные были чистыми, дашборды понятными, а запросы на собеседованиях — решаемыми!

Пусть этот Наурыз станет для вас точкой роста, а весеннее обновление принесет крутые инсайты и ясность в каждую задачу!

Наурыз құтты болсын! 🚀🌱✨


📌 Вот еще моя любимая задача, где есть парадокс

Представьте, что человек играет в игру: на каждом шаге его капитал либо увеличивается на 10%, либо уменьшается на 10% с равной вероятностью. И так продолжается много раз, например, тысячу. Как изменится его капитал в долгосрочной перспективе?

🔹 Интуитивный взгляд на процесс

На большом количестве шагов выигрышные и проигрышные исходы будут встречаться приблизительно равное число раз. Кажется, что это должно привести к сохранению капитала, но давайте разберёмся внимательнее.

Если сначала капитал увеличился на 10%, а затем уменьшился на 10%, то итоговое значение становится:

1.1 × 0.9 = 0.99

То есть за два шага игрок теряет 1% капитала. Если же сначала уменьшить капитал на 10%, а затем увеличить на 10%, результат будет тот же:

0.9 × 1.1 = 0.99

Получается, что за тысячу партий, где примерно 500 пар «выиграл-проиграл», общий капитал постепенно уменьшается, ведь на каждой такой паре игрок теряет 1%.

🔹 Но если решать по статистике, а она обычно правильная

При каждом ходе капитал умножается либо на 1.1 (при выигрыше), либо на 0.9 (при проигрыше) с вероятностью 0.5 для каждого. Тогда математическое ожидание множителя на одном шаге:

EM = 0.5 × 1.1 + 0.5 × 0.9 = 1.0

То есть среднее арифметическое значение капитала остаётся равным начальному даже после тысячи шагов.

Почему же тогда игрок в большинстве случаев теряет деньги?

Даже если сделать симуляцию на Python, можно увидеть, что в основном люди будут терять.

#задачи


Video is unavailable for watching
Show in Telegram


Временные ряды

Временные ряды — это данные, которые меняются со временем: продажи, выручка, число заказов, активность пользователей, курсы валют и т. д. Аналитики постоянно сталкиваются с задачей предсказания, ведь бизнесу важно понимать, что будет дальше.

Почему это важно?
Прогнозирование помогает:


1️⃣ Следить за метриками – аналитики работают с показателями продукта и бизнеса, и важно не просто анализировать прошлое, но и понимать, что будет впереди.
2️⃣ Планировать – зная, сколько пользователей ожидается в приложении, можно подготовить инфраструктуру, рекламу или складские запасы.
3️⃣ Обнаруживать аномалии – прогноз помогает настроить алерты, чтобы сразу увидеть, если метрика резко изменилась.
4️⃣ Оптимизировать ресурсы – правильный прогноз снижает риски и позволяет компании тратить ресурсы эффективнее.
5️⃣ Автоматизировать процессы – динамическое ценообразование, прогнозы загрузки серверов, персонализированные рекомендации — всё это строится на временных рядах.

Как предсказывать?
🔵Классические методы – ARIMA, экспоненциальное сглаживание, BATS. Требуют опыта, но работают.
🔵Машинное обучение – превращаем временной ряд в табличный датасет и обучаем модели (градиентный бустинг, регрессия).
🔵Нейросети – трансформеры, LSTM, Temporal Fusion Transformer. Используются, когда данные сложные.

⚙️ Библиотеки
Etna (Tinkoff) – мощная библиотека для работы с временными рядами.
Prophet (Meta) – простой и удобный инструмент для быстрого прогнозирования.
NeuralProphet – Prophet, но с нейросетями.
Sktime – универсальная библиотека для временных рядов.
PyCaret – AutoML для предсказания временных рядов.

📚 Материалы
Вводный курс на Kaggle
Крутая статья от ODS
Лекции ВШЭ, как раз про ETNA


Forward from: Kazakhstan CP Federation
🎯 AI Olymp – Жасанды интеллект бойынша республикалық олимпиада!

🚀 ЖИ-ді меңгеріп, жаңа деңгейге көтеріл! Бастау алдында – олимпидаларға дайындық үшін вебинарлар өтеді.

🏆 Сені не күтеді?
📢 Қорытынды кезеңнің қорытындысы бойынша ТОП-12 финалист жиындарға шақыру алады, олардың ең үздіктері Қытайға IOAI - беделді халықаралық жасанды интеллект олимпиадасына барады!

🗓 6 сәуір 2025 (онлайн) | 9–12 сыныптар

💡 ЖИ – бұл болашақ. Өз жолыңды баста!

🔗 Тіркелу үшін сілтемеден өт! 🚀
_______________________________________
🎯 AI Olymp – Республиканская олимпиада по искусственному интеллекту!

🚀 Освой ИИ и выйди на новый уровень! Перед стартом – вебинары для подготовки к олимпиаде.

🏆 Что ждёт тебя?
📢 ТОП-12 финалистов по результатам заключительного этапа получат приглашение на сборы по итогам лучшие из них отправятся в Китай на IOAI – престижную международную олимпиаду по искусственному интеллекту!

🗓 Отборочный этап 6 апреля 2025 (онлайн) | 9–12 классы

💡 ИИ – это будущее. Начни свой путь!

🔗 Регистрируйся по ссылке! 🚀


Известная платформа A/B-тестов Optimizely выпустила когда-то отчёт с анализом 127 000 экспериментов за последние 5 лет. И вот что они обнаружили:

1. 88% экспериментов проваливаются
Вообщем лишь 1 из 10 ваших самых гениальных и продуманных идей в итоге действительно растит метрики.
Примерно такая же +- статистика наблюдается и в Big Tech компаниях.

💡 Вывод: важно не бояться неудач, а быстро тестировать гипотезы и извлекать уроки.

2. Половина компаний делает менее 36 тестов в год
Это всего 3 эксперимента в месяц – крайне мало.
По моему опыту, в ВК прям ощутимый эффект от A/B-платформы начинался только при 8–12 экспериментах в месяц.

3. Выручка как метрика: часто бесполезна
Примерно 30% экспериментов используют выручку как основную метрику.
Но красятся они меньше 1% случаев!

💡 Вывод: используйте чувствительные и релевантные метрики. Не берите просто самую верхнеуровневую (например, выручку), а раскладывайте её через деревья метрик и декомпозицию.

4. Тестирование нескольких вариантов даёт +50% к успеху
Оптимальные стратегии тестирования:
✔️ Multivariate тесты (MVT) успешнее классических A/B в 1.5 раза
✔️ Крупные UX-изменения повышают успех на 25%
✔️ Персонализированные тесты дают на 41% больший эффект

💡 Вывод: хотя у тестов с несколькими вариантами есть нюансы, экспериментируйте шире, а не только в формате A/B.

5. Топ-5% экспериментов приносят 50% импакта
Большая часть ценности приходит от малого числа успешных тестов.

💡 Вывод: важно не только генерировать гипотезы, но и приоритизировать их, чтобы находить самые перспективные.

Дополнительно
📌 Топовые компании делают 200+ экспериментов в год (~16+ тестов в месяц).
📌 Медианное количество – 3 эксперимента в месяц.
📌 500+ тестов в год делают лишь 3% компаний.

А вообще часто недооценивается ценность «неуспешных» тестов
Даже если тест «не дал роста», он убрал гипотезу с дороги, сэкономил ресурсы и помог скорректировать стратегию.

Сколько экспериментов вы проводите в месяц?)


Forward from: DATApedia | Data science
Video is unavailable for watching
Show in Telegram
Как завалить собес за 2 секунды:


Всем привет!
Мои друзья из Beeline ищут сильных специалистов в области NLP — от миддла до лида. Если ты чувствуешь, что готов взяться за крутые задачи в сфере обработки естественного языка, обязательно откликайся:


class MiddleDataScientistFilter:

REQUIRED_SKILLS = {"Python", "Git", "Docker", "SQL"}
DL_FRAMEWORKS = {"PyTorch", "TensorFlow"}
BONUS_SKILLS = {"backend_dev", "vector_db", "inference_opt", "kaggle"}

def __init__(self, candidates):
self.candidates = candidates

def get_qualified_candidates(self):
return [
candidate for candidate in self.candidates
if self._has_mandatory_requirements(candidate)
]

def _has_mandatory_requirements(self, candidate):
skills = set(candidate.get("skills", []))
return all([
candidate.get("has_nlp_experience"),
candidate.get("has_deep_learning_experience"),
candidate.get("has_llm_experience"),
self.REQUIRED_SKILLS.issubset(skills),
not self.DL_FRAMEWORKS.isdisjoint(skills)
])

def get_bonus_score(self, candidate):
skills = set(candidate.get("skills", []))
return len(skills.intersection(self.BONUS_SKILLS))


Если остались вопросы — смело пиши @darinaid

#вакансия


Вспомнил, когда-то на собеседовании на позицию Head мне задали одну прикольную задачу, которую я решил благодаря статье, которую когда-то выкладывал в канал)))

Задача:

Вы проводите собеседование 10 кандидатов на должность. После каждого интервью нужно сразу принять решение – нанять или нет. При этом вернуться к уже прошедшим кандидатам нельзя. Какова стратегия, чтобы максимизировать шанс выбрать именно лучшего кандидата?

#задачи


На консультациях меня часто спрашивают, как наладить Discovery-процессы или разобраться с тонкостями продакт-менеджмента — хотя, по идее, вопросы должны быть техническими. Сам я считаю себя чистым технарем, но за годы работы в разных компаниях успел накопить массу наблюдений и полезных инсайтов, которыми с удовольствием делюсь.

Недавно друзья из стартапа обратились ко мне с вопросом о модном в мире продакт-менеджмента термине — Product-Market Fit (PMF). Что это такое и как понять, что вы его нашли?

В общем, Product-Market Fit — это момент, когда ваш продукт настолько хорошо удовлетворяет потребности рынка и пользователей, что начинает приносить прибыль. Однако важно помнить: достижение PMF — это не финальный этап, а постоянный процесс, требующий регулярного анализа и корректировок.

Существует несколько методов для оценки, достиг ли ваш продукт PMF. По моему мнению, самые простые из них следующие:

1️⃣ Опрос PMF — Правило 40%
Опрос — простой и эффективный способ узнать, насколько ваш продукт действительно незаменим для пользователей. Один из ключевых вопросов звучит так:

«Как бы вы себя чувствовали, если бы больше не могли использовать наш продукт?»

Варианты ответов: Сильно расстроюсь, Немного расстроюсь, Не расстроюсь, Уже не пользуюсь

Интерпретация результатов:
🟠≥40% пользователей отвечают, что были бы очень расстроены — PMF достигнут.
🟢25–40% — есть потенциал достичь PMF после внесения изменений.
🔵


Forward from: DSML KZ Новости
Этой весной пройдет первая Республиканская Олимпиада по AI для школьников

Уже определен формат отборочного раунда:
• coding problem (нестандартные логические алгоритмические задачи)
• math problem (прикладная к эйай, но при этом посильная для школьников математика)
• Instruction style problems (классическое машинное обучение, к которым приложены необходимая теория и советы)

Если у вас есть наброски того, что может быть формализировано в красивую задачу для Олимпиады, прошу вас заполнить форму

С нас - почет, уважение, кредиты на олимпиаде и разбор решения вашей задачи в наших медиаресурсах!

Подробнее положение можно прочитать тут


Периодически, чтобы протестировать новые модели, методы или просто не потерять навыки, зависаю на Kaggle и Zindi. Отличные платформы, где можно брать датасеты из соревнований и сразу тестировать свои идеи.

Если ты давно в ML, у тебя уже наверняка есть свой AutoML – готовый пайплайн с подбором гиперпараметров, валидацией и прочими стандартными шагами. Ну или как минимум для табличных данных можно использовать уже готовые AutoML-решения.

Но вот что делать, когда модели уперлись в потолок по метрикам? Здесь очень сильно помогает Feature Engineering. Если ты хорошо понимаешь область, можешь генерировать новые фичи на основе своих знаний. А можно пойти еще дальше и использовать разные техники для автоматического создания фичей – это работает примерно так же, как аугментация в CV/NLP.

Раньше нормальных ресурсов по Feature Engineering было сложно найти, но недавно наткнулся на отличный гид по этой теме:
📌 https://feaz-book.com

Там собрали, кажется, вообще всё, что нужно. Советую заглянуть, если хочешь прокачать свои модели! 🚀




4. Математика
- Хэндбук «Математика для анализа данных» (Яндекс) – ключевые математические темы для анализа данных.
Ключевые темы:
- Линейная алгебра: матрицы, векторы, операции.
- Статистика и вероятность: распределения, теорема Байеса, корреляции.
- Математический анализ: производные, градиенты, оптимизация.

Ресурсы:
- Khan Academy – разделы по линейной алгебре и статистике.
- Книга «Mathematics for Machine Learning» (Marc Peter Deisenroth) – связь математики с ML.

5. Алгоритмы и программирование
- Курс «Основы программирования» (Яндекс Практикум) – начальный курс по программированию.
Платформы для тренировки:
- LeetCode – задачи на структуры данных и алгоритмы.
- Codeforces – олимпиадные задачи.

Книги:
- "Грокаем алгоритмы" (Aditya Bhargava) – визуальное объяснение основ.
- "Introduction to Algorithms" (CLRS) – углубленное изучение (для продвинутых).

6. Примеры задач с олимпиад
- ML: Предсказать оценку студента по данным об учебных привычках.
- CV: Определить наличие опухоли на МРТ-снимке.
- NLP: Классифицировать отзывы на позитивные и негативные.
- ML/CV: Разработать систему, которая определяет породу собаки по изображению.
- NLP: Определить уровень эмоции (гнев, радость, нейтральность) в тексте.


В этом году проводим Республиканскую олимпиаду по AI для школьников!
Будут задачи по машинному обучению (ML), компьютерному зрению (CV), обработке естественного языка (NLP), математике и программированию.
Рекомендации по подготовке еще будут на официальном сайте, но тут от себя добавлю, полезно будет не только школьникам, но и всем.

1. Основы машинного обучения (ML)
- Учебник по машинному обучению (Яндекс) – хэндбук с теоретическими основами ML.
Теория и курсы:
- Курс «Основы анализа данных» (Яндекс Практикум) – обучение основам языка Python и аналитики данных, чтение графиков и построение гипотез.
- Курс Эндрю Ына «Machine Learning» (Coursera) – базовый курс с упором на математику и практику.
- «Introduction to Machine Learning» (Kaggle Learn) – интерактивные уроки с задачами.
- Книга «Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow» (Aurélien Géron) – практические примеры на Python.

Практика:
- Соревнования на [Kaggle] (начните с разделов для новичков, например, Titanic или Iris).
- Проекты: Реализуйте линейную регрессию, классификацию изображений или предсказание временных рядов с нуля.

2. Компьютерное зрение (CV)
- Курс «Компьютерное зрение» (Stepik) – русскоязычный курс по основам CV.
Основы:
- Курс «CS231n: CNNs for Visual Recognition» (Стэнфорд) – лекции и задания по нейросетям для CV.
- Библиотеки: OpenCV (обработка изображений) и PyTorch / TensorFlow (нейросети).

Практика:
- Задачи на распознавание объектов (MNIST, CIFAR-10).
- Мини-проекты: детекция лиц, сегментация изображений.

3. Обработка естественного языка (NLP)
- Курс «NLP Course» (Hugging Face) – русская версия и английская версия – бесплатные курсы по NLP.
Теория:
- Курс «Natural Language Processing with PyTorch» (Udemy) – основы NLP.
- Hugging Face Transformers – бесплатный курс по трансформерам и моделям вроде BERT.

Практика:
- Создайте чат-бота, анализатор тональности текста или переводчик.
- Используйте датасеты из Kaggle NLP Competitions.

20 last posts shown.