Пристанище Дата Сайентиста


Kanal geosi va tili: Qozog‘iston, Ruscha


Канал Рената Алимбекова (@alimbekovkz) про карьеру, применение и обучение Data Science. Веду блог https://alimbekov.com/
По вопросам рекламы на канале обращаться к менеджеру: @hey_renataa

Связанные каналы  |  Похожие каналы

Kanal geosi va tili
Qozog‘iston, Ruscha
Statistika
Postlar filtri


​​Как облачные технологии уже применяют компании в Казахстане? Узнайте на VK Cloud Conf Astana

⏰ 23 апреля, 9:30
📍 Астана, Rixos President Astana
⚡️ Регистрация

Ровно год назад мы запустились и стали первым иностранным вендором, который локализовал облачные технологии в Казахстане. Этот праздник хотим разделить с вами — нашими партнерами, коллегами и ИТ-специалистами. Поэтому приглашаем вас присоединиться к конференции VK Cloud Conf Astana.

В программе
 
🔹 Как облачные технологии помогают улучшить социальную жизнь людей.
🔹 Причины для перехода в облако и построения надежной инфраструктуры.
🔹 Кейсы клиентов из Казахстана: результаты миграции в VK Cloud. 
🔹 Сервис аварийного восстановления данных в облаке.
🔹 Хранение больших данных и инструменты для аналитики. 
🔹 Машинное обучение в облаке: что объединяет девелопмент и розовых пеликанов.
🔹 Кейс стартапа: как протестировать бизнес-идею с помощью 10 млн тенге и увеличить скорость доставки лекарств по Казахстану.

Спикеры

🔹 Арман Нурушев, руководитель VK Tech в Казахстане 
🔹 Касым Есергепов, генеральный директор QazCloud
🔹 Николай Бутенко, директор по надежности VK Cloud
🔹 Рустем Бигари, генеральный директор Центра поддержки цифрового правительства
🔹 Аслан Кокаев, коммерческий директор Tech Garden
🔹 Павел Коктышев, Сo-founder в Managing partner MOST
🔹 Артем Агафонов, руководитель команды консолидированных цифровых решений для бизнеса, VK
🔹 Илья Нырков, архитектор VK Cloud в Казахстане
🔹 Григорий Запорожский, менеджер по развитию бизнеса, VK Cloud
🔹 Александр Кучук, директор по развитию бизнеса Tarantool в Восточной Европе и Центральной Азии
🔹 Денис Сермухамедов, founder & CEO Daribar.kz

Посмотреть полную программу и зарегистрироваться


#вакансия

Продуктовый аналитик в HR Tech
Яндекс

Какие задачи вас ждут:
- Работа над развитием и улучшением существующих продуктов
Вам предстоит придумывать новые и улучшать существующие продуктовые фичи, выдвигать гипотезы, инициировать и драйвить исследования, улучшающие пользовательский опыт.

- Работа с данными
Вы будете анализировать данные с использованием SQL, Python или иного удобного вам инструмента, создавать метрики качества, в том числе приёмочные, и KPI, отражающие важные свойства сервиса и его элементов.

- Работа с экспериментами и изменениями
Вам нужно будет изучать, как меняется пользовательское поведение при изменениях дизайна, помогать в приёмке изменений через A/B-эксперименты, выполнять аналитические задачи ad-hoc.

Мы ждём, что вы
- Понимаете принципы и основы матстата: умеете проверять статистические гипотезы, принципы работы критериев, ошибки 1-го и 2-го рода
- Работали или очень хотите поработать с A/B-тестированием
- Занимались аналитикой с помощью Python и SQL
- Готовы к сложным задачам и нацелены на достижение конечного результата

Откликнуться


Погружение в LLM часть вторая

В первой части мы разобрали практическую часть погружения в LLM.

В этой части мы поговорим про ключевые пейперы, которые помогут в понимании LLM и прохождение собеседований =) Но об этом позже.

Все начинается с первой гпт

Затем рекомендую прочитать работу про InstructGPT. Там раскрыта тема обучения с фидбеком от человека.

Дальше есть пара интересных пейперов:
- SELF-INSTRUCT
- Information Retrieval with Contrastive Learning

Затем рекомендую ознакомиться с двумя воистину знаковых пейпера: LORA и QLORA, которые решают следующие проблемы:
- скорость обучения
- вычислительные ресурсы
- эффективность памяти

Еще два не менее важных пейпера PPO и DPO. Понимание этих работ поможет в ревард моделинге.

Ну и на последок:
- Switch Transformers - как база Mixtures of experts
- Mixtral of Experts - как Open Source SOTA
- Llama 2

Всем приятного чтения


​​🇺🇲Реально ли специалисту в любой области получить greencard США без предложения о работе, без высшего образования, и без знания английского языка? Ответ: да! Рассказываем, как это сделать.

Виза EB-1a дала возможность более 4000 специалистам из разных областей переехать в США в 2022 году. Она выдаётся на срок до 10 лет, по ней можно работать в любой компании, фрилансить и открывать собственный бизнес. И через 5 лет жизни в США претендовать на паспорт!
 
Чтобы получить эту визу, не обязательно иметь высшее образование, не нужно знать язык на высоком уровне, а заявку можно подать из любой страны. И, пожалуй, самое главное – не нужно обладать каким-то исключительным талантом! Огромное количество специалистов даже не знают, что могут претендовать на эту визу. 
 
Подписывайтесь на наш Telegram-канал, где мы даём массу полезной информации о релокации: https://t.me/+EJMbGHprOWc4ZjMy

Пишите нам в WhatsApp: +44 7496 949122 или в Telegram: @relocode_dm. Мы проводим бесплатные консультации, на которых поможем разобрать ваш кейс и подобрать наиболее подходящий способ релокации.


​​Станьте специалистом по Data Science — с нуля, за восемь месяцев на курсе Яндекс Практикума. 

➤ Освоите Python и его библиотеки, Jupyter Notebook, CatBoost, SQL
➤ Соберёте портфолио из 15+ проектов
➤ Получите сертификат о переподготовке и помощь с трудоустройством

После выпуска вы сможете анализировать большие объёмы данных, работать с моделями машинного обучения и выявлять неочевидные и важные закономерности. Такие услуги нужны в банках, промышленности, маркетинге и коммерции, транспортной сфере. 

Начните с бесплатной вводной части курса, чтобы понять, нравится ли вам профессия


Привет!  
До beetech conf 2024 остается меньше месяца.   
Знакомим вас со спикерами стрима Big Data!  
  
💥 Евгений Смирнов, Альфа-банк  
💥 Айнур Махмет и Нурлан Жакин, QazCode (Beeline Казахстан)
💥 Никита Бобух, Tele2 Kazakhstan  
💥 Роман Панарин, Mad Devs  
💥 Олег Овчаренко, Nvidia  
💥 Марат Зординов, QazCode (Beeline Казахстан)
💥 Шеризат Касымов, JMart  
💥 Антон Багин и Владимир Колесников, Bereke Bank  
💥 Максим Мигутин, Booking.com 
💥 Денис Крумко, Kolesa Group  
 
Посмотреть темы докладов и купить билет можно здесь. Будем рады видеть вас на стриме Big Data на beteech conf 2024! 🔥


​​🚀Регистрируйся на beetech conf 2024! 🚀   
   
Отличная новость: регистрация на beetech conf 2024 уже открыта!   
   
🗓️ Дата: 27 апреля 2024   
📍 Место: Алматы, Narxoz University (Жандосова, 55)   
   
beetech conf — IT-конференция от Beeline Казахстан, где ежегодно собираются эксперты индустрии и слушают актуальные и полезные доклады, обмениваются своим опытом.   
   
Эксперты из Beeline Казахстан, Booking.com, Тинькофф, Kolesa Group, Verigram и других компаний расскажут о неочевидных решениях своих кейсов и поделятся полезным опытом.   
    
В этом году встречаемся только в офлайн формате. Поэтому бронируй свое место сейчас, чтобы быть в центре событий и участвовать в обсуждении насущных вопросов IT в трех стримах: Management, Engineering, Big Data с 10+ докладами в каждом.    
   
Также тебя ждут воркшопы, квартирники и нетворкинг со спикерами и участниками конференции.  
   
💡 Купить билеты можно на сайте: https://clck.ru/39M6r9  
   
До встречи на beetech conf 2024!


Погружение в LLM часть первая

Я тут начал погружаться в LLM чуть глубже и лично для меня гораздо проще начинать погружение через практику.

Таким образом можно понять все ключевые концепции и наметить себе список пейперов для дальнейшего ознакомления.

Начал я с заметки StackLLaMA: A hands-on guide to train LLaMA with RLHF

Тут вы сразу сможете ознакомиться с концепциями Reinforcement Learning from Human Feedback, эффективной тренировкой с помощью LoRA, PPO.

Так же вы познакомитесь с зоопарком библиотек huggingface: accelerate, bitsandbytes, peft и trl.

В заметке используется StackExchange датасет, но для разнообразия могу посоветовать вам использовать датасет Anthropic/hh-rlhf

Во второй части пройдемся по ключевым пейперам


250 бесплатных курсов по ИИ

Наткнулся на интересный пост со списком 250 бесплатных курсов по ИИ

До 5 апреля они будут открыты и доступны на семи языках.

Ссылка


Артета позвонит dan repost
Если вы любите футбол и аналитику так же как я, то можно поучаствовать в Хакатоне по анализу футбольных данных

Даты хакатона: 11.03.2024 - 23.04.2024

Задача весьма интересная:

Нужно выбрать команду Английской Премьер Лиги для анализа.

Вам нужно проанализировать последние выступления выбранной команды, тактику и статистику игроков, чтобы выявить значительные слабые места в команде.

Выберите 2 позиции в соответствии с вашим анализом. Ваша задача создать два списки игроков (максимум 5 игроков, включая ГЛАВНУЮ трансферную цель) для выбранных позиций и обосновать принятые решения по набору игроков, данными.

Все участники Хакатона должны учитывать планируемый бюджет, который можно найти на странице Transfermarkt для каждого игрока. Бюджетный план: максимальная сумма 60 млн евро для общей оценки игрока на Transfermarkt на две ГЛАВНЫE цели.

Описание задачи

Мне кажется очень крутая скаутская задача и возможность поработать с реальными футбольными данными. Ограничения в 60 миллионов я думаю не позволят вам выбрать топ клубы АПЛ.

Думаю попробовать поучаствовать


DataEng dan repost
Курс про Apache Airflow бесплатно

Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.

В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.

Велком!


Курс Анализ медицинских изображений в Python теперь бесплатный для всех.

На курсе вы изучите анализ медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Даже если вы никогда раньше не работали с медицинскими изображениями, то по завершению курса вы будете обладать всеми необходимы навыками.

Если хотите меня поддержать, то это можно сделать на Patreon и Boosty просто подпишитесь на месяц =)

4.5k 2 129 8 40

DataEng dan repost
Всем привет!

Я сделал курс по Luigi бесплатным для всех, велком изучать — Введение в Data Engineering: дата-пайплайны

Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 году я писал небольшой обзорный пост на Luigi у себя в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.


​​В прошлом году я отбирал доклады для beetech conf и теперь пришло время снова встретиться на конференции

27 апреля в Алматы пройдёт ежегодная beetech conf от Beeline Казахстан 🔥

Мы открыли сбор докладов и ждём актуальные и интересные кейсы с максимальной пользой для участников конфы.

Заявки принимаем до 29 февраля! Переходите по ссылке и оставляйте заявки. 

В этом году у нас 3 стрима: Big Data, Engineering и Management (Product + Agile).

Фокусные темы этого года по Big Data:
- применение AI в производстве;
- инструменты для хранения и обработки больших данных (Hadoop / Spark / Airflow или аналоги);
- эксплуатация систем на базе машинного обучения: CI / CD пайплайны, ML Ops / ML Flow;
- версионирование моделей и датасетов.

Если у вас есть другая актуальная тема, то вы можете заполнить заявку, и мы обязательно ее рассмотрим.

Для тех, кто не перешел по ссылке выше, дублирую её тут


Всем привет!

Владелец продукта ИТ-компании изучает потребности и пожелания пользователей BI-систем, которые представлены на рынке. 

У вас есть уникальная возможность поделиться опытом, дать рекомендации и подсветить проблемы используемых систем.

Переходите по ссылке 👉 https://docs.google.com/forms/d/1e6pABdGEc7tpm0x3PflnifuSlERYIhuFJiyABHd50_U/edit 👈 и делитесь бесценным опытом😉


​​Тут появилась подробная карта навыков и чек-лист для ML-разработчиков

Яндекс посчитал запросы специалистов по Machine Learning про разные технические навыки и составил карту c наиболее актуальными hard skills.

Логика карты: чем крупнее надпись, тем чаще её искали разработчики, и чем ближе навыки друг другу, тем ближе контекст, в котором они применяются.

По карте составили чек-лист, который наглядно покажет ваши скиллы.


Курс по мониторингу моделей в продакшене

Курс от одной из фаундеров Evidently Эмели Драль про мониторинг моделей/ данных в продакшене.

Я уже довольно много писал про Evidently: в канале есть обзорный пост, а в блоге есть пост про кастомные метрики

Но в этом мини курсе дано гораздо больше полезного материала. Например:

- Различные методы оценки
- Качество данных
- Дрифт данных
- Мониторинг LLM
- Развертывание и интеграция

А еще это все приправлено упражнениями на кодинг

Ссылка на курс


Наткнулся на классный гайд по файнтюнингу LLM от Sebastian Raschka

Себастьян достаточно известный рисерчер и автор книг по Deep Learning

Так же у него есть крутой репозиторий по построению LLM моделей From Scratch

4k 0 93 1 15

​​Как нанимать сотрудников класса А? Выжимка из книги "Who: The A Method For Hiring"

Если вы сейчас ищете работу или сами нанимаете людей себе в команду, то рекомендую прочитать статью с кратким содержанием книги "Who: The A Method For Hiring"


AIRI Institute dan repost
Финальная ИИшница этого года пройдет уже в этот четверг 🍳

Делимся подробным расписанием онлайн-митапа, где исследователи расскажут про свои статьи на NeurIPS 2023:

▪️15:35
"Neural Harmonics: Bridging Spectral Embedding and Matrix Completion in Self- Supervised Learning" — Иван Оселедец, AIRI, Сколтех

▪️15:55
"PROTES: Probabilistic Optimization with Tensor Sampling" — Глеб Рыжаков, Сколтех

▪️16:15
"Star-Shaped Denoising Diffusion Probabilistic Models" — Айбек Аланов, AIRI, ВШЭ

▪️16:35
"To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in Transfer Learning" — Ильдус Садртдинов, ВШЭ

▪️16:55
"Entropic Neural Optimal Transport via Diffusion Processes" — Никита Гущин, Сколтех

▪️17:15
"Building the Bridge of Schrödinger: A Continuous Entropic Optimal Transport Benchmark" — Александр Коротин, AIRI, Сколтех

▪️17:35
"Extremal Domain Translation with Neural Optimal Transport" — Милена Газдиева, Сколтех

▪️17:55
"Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" — Евгений Бурнаев, AIRI, Сколтех

Ссылка на трансляцию тут, сохраняйте и подписывайтесь на @AIRIInstitute' rel='nofollow'>YouTube-канал AIRI 👾

20 ta oxirgi post ko‘rsatilgan.