Main Data Science Kazakhstan (Main ML_KZ)

@main_ds_kz Нравится 0
Это ваш канал? Подтвердите владение для дополнительных возможностей

Новости, митапы, ивенты, поздравляшки и прочие важные посты с чатика про машинное обучение в Казахстане:
Вакансии: @ml_jobs_kz
Вступить в сообщество: @databek_bot
π3Data про DS
Гео и язык канала
Казахстан, Русский
Категория
Технологии


Гео канала
Казахстан
Язык канала
Русский
Категория
Технологии
Добавлен в индекс
24.06.2018 23:40
реклама
Telegram Analytics
Подписывайся, чтобы быть в курсе новостей TGStat.
SearcheeBot
Ваш гид в мире Telegram-каналов
TGStat Bot
Бот для получения статистики каналов не выходя из Telegram
1 686
подписчиков
~1.7k
охват 1 публикации
~997
дневной охват
~6
постов / нед.
102.9%
ERR %
0.23
индекс цитирования
Репосты и упоминания канала
6 упоминаний канала
0 упоминаний публикаций
9 репостов
KAZAKH TRADER
ICT AITU
ICT AITU
@ZamirBolysbek
AGI
ML/DS Jobs/projects.kz
NU ACM SC News
Expecto Productum!
Новые каналы
DevSkills
Каналы, которые цитирует @main_ds_kz
DataSci
DataSci
DataSci
DataSci
Adi talks
DeepHealth
NLP Seminar
|QWANT>
2019 INFO
NU ACM-W
Ссылки Ds/ml kz
ML/DS Jobs/projects.kz
Aigerim Sagandykova's blog
RCG Podcast
RCG Podcast
RCG Podcast
Ссылки Ds/ml kz
ML Trainings
ML/DS Jobs/projects.kz
2019 INFO
2019 INFO
2019 INFO
2019 INFO
2019 INFO
2019 INFO
2019 INFO
2019 INFO
Aigerim Sagandykova's blog
2019 INFO
2019 INFO
ML/DS Jobs/projects.kz
AGI
AGI
Memes_dskz
Data Science by ODS.ai
Power of data
Data Science by ODS.ai
Data Science by ODS.ai
tldr_arxiv
Вастрик.Пынь
POV
MIPT SciTech Club
ML/DS Jobs/projects.kz
ML/DS Jobs/projects.kz
AGI
AGI
AGI
ML/DS Jobs/projects.kz
Последние публикации
Удалённые
С упоминаниями
Репосты
Репост из: DataSci
Дорогие друзья!

Запись беседы о процессе собеседования в дата саинс с Дарханом Нурахметовым, руководителем отдела аналитики в X5 Retail Group, опубликована на YouTube.

Видео и все сопутствующие ресурсы доступны по ссылке.
Запись беседы о процессе собеседования в дата саинс с Дарханом Нурахметовым, руководителем отдела аналитики в X5 Retail Group, опубликована на YouTube.

Видео и все сопутствующие ресурсы доступны по ссылке.
Запись беседы о процессе собеседования в дата саинс с Дарханом Нурахметовым, руководителем отдела аналитики в X5 Retail Group, опубликована на YouTube.

Видео и все сопутствующие ресурсы доступны по ссылке.
Репост из: DataSci
DataSci - студенческий клуб в Назарбаев Университете, продвигающий data science среди молодежи путем организации различных лекций, соревнований, подготовительных сессий и т.д.

И мы рады пригласить вас на встречу по техническому интервью в data science! Наш гость - Дархан Нурахметов, PhD в Data Analysis, глава отдела анализа данных в X5 Retail Group. Дархан специализируется на статистике, анализе данных, машинном обучении и психометрике, имея 10-летний опыт в организациях, как Национальный Центр Тестирования, Корпорация "Цесна", АОО Назарбаев Интеллектуальные Школы, и т.п.

Наш гость расскажет о своем опыте прохождения и проведения интервью, а именно о вопросах и задачах, встречающихся на них, и о том как правильно отвечать.

Задавайте вопросы заранее тут, они будут анонсированы во время лекции.

📆 19 Сентября (Уже завтра)
13:00
📍 Ссылка на зум встречу

Анонс:
Наш клуб будет проводить сессии по подготовке к техническим интервью каждые две недели, тема каждой сессии будет специфичная. Следите за новостями!
Читать полностью
Обязательно регистрируемся на Датафест - крупнейшую русскоязычную конференцию, посвященную анализу данных.

Он состоится уже на этой неделе (19 и 20 сентября) и будет проведен онлайн.

fest.ai/2020
Обязательно регистрируемся на Датафест - крупнейшую русскоязычную конференцию, посвященную анализу данных.

Он состоится уже на этой недели (19 и 20 сентября) и будет проведен онлайн.

fest.ai/2020
Участник нашего сообщества Алимбеков Ренат (@alimbekovkz) написал заметку про вывод моделей в продакшн с помощью Flask.

В заметке также рассказано про Docker, сервер очередей и gunicorn.

Ссылочка - bit.ly/35JjtP9

Код прилагается

От всех жду клэпчиков и фоллоу на медиуме. Человеку будет приятно 😊
@databek_bot - проводник в неанонимное сообщество Data Science Kazakhstan
Leadership. Нет, это не умение составлять документы и поучать жизни джуниоров. Это умение придумывать проекты. В FANG, придумывать проекты требуется только от старших (а то и от штатных) инженеров. Но в сэлф-драйвинге и для мидлов похожие требования. Поэтому какая-нибудь демонстрация того, что вы это умеете делать систематично, нужна. Публикации в этом помогают. Но лучше задумайтесь, был ли проект, который вы придумали, и он получился? Напишите в резюме. Подумайте о том, как это пришло вам в голову и сформулируйте это словами и запомните. Пригодится, и не только с поиске работы, но и вообще в жизни.

Что я бы не стал спрашивать? В CV я бы не стал спрашивать статистику. Ститастика - это скорее дата сайнс для бизнес-аналитики. В компьютр вижн нужны немножко другие скиллы. Исключение - motion prediction. Я не специалист в этой области, но вроде нетривиальная статистика и вероятность там какая-никакая есть.
Читать полностью
С точки зрения интервью

Нужно уметь классический, неспециализированный ML. Надо знать всё что преподают в cs229 хотя бы поверхностно. Казалось бы, зачем спрашивать про классические мл в вижн, если везде софтмакс? Да всё просто. Ничто так не выдает челоека, который копирует готовые сеточки из гитхаба и ни в чём не соображает, чем незнание классического ML. Такой человек потом будет городить нейронку там, где нужна линейная модель с матрицей 5x2.

Что это знчит? Заботайте что такое bias-variance tradeoff, что делают SVM, как работает линейная регрессия и что такое ridge regression, как строятся decision trees и основы статистики, нужные для этого, ну то есть всё это вот базовое. Потренируйтесь это делать на небольших задачках или проектах. Это займёт пару дней, но это важно. Не только для собеседований, но и вообще в жизни.

Ну и что было для меня неожиданным, когда я тольно начинал работать, что надо иметь представление о классическом Computer Vision. В половине компаний также спрашивали что-то базовое из этого, спросил бы и я. Например, вы читали про Fast R-CNN, а знаете, что такое Selective Search который в статье упоминается? И я долгое время не знал, а потом посмотрел--интересный же алгоритм. Да хоть бы просто закодить конволюшн или edge detection сможете?

Ну и конечно, в компьютр вижне кандидаты должны не только знать, но и уметь диплёрнинг. В чём отличие?

Практика диплёрнинга всё понятно, нужно понять, вы кодили модели или просто слышали о них. Я бы задавал такие вопросы:
- Как вы обычно выбираете оптимайзер для CV модели?
- Как измеряется качество детекторов объектов в литературе? Вы упомянули AP@k, а что это такое? В чём плюсы и минусы использования этого как метрики?
- У меня модель, где loss на training set не уменьшается, а наоборот растёт; что делать? А если прыгает то вверх то вниз, но в основном идёт вниз?
- Когда нужно увеличивать количество фильтров в слое CNN ?

Теория диплёрнинга (чтобы понять, сможете вы что-то придумать своё или только копи-пастить из статей можете)
- Что будет с натренированной моделью, если все веса поделить на два?
- Представьте, что при тренировке MLP одна из фич всегда равна нулю; чему будут равны соответствующие веса первого уровня?
- В CNN практически не применяют L2 регуляризацию на веса convolution layers; почему? А что применяют?
- Что такое Layer Normalization и зачем оно?

Про теорию диплёрнинга спрашивают меньше, но часто неумение на это ответить очень печалит собеседующего. Чаще всего эти вопросы возникают "внезапно" когда что-нибудь такое вскользь упоминаешь, а интервьюер говорит "ага, а зачем этот модуль / что будет если это повертеть / а когда это не надо делать?"

"Насколько вы в теме" ака Domain Knowledge.
Опять же, вопрос вы просто попроходили курсы или вы работаете как профессионал (в т.ч. относитесь к персональным проектам профессионально, а-ля доводите до конца и проводите эксперименты). Вопросы из серии:
- Расскажите про какой-нибудь интересный проект, который вы задеплоили. И дальше спрашивать про детали.
- Расскажите про метод из своей самой любимой статьи которую прочитали за последние несколько недель, не подглядывая?
- Какой ваш последний эксперимент, который вы притащили из литературы и он поначалу не получился? что вы сделали, чтобы довести это до успеха? какие сделали выводы?

Разумеется, задавая такие вопросы, я бы попросил рассказать что-то имеющее отношение к предметной области, а не скажем инфраструктурые проекты.

Leadership. Нет, это не умение составлять документы и поучать жизни джуниоров. Это умение придумывать проекты. В FANG, придумывать проекты требуется только от старших (а то и от штатных) инженеров. Но в сэлф-драйвинге и для мидлов похожие требования. Поэтому какая-нибудь демонстрация того, что вы это умеете делать систематично, нужна. Публикации в этом помогают. Но лучше задумайтесь, был ли проект, который вы придумали, и он получился? Напишите в резюме. Подумайте о том, как это пришло вам в голову и сформулируйте это словами и запомните. Пригодится, и не только с поиске работы, но и вообще в жизни.
Читать полностью
Примечание: нарушу свое же правило о локальности контента отрывком из статьи камрада sunset на ods про собеседования Computer Vision Engineer
==================================
Взгляд со стороны работодателя

Чтобы понять, что спрашивают на собеседовании на компьютр вижн инженера, нужно сначала понять какие навыки нужны от вас работодателю.

Во-первых, от кандидата требуется знание что такое machine learning в теории. Люди, которые везде пихают нейросетки потому что ничего другого не знают, не принесут большой пользы бизнесу. В основном потому, что не смогут сформулировать задачу и смоделировать мир. "Модель" - это ведь просто преобразование окружающей действительности в математическую формулировку; уметь это делать важнее, чем знать сколько слоёв в VGG.

Во-вторых, понятно, что нужны навыки, специализированные в какую-то часть стэка. Если собеседуетесь за диплёрнинг, то нужны навыки диплёрнинга. Если в вижн, то это segmentation, detection, итп. Если в Lidar, то методы инференс на point clouds. Ну итп. Вот здесь есть хороший обзор того, что используется в Perception стэке (см. секцию V [https://arxiv.org/pdf/1906.05113.pdf]) Идеальный кандидат будет знать, какие основные методы решения соответствующих задач и будет уметь объяснить детали методов, особенно в какой-то одной части где они эксперт. Кандидат также сможет объяснить преимущества и недостатки методов, так как на работе нужно будет уметь выбрать, какую модель строить. Это как бы понятно.

Но секрет, который все знают и боятся признаться, это что накодить саму модель - это самая простая часть диплёрнинга. Ну что там, сотня строчек на керасе или торче, а все кишки уже написаны до вас. Сложная часть - это выбрать какую модель писать, как подфайнтюнить лосс и пофиксить мелкие баги... ну и конечно, препроцессить фичи.

Например я недавно для персонального проекта тренировал простенький SSD. Оказалось, что препроцессор фич просто медленный, и сетка раз в 50 быстрей обучается чем получает фичи от программы на питоне. Поэтому мне пришлось переписать препроцессинг в тензоры на GPU, что совсем нетривиально и заняло пару дней (сама сетка для SSD пишется за 10 минут). Умение отдебажить программу и сделать алгоритм более эффективным - это не диплёрнинг, но препроцессингом фич для своих моделей заниматься будете именно вы.

А значит от вас нужен кодинг. В вижне вообще очень много кодинга по сравнению со, скажем, NLP (преобразования изображений далеко не все идут из стандартных библиотек, аугментации практически везде есть domain-specific, итп) и кодинг этот нетривиальный.

Ещё пример, хотите вы посмотреть, насколько хорошо сенсоры распознают велосипедистов, которые близко к роботу. Надо для этого пройтись по размеченному датасету (скорее всего в каком-нибудь биг дэйта фрэймворке), и найти ближайшего велосипедиста (быстрый поиск ближайших объектов), и потом придумать как сделать полученные данные diverse, чтобы скажем 100 экземпляров были из разных сцен, а не 100 кадров одной сцены. Когда я представляю весь кодинг, который для этого и для других подобных задач нужен, сразу понимаю, что уровень знания алгоритмов должен быть высокий, выше чем в какой-нибудь гугл или фэйсбук.
Читать полностью
Прямая трансляция конференции tech qyzdar

youtube.com/watch?v=u1Isc5VfhcA
Мастер-класс Основные ошибки в алготрейдинге от Айтпаева Кайрата (@kairat_aitpayev) основателя компании Wealtrix организованный совместно с Инновационным кластером NURIS.

Дата и время:
31 августа в 19:00.

Ценность семинара:
Мы разберем какие основные ошибки, которые описаны в книге ”Advances in Financial Machine Learning” автора Marcos L.P. совершаемые начинающими квантами при разработки трейдинговых алгоритмов с применением машинного обучения.

Что вы получите от семинара:
- Понимание как не наступать на грабли новичков.
- Основные алгоритмы и методы применяемые в алготрейдинге, а также ресурсы для дальнейшего изучения.

Регистрация:
bit.ly/3hEqsM5
Читать полностью
Репост из: Miras Amir
Всем спасибо! Расскажу немного про задачу и организационные моменты:

Задача заключалась в детекции головки пшениц. Организаторы сказали, что это поможет фермерам отслеживать их здоровье и спелость. У задачи имелись некоторые особенности:
1. Шумная разметка.
2. Domain shift между обучающей и тестовой выборкой. Данные были собраны из разных регионов земного шара.
3. Организаторы почему-то решили, что учить на больших картинках нам будет неудобно и разрезали исходные картинки на тайлы 1024х1024. Исходники конечно же не дали.

Наше решение основывалась на библиотеке mmdetection. Если кратко, то мы собрали исходные пазлы, применяли агрессивные аугментации, обучили два SOTA детектора и применили псевдолэйблинг в кернеле. Более подробно прочитать можно тут: https://github.com/amirassov/kaggle-global-wheat-detection.

Соревнование было насыщено множеством событий:
1. Too much sharing #1: были выложены топовые кернелы с EfficientDet. В итоге много решений были основаны на этих кернелах.
2. Too much sharing #2: За месяц до конца контеста выложили кернел с YoloV5, который попадал в зону денежного приза. Но на форуме заметили, что ее код имеет проблему с лицензией :vot_eto_povorot:. Соответственно, использование YoloV5 в финальных сабмишнах было бы нарушением правил kaggle. В итоге все сабмиты с YoloV5 были удалены организаторами.
3. В середине контеста организаторы решили, что нужно пересчитать все сабмиты после дедлайна, так как разметка на private сете шумная и его надо переразмечать. Но они не рассказали о подробностях пересчета. В итоге сабмиты многих кэглеров упали из-за удаленного кэгл-датасета.
4. YouMeAidyn: участник с первого места финального ЛБ @aidynub заметил баг со стороны организаторов в пересчете сабмитов, поэтому тут же написал администраторам площадки. После чего без всяких разбирательств был удален из конкурса. И только после созданного резонанса на форуме удалось добиться ответа от kaggle.

Финальный ЛБ сборной dsmlkz выглядит так:
11. @amirassov, Or Katz, Shlomo Kashani
74. @aidynub (в итоге не добавили в ЛБ)
Читать полностью
Первый Kaggle Competitions Grandmaster с Казахстана Мирас Амир (@amirassov)
В менторской программе зарегистрировалась первая волна менторов, теперь можно со спокойной душой подавать к ним заявки.

Если хотите поучаствовать в программе в роли Ученика:
1) Зарегистрируйтесь в @databek_bot
2) Прочитайте правила программы
3) Изучите анкеты менторов тут, выберите тех, кто может максимально Вам помочь
4) Заполните анкету, ожидайте обратной связи от менторов

PS. Если Вы ментор, то процесс подачи заявок описан тут
Attached file
Читать полностью
Репост из: Rustem Burkhanov
В менторской программе зарегистрировалась первая волна менторов, теперь можно со спокойной душой подавать к ним заявки.

Если хотите поучаствовать в программе в роли Ученика:
1) Зарегистрируйтесь в @databek_bot
2) Прочитайте правила программы
3) Изучите анкеты менторов тут, выберите тех, кто будет максимально Вам помочь
4) Заполните анкету, ожидайте обратной связи от менторов

PS. Если Вы ментор, то процесс подачи заявок описан тут
Attached file
Читать полностью
Неформальная онлайн-встреча с Асаль Митрофановой, Data Scientist из Microsoft, USA.

Асаль поделится с нами своей историей и советами, как освоить профессию Data Scientist.

Асаль родом из города Ташкент, получила образование в Towson Universuty (США) по Economics & International Relations.

Начав карьеру как бизнес-аналитик, в свобдное время она прилагала много усилий для самостоятельного изучения Data Science и подготовке к интервью в топ-IT компании, а также прошла Data Science bootcamp в Galvanize.

Результат стоил того: Асаль получила работу в Amazon в команде, занимающейся предотвращением онлайн-мошенничества (fraud), где успешно проработала 3 года.

А затем, перешла в Microsoft, где уже в качестве Data Scientist работает в команде Customer Growth & Analytics над улучшением Customer experience в Azure.

Дата и время: Воскресенье, 6 сентября, 20:30 по времени Алматы.
📍Место: Онлайн
✅Регистрация по ссылке.
В форме регистрации будет отдельная ссылка на страницу, где можно задать ей вопрос
Читать полностью
Жансеры Икрам занял третье место во внутреннем конкурсе на ECCV
Поздравляем Айдына Убингажибова (@aidynub) с серебряной медалью на конкурсе Global Wheat Detection!
kaggle.com/c/global-wheat-detection

От всего нашего сообщества желаем тебе не останавливаться перед лицом трудностей , а также дальнейших успехов в области наук о данных.

=================================================
kaggle.com/c/global-wheat-detection/discussion/176528
kaggle.com/c/global-wheat-detection/discussion/176973
Читать полностью