Задания для стажировки Аналитиков данных и Data Science
Задание 1.
Написать алгоритм получения данных по вакансиям для IT-специалистов с одного из работных сайтов.
Алгоритм позволяет получить информацию о количестве вакансий по направлениям Data Analyst, Data Science и Data Engineer в разрезе уровней (Junior, Middle, Senior).
За основу можно взять как один регион (НН, Москва и т.д.) так и несколько.
Результат представить в табличном и/или графическом виде.
Задание 2. Кластеризация и классификация текстовых документов
Описание:
Вам нужно разработать систему, которая обрабатывает текстовые документы, получает их эмбеддинги, выполняет кластеризацию, а затем классифицирует новые документы по ближайшему кластеру.
Этапы задания:
1. Чтение текстовых документов
Прочитайте все .txt файлы из папки и выполните базовую предобработку текста.
Библиотеки: os, glob, nltk или spacy (пример архива в txt-файлами).
2. Преобразование текстов в эмбеддинги
Преобразуйте документы в векторные представления (эмбеддинги) с помощью моделей.
Библиотеки: transformers, sentence-transformers, Gensim.
3. Кластеризация документов
Проведите кластеризацию эмбеддингов и обоснуйте количество кластеров, используя метод локтя или Silhouette Score.
Библиотеки: KMeans, DBSCAN, scikit-learn.
4. Классификация новых документов
Преобразуйте новый документ в эмбеддинг и найдите ближайший кластер с помощью методов ближайших соседей или косинусного расстояния.
Библиотеки: NearestNeighbors, cosine_similarity из scikit-learn.
Результаты:
Чтение и предобработка текстов.
Получение эмбеддингов и кластеризация.
Классификация новых документов по ближайшему кластеру.
Задание 3*. Проект для стажировки
Предложите и подробно опишите проект для текущей стажировки.
Направления проектов:
- Анализ данных
- Машинное обучение
- Нейронные сети
- Искусственный интеллект
*За выполнение задания 3 будут начислены дополнительные баллы.
Мы рассмотрим самые интересные проекты и, возможно, включим их в разработку в рамках текущей стажировки.
Лучший проект по мнению наших менторов получит эксклюзивный подарок от IT-академии Lad.
Сдача задания
Задание принимается в виде ссылок, размещенных в облачных сервисах. Обязательно убедитесь, что доступ к файлам открыт по ссылке ДЛЯ ВСЕХ, в случае отсутствия доступа - задание автоматически отклоняется.
Кандидат должен прислать ссылки с выполненными заданиями на
email: lad-academy@lad24.ru
Тема письма обязательно должна быть составлена по шаблону:
Data Science и анализ данных__ФИО.