Для себя # ДОМАШНЕЕ ЗАДАНИЕ 3. Классификация текстовых документов ## Цель работы Приобрести опыт решения практических задач по машинному обучению, таких как анализ и визуализация исходных данных, обучение, выбор и оценка качества моделей предсказания, посредством языка программирования Python. ## Задание 1. Оценка качества классификации текстовых данных (2 балла) 1. Загрузите исходные данные 2. Разбейте загруженные данные на обучающее (train, 80%) и тестовое подмножества (test, 20%) 3. Переведите текстовые данные в векторный вид. Для этого воспользуйтесь средствами `sklearn` для трансформации текстовых документов в векторы TF-IDF (настроить на обучающем подмножестве, n-gram=1, слова в нижний регистр). 4. Постройте на обучающем подмножестве следующие модели классификации: - K-ближайших соседей ($n=5$) - Логистическая регрессия ($C=1$) - Наивный Байес: модель Бернулли ($\alpha=1$) - Наивный Байес: полиномиальная модель ($\alpha=1$) 5. Определите качество классификации на тестовом подмножестве (`Balanced-Accuracy`, `R`, `P`, `F1`) 6. Определите время обучения и предсказания 7. Свести все значения в один датафрейм и представить результат в виде таблицы ? **Замечание.** - Для модели Бернулли используйте бинарный вектор - Параметры логистической регрессии: `penalty="l2"`, `fit_intercept=True`, `max_iter=100`, `C=1`, `solver="lbfgs"`, `random_state=12345` ## Задание 2. Оценка качества классификации текстовых данных посредством кросс-валидации (2 балла) Повторите решение задания 1, но с использованием стратифицированной кросс-валидации k-folds (k=4) для разделения исходных данных ## Задание 3. Выбор модели (4 баллов) 1. Используя данные из задачи 1, разбейте обучающее подмножество (train) посредством стратифицированной кросс-валидации k-folds (k=4) 2. Обучите и протестируйте на разбитом обучающем подмножестве классификаторы со следующими параметрами: - количество соседей: `np.arange(1, 150, 20)` - параметр регуляризации: `np.logspace(-2, 10, 8, base=10)` - сглаживающий параметр: `np.logspace(-4, 1, 8, base=10)` 3. Постройте графики (параметры модели)-(`Balanced-Accuracy`) при обучении и валидации 4. Выберите лучшую модель для каждого метода, используя значение качества классификации (использовать `Balanced-Accuracy`) 5. Выбранные модели обучите на обучающем подмножестве (train) и протестируйте на тестовом (test). Определите время обучения и предсказания (см. задание 1 п. 6) 6. Повторите шаги 2-4 для n-gram=2 и n-gram=(1,2) 7. Выведите в виде таблицы итоговые данные по всем методам для лучших моделей (метод, n-gram, значение параметра модели, время обучения, время предсказания, метрики (`Balanced-Accuracy`, `R`, `P`, `F1`)) 8. Сделайте выводы по полученным результатам (преимущества и недостатки методов) ## Задание 4. Оценка влияния количества признаков FeatureHasher на качество классификации (2 баллов) Как будет меняться качество классификации для обозначенных ранее методов при использовании `FeatureHasher` (или `HashingVectorizer`) из пакета `sklearn` перед TF-IDF преобразованием. Количество признаков: `np.logspace(1, 5, 5, base=10)` ? **Замечание.** Используйте лучшие модели из задания 3.
Для себя Есть задание связанное с последовательным предсказанием покупки продажи акций на Python. Даны данные за период. Нужно обучить модель, которая последовательно предсказывает на каждые 5 минут в день сколько необходимо акций купить/продать. Купить/продавать и количество акций идут как параметры. На день дается определенное количество акций, которые нужно купить или продать. Если до последнего 5 минутного интервала, не все акции проданы/куплены, то автоматически запускается продажа/покупка в последний момент.
Для себя Сын увлекается программированием профессионально . Недавно выиграл Хакатон . Очень интересуется машинным обучением .Готов начать занятие после 25 мая и заниматься летом . Интересующий язык - Python,php или C++.
Для себя Мне нужен совет по курсовой Сфера - автоматическая обработка текста, конкретнее - автоматическая транскрипция Я не очень понимаю, какой применить алгоритм и как..
Для себя Здравствуйте, требуется написать программу на языке Python, которая будет классифицировать опоры электроосвещения и ЛЭП. На вход даются данные мобильной станции лазерного сканирования в виде облаков точек в формате .las.
Для себя Разобраться высокоуровневого с работой градиентного спуска при обучении нейронных сетей. пройтись по каждому этапу в обучении сверхточной нейронной сети, высокоуровневого, без матана. У меня есть некоторые пробелы, которые хочется заполнить
Для себя Помощь с проектом по Машинному обучение на тему «Digit classification with the Kernel Perceptron» На питоне В сообщениях расскажу подробнее задачи.
Как мне найти учеников по профилю машинное обучение в Москве?
Зарегистрируйтесь и создайте привлекательный профиль с упоминанием вашей специализации. Обратите внимание на количество доступных заявок от учеников, которое на май 2026 года составляет 72
Какие требования к преподавателям на вашем сайте?
На нашем сайте приветствуются преподаватели с любым уровнем квалификации. Мы рекомендуем указать все свои сертификаты и образование, чтобы увеличить шансы на нахождение учеников
Могу ли я установить гибкий график работы?
Вы полностью контролируете свой график и можете обсуждать его напрямую с учениками, чтобы найти удобное время для обеих сторон
Каков потенциальный заработок для репетитора машинное обучение?
Заработок зависит от количества занятий и квалификации. В среднем, за одно занятие можно заработать 650.01 рублей с занятия. Больше занятий в неделю – выше доход