- Артикул:00-01050659
- Автор: Харрисон Мэтт
- ISBN: 978-5-907203-17-4
- Тираж: 200 экз.
- Обложка: Мягкий переплет
- Издательство: ДИАЛЕКТИКА (все книги издательства)
- Город: Москва-Санкт-Петербург
- Страниц: 320
- Формат: 84х108 1/32
- Год: 2020
В этой книге приведены подробные примеры решения общих задач структурированных данных. В ней рассматриваются различные библиотеки и модели, их компромиссы, настройка и интерпретация.
Содержание
Об авторе
Колофон
Введение
Чего ожидать
Для кого написана эта книга
Соглашения, принятые в этой книге
Использование примеров кода
Посвящение
Ждем ваших отзывов!
Глава 1. Введение в машинное обучение
Установка с использованием pip
Установка с помощью conda
Глава 2. Обзор процесса машинного обучения
Глава 3. Пошаговая классификация: набор данных Titanic
Соображения о плане проекта
Импорт
Задать вопрос
Условия для данных
Сбор данных
Очистка данных
Создание признаков
Выборка данных
Замещение данных
Нормализация данных
Рефакторинг
Простая модель
Разные семейства
Стенирование
Создание модели
Оценка модели
Оптимизация модели
Матрица неточностей
Кривая RОC
Кривая обучения
Развертывание модели
Глава 4. Пропущенные данные
Изучение пропущенных данных
Отбрасывание пропущенных данных
Замещение данных
Добавление индикаторных столбцов
Глава 5. Очистка данных
Имена столбцов
Замена пропущенных значений
Глава 6. Исследование
Размер данных
Сводная статистика
Гистограмма
Диаграмма рассеяния
Объединенный график
Парная сетка
Диаграмма размаха и скрипичная диаграмма размаха
Сравнение двух порядковых значений
Корреляция
RadViz
Параллельные координаты
Глава 7. Предварительная обработка данных
Стандартизация
Масштабирование до диапазона
Фиктивные переменные
Меточное кодирование
Частотное кодирование
Извлечение категорий из строк
Другие категориальные кодирования
Конструирование признаков данных
Добавление признака col_na
Конструирование признаков вручную
Глава 8. Выбор признаков
Коллинеарные столбцы Регрессия лассо
Удаление рекурсивных признаков
Взаимная информация
Анализ основных компонентов
Важность признака
Глава 9. Несбалансированные классы
Использование другой метрики
Алгоритмы и ансамбли на основе дерева
Штрафующие модели
Повышающая дискретизация миноритарного класса
Генерация данных миноритарного класса
Понижающая дискретизация мажоритарного класса
Повышающая дискретизация, затем понижающая
Глава 10. Классификация
Логистическая регрессия
Наивный байесовский классификатор
Метод опорных векторов
К-ближайшие соседи
Дерево решений
Случайный лес
XGBoost
Градиентный бустинг с LightGBM
ТРОТ
Глава 11. Выбор модели
Кривая валидации
Кривая обучения
Глава 12. Метрики и оценка классификации
Матрица неточностей
Метрики
Корректность
Отзыв
Точность
F1
Отчет о классификации RОC
Кривая "точность-отзыв"
График кумулятивного усиления
Кривая подъема
Баланс классов
Ошибка прогнозирования класса
Порог дискриминации
Глава 13. Объяснение моделей
Коэффициенты регрессии
Важность признака
LIME
Интерпретация дерева
Графики частичной зависимости
Суррогатные модели
Shapley
Глава 14. Регрессия
Базовая модель
Линейная регрессия
SVM
К-ближайшие соседи
Древо решений
Случайный лес
Регрессия XGBoost
Регрессия LightGBM
Глава 15. Метрики и регрессионная оценка
Метрики
График остатков
Гетероскедастичность
Нормальные остатки
График ошибки прогноза
Глава 16. Объяснение регрессионных моделей
Shapley
Глава 17. Уменьшение размерности
РСА
UMAP
t-SNE
PHАТЕ
Глава 18. Кластеризация
Метод k-средних
Агломерационная (иерархическая) кластеризация
Понятие кластеров
Глава 19.Конвейер
Классификационный конвейер
Конвейер регрессии
Конвейер РСА
Предметный указатель