Во второй главе читатель осваивает основы работы с данными н — @People_Analytics

255просмотров

12.6%от подписчиков

21 марта 2026 г.

Score: 281

Во второй главе читатель осваивает основы работы с данными на языке R: типы и структуры данных, базовые операции, обработку таблиц, работу с датами и строками, а также концепцию «опрятных» (tidy) данных. Дополнительно рассматриваются загрузка данных из внешних источников, веб-скрейпинг и сохранение результатов анализа. Третья глава вводит в системы управления базами данных и принципы реляционной модели. Рассматриваются возможности PostgreSQL и язык SQL – от базовых операций до более продвинутых техник, включая оконные функции и оптимизацию запросов. Четвёртая глава посвящена визуализации данных. Читатель знакомится с принципами грамматики графики и популярным пакетом для визуализации данных ggplot2, осваивает как базовые типы графиков, так и более сложные визуализации (тепловые карты, диаграммы Санкей, корреляционные матрицы). Дополнительно описаны R-пакеты в рамках grammar of graphics. Пятая и шестая главы формируют прочную статистическую базу. Сначала вводятся ключевые понятия – выборки, гипотезы, доверительные интервалы и p-значения, рассматриваются конкретные методы анализа: от χ²-тестов и критерия Фишера до анализа времени до события и оценки диагностических тестов, включая вопросы выбора методов и поправки на множественные сравнения. Завершается глава вопросами планирования исследований (расчет размера выборки, рандомизация) и разведочного анализа данных. Седьмая глава посвящена машинному обучению и большим данным. Рассматривается математика для машинного обучения. В ней даётся практическое введение в ключевые алгоритмы – регрессии, деревья решений, случайный лес, бустинг и нейронные сети, а также рассматриваются подходы к построению ML-пайплайнов и методы обучения без учителя. Восьмая глава выходит за рамки анализа как такового и показывает, как организовать полноценный исследовательский процесс: от контроля версий (Git) до создания динамических отчётов и дашбордов (Quarto) и интерактивных приложений (Shiny), организации сбора данных. Содержание данной главы оформлено в виде скачиваемых файлов в формате PDF на сайте книги. Девятая глава завершает книгу обзором биомедицинских датасетов. Материал служит базой для самостоятельной работы и воспроизведения примеров из книги. Наборы данных доступны для скачивания в интернет-репозитории. 📕 В итоге книга представляет собой целостное и практико-ориентированное руководство, которое не просто знакомит с инструментами анализа данных, а формирует системное мышление исследователя. Она особенно полезна тем, кто хочет перейти от фрагментарного использования методов к выстроенному, воспроизводимому и доказательному анализу данных – как в медицине, так и за её пределами. Приобрести книжку можно, например, тут. 🔗 Ссылка на репозиторий: github.com/ds-book/code 📦 Датасеты: https://ds-book.ru/docs/datasets/ #R #ggplot2 #RStats #datascience #аналитика_данных #книги #машинное_обучение #ИИ

Другие посты @People_Analytics