1 просмотров

Множественный линейный регрессионный анализ данных об изменении климата с использованием R

В этом исследовании мы рассмотрим влияние переменных других факторов на температуру, а детали данных, а также зависимые и независимые факторы перечислены в ссылках.

Мы загрузим файл, посмотрим на его структуру и размеры данных, которые говорят нам, что в нем 308 строк и 11 столбцов.

Различные имена столбцов следующие:

Сводная статистика говорит нам, что в данных нет нулей, а также нет выбросов.

Корреляционная матрица всех данных сообщает нам следующее о различных переменных и о том, как они коррелируют друг с другом.

Мы можем построить график зависимости года от температуры и увидеть восходящую кривую по мере того, как проходит год, температура также увеличивается.

Далее мы запустим модель линейной регрессии и посмотрим, какие переменные значимы, а какие либо не значимы, либо демонстрируют меньшую значимость из-за Мультиколлинеарность.

Приведенные выше результаты показывают, что R-квадрат модели составляет 0,744, что является довольно сильным показателем, и все переменные значимы, кроме CH4, некоторые переменные имеют отрицательные значения, поскольку они означают, что они фактически снижают температуру, а не повышают ее, т. е. аэрозоли, N2O и ХФУ.12 , однако мы не можем исключить Мультиколлинеарность здесь также.

Давайте попробуем запустить метод step() на приведенной выше модели, используя A1C, и посмотрим, какие переменные станут более значимыми после удаления некоторых из них.

Используя пошаговый метод, мы удалили CH4 из модели, а также увеличили наше значение R-квадрата.

Статья в тему:  Как глобальное потепление повлияет на моих детей

Мы также проверим мультиколинеарность, используя функцию VIF(), которая является частью пакета «car».

Любая переменная с высоким значением VIF, превышающим 5 или 10, должна быть удалена, поскольку это указывает на наличие в модели мультиколинеарности. [Джеймс, 2014] [Брюс, 2017].

Мы также можем запустить PCA (анализ основных компонентов), чтобы решить эту проблему, но сейчас, чтобы не усложнять задачу, мы удалим три переменные, то есть CO2, CH4, N2O, CFC.11 и CFC.12, и повторно запустим модель.Однако риск заключается в том, что мы можем в конечном итоге удалить переменные, которые имеют значение, поэтому в этом случае, если наша модель дает нам низкие результаты модели, нам нужно будет запустить анализ PCA, а затем посмотреть, сколько переменных нам нужно сохранить.

Наше удаление такого большого количества переменных уменьшило значение R-квадрата, поэтому нам нужно использовать анализ PCA, а затем определить, какие переменные оставить, поскольку при уменьшении переменных качество нашей модели упало.

Файл «Изменение климата» содержит климатические данные с мая 1983 г. по декабрь 2008 г. Доступные переменные включают:

  • Год: год наблюдения.
  • Месяц: месяц наблюдения.
  • Температура: разница в градусах Цельсия между средней глобальной температурой в этот период и эталонным значением. Об этом сообщает Отдел климатических исследований Университета Восточной Англии.
  • СО2, N2O, канал 4, CFC.11, CFC.12: атмосферные концентрации диоксида углерода (CO2), закиси азота (N2O), метана (CH4), трихлорфторметана (CCl3F, обычно обозначаемого как CFC-11) и дихлордифторметана (CCl2F2, обычно обозначаемого как CFC-12) соответственно. Эти данные получены от отдела глобального мониторинга ESRL/NOAA.
  • CO2, N2O и CH4 выражены в объемных частях на миллион (частей на миллион по объему, т. е. 397 частей на миллион по объему CO2 означает, что CO2 составляет 397 миллионных от общего объема атмосферы).
  • CFC.11 и CFC.12 выражены в ppbv (частях на миллиард по объему).
  • Аэрозоли: средняя оптическая толщина стратосферного аэрозоля на длине волны 550 нм. Эта переменная связана с вулканами, поскольку извержения вулканов приводят к добавлению в атмосферу новых частиц, которые влияют на то, сколько солнечной энергии отражается обратно в космос. Это данные Института космических исследований имени Годара при НАСА.
  • ТСИ: общая солнечная радиация (TSI) в Вт/м2 (скорость, с которой солнечная энергия отводится на единицу площади). Из-за солнечных пятен и других солнечных явлений количество энергии, излучаемой солнцем, существенно меняется со временем. Это данные с сайта проекта SOLARIS-HEPPA.
  • МЭИ: многомерный индекс Эль-Ниньо-Южное колебание (MEI), мера силы Эль-Ниньо/Ла-Нинья-Южное колебание (погодный эффект в Тихом океане, влияющий на глобальные температуры). Эти данные получены из отдела физических наук ESRL/NOAA.
  • https://courses.edx.org/courses/course-v1:MITx+15.071x+1T2020/courseware/f8d71d64418146f18a066d7f0379678c/60d93a44280348d7a0a16663f92af0f7/?activate_block_id=block-v1%3AMITx%2B15.071x%2B1T2020%2Btype%40sequential%2Bblock% 4060d93a44280348d7a0a16663f92af0f7
  • https://stat.ethz.ch/R-manual/R-devel/library/stats/html/step.html
Статья в тему:  Ученые-физики глобального потепления, чьи работы

Брюс, Питер и Эндрю Брюс. 2017. Практическая статистика для специалистов по данным. О'Райли Медиа.

Джеймс, Гарет, Даниэла Виттен, Тревор Хасти и Роберт Тибширани. 2014. Введение в статистическое обучение: с приложениями в R. Издательская компания Спрингер, Инкорпорейтед.

голоса
Рейтинг статьи
Ссылка на основную публикацию
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x