Изучение взаимосвязей статистика. Статистическое изучение взаимосвязи социально-экономических явлений

Исследование объективно существующих связей между социально-экономическими явлениями и процессами является важнейшей задачей теории статистики. В процессе

статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственныеотношения – это такая связь явлений и процессов, когда изменение одного из них – причины ведет к изменению другого – следствия.

Финансово-экономические процессы представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих процессов необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный анализ, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики. Второй этап – построение модели связи, базируется на методах статистики: группировках, средних величинах, и так далее. Третий, последний этап – интерпретация результатов, вновь связан с качественными особенностями изучаемого явления. Статистика разработала множество методов изучения связей. Выбор метода изучения связи зависит от познавательной цели и задач исследования.

Признаки по их сущности и значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными , или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называются результативными .

В статистике различают функциональную и стохастическую зависимости. Функциональной называют такую связь, при которой определенному значению факторногопризнака соответствует одно и только одно значение результативного признака.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между явлениями и их признаками классифицируются по степени тесноты,

направлению и аналитическому выражению.

По степени тесноты связи различают:

С увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного признака. Так, рост объемов производства способствует увеличению прибыли предприятия. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака, то есть обратная – это связь, при которой с увеличением или с уменьшением значений одного признака происходит уменьшение или увеличение значений другого признака. Так, снижение себестоимости единицы производимой продукции влечет за собой рост рентабельности.

По аналитическому выражению выделяют связи прямолинейные (или просто ли-

нейные ) и нелинейные . Если статистическая связь между явлениями может быть при-

близительно выражена уравнением прямой линии, то ее называют линейной связью вида.

Исследование объективно существующих связей между явлениями - важнейшая задача общей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие существенное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения - это связь явлений и процессов, при которой изменение одного из них - причины - ведет к изменению другого - следствия.

Причина - это совокупность условий, обстоятельств, действие которых приводит к появлению следствия. Если между явлениями действительно существуют причинно-следственные отношения, то эти условия должны обязательно реализовываться вместе с действием причин. Причинные связи носят всеобщий и многообразный характер, и для обнаружения причинно-следственных связей необходимо отбирать отдельные явления и изучать их изолированно.

Особое значение при исследовании причинно-следственных связей имеет выявление временной последовательности: причина всегда должна предшествовать следствию, однако не каждое предшествующее событие следует считать причиной, а последующее - следствием.

В реальной социально-экономической действительности причину и следствие необходимо рассматривать как смежные явления, появление которых обусловлено комплексом сопутствующих более простых причин и следствий. Между сложными группами причин и следствий возможны многозначные связи, в которых за одной причиной будет следовать то одно, то другое действие или одно действие будет иметь несколько различных причин. Чтобы установить однозначную причинную связь между явлениями или предсказать возможные следствия конкретной причины, необходима полная абстракция от всех прочих явлений в исследуемой временной или пространственной среде. Теоретически такая абстракция воспроизводится. Приемы абстракции часто применяются при изучении взаимосвязей между двумя признаками (парная корреляция). Но чем сложнее изучаемые явления, тем труднее выявить причинно-следственные связи между ними. Взаимное переплетение различных внутренних и внешних факторов неизбежно приводит к некоторым ошибкам в определении причины и следствия.

Особенностью причинно-следственных связей в социально-экономических явлениях является их транзитивность, т.е. причина и следствие связаны соотношением, а не непосредственно. Однако промежуточные факторы, как правило, при анализе опускаются.

Так, например, при использовании показателей международной методологии расчетов фактором валовой прибыли считается валовое накопление основных и оборотных фондов, но при этом допускаются такие факторы, как валовой выпуск, оплата труда и т.д. Правильно вскрытые причинно-следственные связи позволяют установить силу воздействия отдельных факторов на результаты хозяйственной деятельности.

Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо, абстрагируясь от второстепенных, выявлять главные, основные причины.

На первом этапе статистического изучения связи осуществляется качественный анализ изучаемого явления методами экономической теории, социологии, конкретной экономики.

На втором этапе строится модель связи на основе методов статистики: группировок, средних величин, таблиц и т. д.

На третьем, последнем этапе интерпретируются результаты; анализ вновь связан с качественными особенностями изучаемого явления.

Статистика разработала множество методов изучения связей, выбор которых зависит от целей исследования и поставленных задач. Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки по значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, являются результативными. Связи между явлениями и их признаками классифицируются по степени тесноты связи, направлению и аналитическому выражению.

В статистике различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

По степени тесноты связи различают количественные критерии оценки тесноты связи (табл. 1).

Таблица 1 Количественные критерии оценки тесноты связи

По направлению выделяют связь прямую и обратную. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. Так, например, рост производительности труда способствует увеличению уровня рентабельности производства. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака. Так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.

По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные. Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, степенной, показательной, экспоненциальной и т. д.), то такую связь называют нелинейной или криволинейной.

В статистике не всегда требуются количественные оценки связи, часто важно определить лишь ее направление и характер, выявить форму воздействия одних факторов на другие. Для выявления наличия связи, ее характера и направления в статистике используются методы приведения параллельных данных; аналитических группировок; графический; корреляционный, регрессионный.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Сравним изменения двух величин и с увеличением величины величина также возрастает. Поэтому связь между ними прямая, и описать ее можно или уравнением прямой, или уравнением параболы второго порядка.

Взаимосвязь двух признаков изображается графически с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат - результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. При отсутствии тесных связей наблюдается беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи.

Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака, на него оказывают воздействие многие другие неучтенные и случайные факторы. Это свидетельствует о том, что взаимосвязи явлений, которые изучает статистика, носят корреляционный характер и аналитически выражаются функцией вида.

Корреляционный метод имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Корреляция - это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

В статистике различаются следующие варианты зависимостей:

-парная корреляция - связь между двумя признаками (результативным и факторным или двумя факторными);
-частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков;
-множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.

Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.

Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: корреляция оценивает силу (тесноту) статистической связи, регрессия исследует ее форму. Та и другая служат для установления соотношения между явлениями, для определения наличия или отсутствия связи.

Корреляционный и регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи и установление аналитического выражения (формы) связи (регрессионный анализ).

Регрессионный метод заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной).

По форме зависимости различают:

Линейную регрессию, которая выражается уравнением прямой (линейной функцией) вида:

Yx = а0 + а1х;

Нелинейную регрессию, которая выражается уравнениями вида:

Yx = а0 + а1х + а2 х 2 - парабола; Yx = а0 ++ а1/х - гипербола

По направлению связи различают:

-прямую регрессию (положительную), возникающую при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются;
-обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается.

Положительную и отрицательную регрессии можно легче понять, если использовать их графическое изображение.

Для простой (парной) регрессии в условиях, когда достаточно полно установлены причинно-следственные связи, приобретает практический смысл только последнее положение; при множественности причинных связей невозможно четко отграничить одни причинные явления от других.

сезонный колебание регрессия

МЕТОДИЧЕСКИЕ УКАЗАНИЯ К РЕШЕНИЮ ТИПОВЫХ ЗАДАЧ

Чтобы выявить особенности в развитии явлений, обнаружить тенденции, установить зависимости, необходимо произвести группировку статистических данных. Для этой цели выбирается группировочный признак и разрабатывается система показателей сводки, которыми будут характеризоваться выделенные группы, для чего составляется макет таблицы.

Макетом таблицы называется таблица, состоящая из строк и граф, которые не заполнены цифрами. Каждая статистическая таблица (или макет) имеет подлежащее и сказуемое. Подлежащее - это объект изучения. Сказуемое - это система показателей, которыми характеризуется объект изучения. Подлежащее располагается слева в виде наименования горизонтальных строк, а сказуемое - справа, в виде наименования вертикальных граф.

В зависимости от построения подлежащего различают следующие виды таблиц: простые, групповые, комбинационные.

Групповыми таблицами называются такие, в подлежащем которых содержится группировка единиц совокупности по одному признаку.

В общественном производстве все процессы находятся в тесной взаимосвязи. Различают функциональную и корреляционную взаимосвязь между признаками. Под функциональными понимают такие взаимосвязи, при которых величина изучаемого признака определяется одним или несколькими факторами. Причем, с изменением факториальных признаков результативный признак всегда изменяется на одну и ту же величину. Однако в общественном производстве такого рода зависимости встречаются редко.

Взаимосвязи признаков экономических явлений, как правило, носят корреляционный характер. При корреляционных взаимосвязях одному значению изучаемого признака может соответствовать много значений другого или других признаков, причем, с изменением одного признака другие признаки варьируют в различных направлениях.

Различают корреляционные связи: простые и множественные (по количеству признаков связи); положительные и отрицательные (по направленности); прямолинейные и криволинейные (по аналитическому выражению).

Парная корреляция отображает связи между двумя признаками. При множественной корреляции экономическое явление рассматривается как совокупность влияния многих факторов.

Положительная корреляция отражает изменение признаков в прямой пропорциональности. Связи, когда увеличение (уменьшение) одного признака сопровождается уменьшением (увеличением) другого признака, называют отрицательными.

Прямолинейной называют связь, которая может быть выражена уравнением линейной функции. Для криволинейного вида связи, выражаемого уравнением кривой линии, характерно то, что с увеличением одного признака второй сначала увеличивается, а затем уменьшается, после достижения определенного уровня развития.

В процессе корреляционного анализа используют коэффициенты: корреляции линейной (r), корреляционного отношения (h), ассоциации (r a), взаимной сопряженности (r c), корреляции рангов (r p), множественной (r xyz), индекса корреляции (I r), регрессии (R).

Коэффициент линейной корреляции - показатель, отражающий направление и меру тесноты связи между признаками при линейных взаимосвязях (или близких к ним).

При малых выборках коэффициент линейной корреляции исчисляют по формуле:

x, y - значения изучаемых признаков;

Средние величины по каждому признаку;

Средняя величина произведения признаков x и y ;

n - численность ряда.

Наиболее удобной формулой для расчета коэффициента корреляции является следующая:

Коэффициент корреляции изменяется от -1 до +1. Чем ближе коэффициент корреляции к единице, тем связь между признаками теснее.

Существенность связи можно оценить укрупненно по таблицам Чэддока, но часто возникает необходимость дать более точную оценку существенности либо на основе t - критерия (при малых выборках), либо F критерия Фишера. Вероятностная оценка существенности коэффициента корреляции при малой выборке предпочтительно осуществляется на основе расчета значения t - критерия Стьюдента

где r - коэффициент корреляции;

n - число сопоставляемых пар наблюдений.

Полученное расчетное значение t - критерия Стьюдента сравнивают с его теоретической величиной в зависимости от 5% и 1% уровень значимости и n-1 числа степеней свободы (приложение В).

Если t расч. > t табл. , то связь между фактором и результатом существенная и наоборот, если t расч. < t табл. , то связь несущественная и данный фактор исключается из дальнейшего исследования.

Если численность выборки более 30, то вначале определяется случайная ошибка выборочного коэффициента корреляции по формуле:

где 2 - общая дисперсия;

S 2 - дисперсия разностей между эмпирическими данными и линией регрессии (остаточная дисперсия).

где y - эмпирические значения результативного признака;

Расчетные значения результативного признака.

Расчетные значения t - критерия Стьюдента определится:

Коэффициент корреляции точно оценивает степень тесноты связи лишь в случае наличия линейной связи между признаками. Если имеет мести криволинейная зависимость, то используется эмпирическое корреляционное отношение или индекс корреляции для оценки степени тесноты связи между признаками. Корреляционное отношение определяется по формуле:

индекс корреляции рассчитывается:

s 2 факт. - вариация результативного признака под влиянием факторов;

s 2 общ. – вариация результативного признака под влиянием всех факторов;

s 2 ост. - вариация результативного признака под влиянием прочих факторов.

Значимость рассчитанного корреляционного отношения определится на основе F-критерия Фишера:

m – число параметров в уравнении регрессии.

Расчтеное значение F-критерия сравнивается с теоретическим по таблицам F-распределения при числе степеней свободы числителя V 1 =к-1 и знаменателя V 2 =n-к при выбранном уровне значимости (a=0,05 или a=0,01) (приложение Е).

Если F расч. > F табл. , то связь между признаками значима (существенная), если F расч. < F табл то связь не существенна и фактор следует исключить их дальнейшего исследования.

В процессе изучения явления важно установить не только тесноту связи, но и рассчитать показатели, характеризующие взаимосвязь между признаками. Это осуществляется с помощью решения определенных регрессионных уравнений. Для аналитического выражения прямолинейной регрессии используют формулу прямой линии:

где - выровненное значение результативного признака;

a, b - параметры, представляющие средние значения постоянных показателей;

Параметры уравнения a и b определяют на основе метода наименьших квадратов, для чего решают систему нормальных уравнений.

Расчеты производятся в табличной форме, в которой подсчитываются значения å х, å y, å x 2 , å xy.

После нахождения параметров а и b записывается параметризованное уравнение прямой линии.

Но линейная форма не всегда отражает сущность явления, хотя предпочтительна, поскольку легко поддается интерпретации. Поэтому при выборе формы связи обязательно рассматриваются и криволинейные зависимости:

параболическая

гиперболическая

смешенная

показательная

полулогарифмическая

и другие.

Параметры уравнения также находятся на основе метода наименьших квадратов. Так, для параболы решается следующая система уравнений:

Исследователь обязан рассмотреть возможные математическое модели, а затем из найденных параметризованных уравнений выбрать аппроксимирующая уравнение (то, которое, наиболее точно отображает эмпирический двухмерный ряд распределения). Это осуществляется на основе ошибки аппроксимации:

Апроксимирущим будет то из параметризованных уравнений, у которых ошибка минимальна, но для практических целей используется уравнение, у которого e а £5 %.

Затем параметры апроксимации уравнения должны быть проверены на существенность.

Параметры а и b должны быть оценены по статистическим критериям (t - критерий Стьюдента, F - критерий Фишера). Особое внимание должно быть уделено параметру b , называемому коэффициентом регрессии. Это связано с тем, что этот показатель, являясь мерой изменений зависимого признака, рассматриваемого как фактор, приобретает значения основания для операции экстраполирования.

Оценка существенности параметра b производиться на основе ошибки коэффициента регрессии:

где S 2 - остаточная дисперсия;

x - варианты ряда (факторный признак);

Среднее значение ряда;

Расчетное значение t - критерия определяется:

Расчетное значение t - критерия сравнивается с его теоретическим значением по таблицам Стьюдента (приложение В) при n-2 степенях свободы при 5% и 1% уровне значимости. Если t расч. >t табл. , то параметр b существенном.

Параметр а оценивается по формуле:

Расчетное значение t - критерия для параметра a определяется:

Аналогично с вышеописанным оно сравнивается с теоретическим значением и делается вывод о существенности параметра а и делается заключение о практическом использовании полученной модели для целей планирования, прогнозирования

Если необходимо определить влияние нескольких факторов на результативный признак, то строится модель множественной регрессии:

В случае трехмерного распределения уравнение регрессии будет следующим:

параметры уравнения можно найти на основе симплекс-метода, или.

8.1. Основные понятия корреляционного и регрессионного анализа

Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается – увеличение массы внесенных удобрений ведет к росту урожайности.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной . Если изучаются более чем две переменные – множественной .

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле – когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле – когда исследуется сила связи – и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными.

Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.

8.2. Парная корреляция и парная линейная регрессия

Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы:

\ Y \ X \	Y 1	Y 2	...	Y z	Итого	Y i
X 1	f 11	12	...	f 1z
X 1	f 21	22	...	f 2z
...	...	...	...	...	...	...
X r	f k1	k2	...	f kz
Итого			...		n
			...			-

В основу группировки положены два изучаемых во взаимосвязи признака – Х и У. Частоты f ij показывают количество соответствующих сочетаний Х и У. Если f ij расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания f ij допустимо утверждать о связи между Х и У. При этом, если f ij концентрируется около одной из двух диагоналей, имеет место прямая или обратная линейная связь.

Наглядным изображением корреляционной таблице служит корреляционное поле. Оно представляет собой график, где на оси абсцисс откладывают значения Х, по оси ординат – У, а точками показывается сочетание Х и У. По расположению точек, их концентрации в определенном направлении можно судить о наличии связи.

В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения – одно по X, другое по У. Рассчитаем для каждого Х i среднее значение У, т.е. , как

Последовательность точек (X i , ) дает график, который иллюстрирует зависимость среднего значения результативного признака У от факторного X, – эмпирическую линию регрессии, наглядно показывающую, как изменяется У по мере изменения X.

По существу, и корреляционная таблица, и корреляционное поле, и эмпирическая линия регрессии предварительно уже характеризуют взаимосвязь, когда выбраны факторный и результативный признаки и требуется сформулировать предположения о форме и направленности связи. В то же время количественная оценка тесноты связи требует дополнительных расчетов.

Практически для количественной оценки тесноты связи широко используют линейный коэффициент корреляции. Иногда его называют просто коэффициентом корреляции. Если заданы значения переменных Х и У, то он вычисляется по формуле

Можно использовать и другие формулы, но результат должен быть одинаковым для всех вариантов расчета.

Коэффициент корреляции принимает значения в интервале от -1 до + 1. Принято считать, что если |r| < 0,30, то связь слабая; при |r| = (0,3÷0,7) – средняя; при |r| > 0,70 – сильная, или тесная. Когда |r| = 1 – связь функциональная. Если же r принимает значение около 0, то это дает основание говорить об отсутствии линейной связи между У и X. Однако в этом случае возможно нелинейное взаимодействие. что требует дополнительной проверки и других измерителей, рассматриваемых ниже.

Для характеристики влияния изменений Х на вариацию У служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель

где n – число наблюдений;
а 0 , а 1 – неизвестные параметры уравнения;
e i – ошибка случайной переменной У.

Уравнение регрессии записывается как

где У iтеор – рассчитанное выравненное значение результативного признака после подстановки в уравнение X.

Параметры а 0 и а 1 оцениваются с помощью процедур, наибольшее распространение из которых получил метод наименьших квадратов. Его суть заключается в том, что наилучшие оценки ag и а, получают, когда

т.е. сумма квадратов отклонений эмпирических значений зависимой переменной от вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров а 0 и а 1 . Ее минимизация осуществляется решением системы уравнений

Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов, например:

Аппарат линейной регрессии достаточно хорошо разработан и, как правило, имеется в наборе стандартных программ оценки взаимосвязи для ЭВМ. Важен смысл параметров: а 1 – это коэффициент регрессии, характеризующий влияние, которое оказывает изменение Х на У. Он показывает, на сколько единиц в среднем изменится У при изменении Х на одну единицу. Если а, больше 0. то наблюдается положительная связь. Если а имеет отрицательное значение, то увеличение Х на единицу влечет за собой уменьшение У в среднем на а 1 . Параметр а 1 обладает размерностью отношения У к X.

Параметр a 0 – это постоянная величина в уравнении регрессии. На наш взгляд, экономического смысла он не имеет, но в ряде случаев его интерпретируют как начальное значение У.

Например, по данным о стоимости оборудования Х и производительности труда У методом наименьших квадратов получено уравнение

У = -12,14 + 2,08Х.

Коэффициент а, означает, что увеличение стоимости оборудования на 1 млн руб. ведет в среднем к росту производительности труда на 2.08 тыс. руб.

Значение функции У = a 0 + а 1 Х называется расчетным значением и на графике образует теоретическую линию регрессии.

Смысл теоретической регрессии в том, что это оценка среднего значения переменной У для заданного значения X.

Парная корреляция или парная регрессия могут рассматриваться как частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных – с другой. Когда же требуется охарактеризовать связь всего указанного множества независимых переменных с результативным признаком, говорят о множественной корреляции или множественной регрессии.

8.3. Оценка значимости параметров взаимосвязи

Получив оценки корреляции и регрессии, необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Существующие программы для ЭВМ включают, как правило, несколько наиболее распространенных критериев. Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции:

В первом приближении нужно, чтобы . Значимость r xy проверяется его сопоставлением с , при этом получают

где t расч – так называемое расчетное значение t-критерия.

Если t расч больше теоретического (табличного) значения критерия Стьюдента (t табл) для заданного уровня вероятности и (n-2) степеней свободы, то можно утверждать, что r xy значимо.

Подобным же образом на основе соответствующих формул рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие t расч > t табл. В противном случае доверять полученной оценке параметра нет оснований.

Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение:

где n – число наблюдений;
m – число параметров уравнения регрессии.

F расч также должно быть больше F теор при v 1 = (m-1) и v 2 = (n-m) степенях свободы. В противном случае следует пересмотреть форму уравнения, перечень переменных и т.д.

8.4. Непараметрические методы оценки связи

Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.

Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.

Если изучается взаимосвязь двух качественных признаков, то используют комбинационное распределение единиц совокупности в форме так называемых таблиц взаимной сопряженности.

Рассмотрим методику анализа таблиц взаимной сопряженности на конкретном примере социальной мобильности как процесса преодоления замкнутости отдельных социальных и профессиональных групп населения. Ниже приведены данные о распределении выпускников средних школ по сферам занятости с выделением аналогичных общественных групп их родителей.

Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности: 42,9 % детей родителей группы 1 («Промышленность и строительство») заняты в сфере интеллектуального труда (39 из 91); 38,9 % детей. родители которых трудятся в сельском хозяйстве, работают в промышленности (34 из 88) и т.д.

Можно заметить и явную наследственность в передаче профессий. Так, из пришедших в сельское хозяйство 29 человек, или 64,4 %, являются детьми работников сельского хозяйства; более чем у 50 % в сфере интеллектуального труда родители относятся к той же социальной группе и т.д.

Однако важно получить обобщающий показатель, характеризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях. Для этой цели исчисляют, например, коэффициенты взаимной сопряженности Пирсона (С) и Чупрова (К):

где f 2 – показатель средней квадратической сопряженности, определяемый путем вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки:

К 1 и К 2 – число групп по каждому из признаков. Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, колеблется в обычных для этих показателей пределах от 0 до 1.

В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т.д.

При ранжировании каждой единице совокупности присваивается ранг, т.е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.

Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена (r) и Кендэлла (t). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов . Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные - множественной.

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь -- это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая -- регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительные процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле -- когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле -- когда исследуется сила связи -- и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак:

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых, дает основание говорить о статистическом изучении взаимосвязей.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы--параметрические--и принято называть корреляционными.