Статистические шкалы. Измерения в статистике. Шкалы измерений. Теория измерений. Основные шкалы измерения

При статистическом исследованиисоциально-экономических процессов мы встречаемся с двумя типами данных: пространственные данные (cross-sectional data ) и временные ряды (time-series data ).

Примером пространственных данных является, например, набор сведений (объем производства, количество работников, доход и др.) по разным фирмам в один и тот же момент времени (пространственный срез). Пространственные данные часто используются для построения моделей классификации, регрессионных моделей.

Примерами временных данных могут служить ежеквартальные данные по инфляции, средней заработной плате, национальному доходу за последние годы, ежедневный курс доллара США на ММВБ и т.п. Отличительной чертой временных данных является то, что они естественным образом упорядочены во времени. Часто наблюдения в близкие моменты времени бывают зависимыми.

Наиболее информативными видами представления данных являются временные ряды , многоугольники и гистограммы распределения (частотные и кумулятивные ), диаграммы (подробный анализ видов представления данных будет представлен в выпуске 2 данного тома).

Вид представления данных определяется типом шкалы измерения. Различают четыре основные вида данных, отличающихся по тому, как наблюдаемый объект измеряется или описывается (табл. 2.1).

Таблица 2.1

Основные виды данных

Номинальная шкала (шкала наименований, классификационная шкала) является наиболее «слабой» качественной шкалой, по которой объектам дается некоторый признак. Этот тип шкал соответствует простейшему виду измерения, при котором шкальные значения используются лишь как имена объектов. Единственная цель таких измерений - выявление различий между объектами разных классов. Однако не следует пренебрегать значением этих имен; так, одной из задач кластерного анализа является назначение удачных названий выявленных групп близких по совокупности свойств объектов.

Шкала называется ранговой (шкала порядка), если множеству измеряемых объектов можно присвоить монотонно возрастающие шкальные значения. Тем самым допускается не только номинальное различение объектов, но и их упорядочение по измеряемым свойствам. Таковы балльные, рейтинговые оценки.

Измерение в шкале порядка может применяться в различных ситуациях:

Необходимо упорядочить объекты во времени или пространстве, когда интересуются не сравнением степени выраженности какого-либо свойства объектов, а лишь их взаимным пространственным или временным расположением;

Необходимо упорядочить объекты по степени выраженности какого-либо их свойства, при этом не требуется производить его точное измерение;

Какое-либо свойство в принципе измеримо, но измерение невозможно по причинам практического или теоретического характера.

Шкалы интервалов являются одним из наиболее важных типов шкал. Их отличительная особенность - возможность положительного линейного преобразования, когда меняется масштаб и начало отсчета, но сохраняется направленность измеряемого свойства. Классическим примером служат температурные шкалы Цельсия t °C и Фаренгейта t °F, связанные линейным преобразованием шкальных значений

t °F = 1,8 t °C + 32. (2.1)

Шкалы интервалов сохраняют не только различие и упорядочение объектов, но и отношение «расстояний» между парами. Однако отношение самих шкальных значений при этом не сохраняется. Например, в случае температурных шкал Цельсия и Фаренгейта нельзя сказать, что вода, нагретая до 80 °C вдвое горячее, чем вода при 40 °C, поскольку в шкале Фаренгейта соотношение температур воды будет уже другим: 176 °F и 104°F соответственно. В то же время отношение разностей этих температур в обеих шкалах сохраняется. Так, если отсчитывать разность температур двух упомянутых объектов в обеих шкалах относительно третьего объекта, охлажденного до 0 °C (32 °F), то отношение разностей в обеих температурных шкалах составляет одну и ту же величину 2:

(80 °C - 0 °C)/(40 °C - 0 °C) = (176 °F - 32 °F)/(104 °F - 32 °F) = 2.

Частным случаем шкал интервалов являются шкалы отношений, когда нулевая точка означает отсутствие измеряемого свойства. Шкалы отношений сохраняют не только отношения свойств объектов, но и отношения «расстояний» между парами объектов. Примерами измерений в шкалах отношений являются стоимостные измерения.

Иногда рассматривают также шкалы разностей и абсолютные шкалы . Первые являются частным случаем шкал интервалов; примерами служат измерения прироста продукции в абсолютных единицах, увеличение численности учреждений и т.п. Абсолютные шкалы характеризуются единственностью измерения и применяются, например, для измерения количества объектов.

Шкалы измерения следует учитывать при вычислении средних величин. В общей теории статистики различают структурные и степенные средние . К первым относятся мода и медиана , ко вторым - арифметическая , геометрическая , квадратическая и гармоническая средние.

Наименее информативная номинальная шкала допускает лишь один вид средних - моду. При переходе к более информативной порядковой шкале в моде добавляется медиана как мера центральной тенденции . Эти средние являются частными случаями средних по Коши - функции, ставящей в соответствие совокупности измерений (х 1 , х 2 , …, х n ) любое число, заключенное между наибольшим и наименьшим членом вариационного ряда.

Обобщением понятия степенных средних является средние по Колмогорову F y n , задаваемые строго монотонными функциями y:

F y n (х 1 , х 2 , …, х n ) = y -1 (1/n )S y (х i ), (2.2)

где y -1 - функция, обратная y; х i - значение i -го измерения показателя Х ; n - объем выборки. При y(х ) = х ; ln х ; х –1 ; х 2 формула (2.2) определяет соответственно среднее арифметическое, среднее геометрическое, среднее гармоническое и среднее квадратическое.

В шкале интервалов и разностей центральную тенденцию адекватно отражает среднее арифметическое, в шкале отношений - среднее геометрическое, однако среднее геометрическое не рекомендуется применять при обработке данных, измеренных в шкале интервалов и разностей. В абсолютной шкале можно пользоваться любым средним, т.е. с усложнением типа шкалы измерения число средних, адекватных в этой шкале, увеличивается.

Каждое измерение над объектом производится в определенной шкале. Различные координаты одного вектора наблюдений могут быть выражены в разных шкалах. Так, в § 5.1 приведен пример вектора наблюдений (табл. 5.1), у которого первые координаты носят характер условных меток (социальная принадлежность семьи, пол и профессия главы семьи, качество жилищных условий), в то время как остальные выражаются числами (число членов семьи, количество детей, среднегодовой доход и т. п.). Свойства этих шкал сильно различаются между собой. Так, про пол главы семьи можно сказать только, что он или мужской или женский и что пол мужской отличается от пола женского; про жилищные условия - что они совпадают или отличаются и что в отдельных случаях одни жилищные условия лучше других; про расходы можно сказать, что расходы на питание одной семьи меньше, равны, больше расходов другой, можно оценить разность в расходах между семьями и подсчитать, во сколько раз расходы одной семьи отличаются от расходов другой.

Ниже описываются основные типы шкал и математические приемы унификации данных, выраженных в разных шкалах, которые обычно предшествуют применению методов многомерного анализа.

10.2.1. Номинальная шкала.

Эта шкала используется только для того, чтобы отнести индивидуум, объект в определенный класс. Если описаны заранее возможные классы и правила отнесения объекта в них, то говорят о категоризованной шкале, если нет, то о некатегоризованной. Примером категоризованной шкалы является пол. В исследовании индивидууму приписывается одно из двух значений: буква М или Ж, специальный знак или число 1 или 2. В принципе можно было бы приписывать и другие буквы и цифры, важно только, чтобы сохранялось взаимно-однозначное соответствие между кодами. Для ввода категоризованных данных удобно использовать «меню», т. е. перечень возможных категорий с их кодами. Примерами некатегоризованных номинальных переменных являются имя, фамилия, место рождения.

Другой важный источник некатегоризованных номинальных данных указан в § 5.3. Это случай, когда наблюдение задается над парой объектов, и переменная указывает только, принадлежат ли объекты, к одному классу или нет, и не указывает, к каким классам они принадлежат.

Последнее обстоятельство не надо рассматривать в качестве курьеза. Конечно, если классы заранее определены и нетрудно каждый объект отнести в определенный класс, то это следует сделать и записать, к какому классу объект принадлежит. Но иногда классы заранее не описаны, создание их полной классификации как раз и является целью работы, а вместе с тем оценить принадлежность объектов одному классу можно. Например, можно говорить о «близком», «похожем» течении болезни у двух больных, хотя все варианты течения заболевания и не описаны. Более того, выделение эмпирически близких вариантов течения болезни может служить отправным пунктом для выделения и описания всех возможных вариантов развития патологического процесса. То же относится к выделению социально-экономических групп и т. п.

Одна и та же переменная может в зависимости от цели использования выступать в разных качествах. Так, например, некатегоризованная номинальная переменная - имя программы - служит только для индивидуализации программы и, если программ немного, может быть найдена прямым просмотром списка программ. Вместе с тем если имена программ в списке каким-либо образом упорядочить (например, в алфавитно-цифровом порядке), то имя программы как поисковый образ несет в себе элементы порядковой величины. Про каждые два имени можно сказать, что они или совпадают, или одно из них предшествует другому при принятом способе упорядочивания. При изменении способа упорядочивания меняется и отношение следования.

Арифметические операции над величинами, измеренными в номинальной шкале, лишены смысла. Следовательно, и медиана, и среднее арифметическое не могут быть использованы в качестве осмысленной меры центральной тенденции. Более подходящая статистика здесь мода.

10.2.2. Порядковая (ординальная) шкала.

В дополнение к функции отнесения объектов в определенный класс эта шкала также упорядочивает классы по степени выраженности заданного свойства. Каждому классу приписывается свой собственный символ таким образом, чтобы заранее установленный порядок символов соответствовал порядку классов. Так, если классам будут приписаны числовые значения, то классы будут упорядочены согласно числовой последовательности; если буквы, то классы будут упорядочены в алфавитном порядке, а если слова, то классы будут упорядочены согласно значениям слов.

Например, в § 5.3 приводится пример порядковой шкалы для описания качества жилищных условий с четырьмя градациями (классами): «плохое», «удовлетворительное», «хорошее», «очень хорошее». Естественно, что эти классы могли бы быть занумерованы числами 1,2,3,4, или 4,3,2,1, или буквами а,б,в,г и т. п.

Другими известными примерами порядковых шкал являются: в медицине - шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско - Василенко - Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону; в минералогии - шкала Мооса (тальк -1, гипс - 2, кальцит - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10), по которой минералы классифицируются согласно критерию твердости; в географии - бофортова шкала ветров («штиль», «слабый ветер», «умеренный ветер» и т. д.).

Структура порядковой шкалы не разрушается при любом взаимно-однозначном преобразовании кодов, которое сохраняет порядок. Так же, как и в случае номинальной шкалы, арифметические операции не сохраняют своего смысла при преобразовании порядковых шкал, поэтому желательно ими не пользоваться. Нетрудно показать, что если опираться только на свойства шкал и не привлекать дополнительных, внешних по отношению к шкалам соображений, то единственными разрешенными статистиками при использовании порядковых шкал являются члены вариационного ряда .

10.2.3. Количественные шкалы.

Шкала, в которой можно отразить, на сколько по степени выраженности заданного свойства один из объектов отличается от другого, называется интервальной. Для того чтобы задать интервальную шкалу, надо определить объекты, соответствующие начальной точке и единице измерения. И далее при измерении ставить в соответствие каждому объекту число, показывающее, на сколько единиц измерения этот объект отличается от объекта, принятого за начальную точку. Простейшим примером интервальной шкалы является температура в градусах Цельсия, где 0° - начальная точка и 1° - единица измерения.

Структура интервальной шкалы не меняется при линейных преобразованиях вида Эффект такого преобразования заключается в сдвиге начальной точки на b единиц и умножении единицы измерения на а.

Например, путем преобразования , где - температура в можно перейти к температуре в градусах Фаренгейта.

Если начало в интервальной шкале является абсолютной нулевой точкой, то возникает возможность отразить в шкале, во сколько раз одно измерение отличается от другого. Соответствующая шкала называется шкалой отношений. Шкала отношений допускает преобразования вида . Большинство шкал, используемых в физике, являются либо интервальными (для измерения температуры, потенциальной энергии), либо шкалами отношений (для измерения времени, массы тела, заряда, расстояния).

Поскольку количественные шкалы допускают арифметические преобразования, среднее арифметическое может использоваться для описания интегральной тенденции в группировке данных.

10.2.4. Унифицированное представление разнотипных данных.

Каждому типу шкалы соответствует своя статистическая техника. Так, для переменных, измеренных в номинальной шкале, можно использовать -критерий для полиномиальных распределений, -критерий для проверки отсутствия ассоциаций в таблицах сопряженности, критерии для проверки гипотез о вероятности в биномиальном распределении. Порядковой шкале отвечают методы, основанные на использовании рангов (ранговая корреляция, непараметрические критерии для проверки гипотез типа ) и т. п.). При интервальной шкале может быть использован весь арсенал статистических методов.

Более того, разработаны статистические процедуры для случаев, когда наблюдаются векторы, одни координаты которых измерены в одной шкале, а другие - в другой. Типичным примером является обычный дисперсионный анализ (см. § 3.5), в котором факторы измеряются в номинальной шкале, а соответствующие их комбинациям отклики - в интервальной.

Тем не менее в целом ряде статистических методов, особенно в современных методах многомерного анализа, предполагается, что данные измерены в однотипных шкалах. Чтобы иметь возможность применять эти методы в общем случае разнотипных данных, были предложены различные приемы унификации данных. Познакомимся с важнейшими из них.

Сведение к двоичным переменным. В основе этого метода лежит введение вместо каждой исходной случайной переменной серии случайных величин, принимающих только два значения: 0 и 1.

Для номинальной величины имеющей k градаций вводится k таких величин что когда когда

Этот же прием иногда используют и при сведении к двоичным переменным случайной величины, измеренной в порядковой шкале. Однако в ряде случаев оказывается удобным выделять не событие , а событие Для сравнения относительных достоинств этих двух способов рассмотрим следующую модельную задачу. Пусть - равномерно распределенная на отрезке случайная величина, - малое число;

Функция моделирует, очевидно, первый способ перехода к двоичным переменным, а функция - второй. После несложных подсчетов получаем:

Основной недостаток изложенной техники - это введение большого числа новых переменных и частичная потеря информации, содержащейся в данных, как из-за квантования, так и из-за искусственного снижения уровня используемой шкалы.

Оцифровка номинальных и порядковых переменных. Этот метод прямо противоположен только что изложенному, в нем все переменные поднимаются, подтягиваются до уровня количественных путем приписывания их градациям числовых значений. Иногда приписываемые значения называют метками.

Выбор меток существенно зависит от цели, с которой производится оцифровка. Так, если изучается величина связи между двумя номинальными признаками, то метки можно выбрать из условия максимизации коэффициента корреляции между ними , . Если речь идет об отнесении наблюдений к одному из заранее определенных классов (дискриминантный анализ), то выбор меток можно связать с условием максимизации нормированного расстояния в многомерном выборочном пространстве между центрами изучаемых популяций (расстояния Махаланобиса). Иногда эту задачу упрощают и метки приписываются покоординатно так, чтобы максимизировать только нормированное расстояние между средними значениями данной координаты. Статистическое сравнение на примере одной частной задачи эффективности глобального и покоординатного подхода к оцифровке в дискриминантном анализе может быть найдено в .

Изложенные приемы оцифровки, когда метки выбираются из условия максимизации соответствующим образом подобранного функционала, укладываются в рамки упомянутого в § 1.2 экстремального подхода к формулировке основных проблем математической статистики.

В целом оцифровка качественных переменных является задачей сложной как в вычислительном, так и в чисто статистическом плане. Отдельные аспекты этой проблемы обсуждаются в работах .



В эмпирическом исследовании могут встречаться, к примеру, следующие переменные (указано их наиболее вероятное кодирование):

Pol: 1 = мужской

2 = женский

Семейное положение: 1 = холост/не замужем

2 = женат/замужем

3 = вдовец/вдова

4 = разведен(а)

Курение 1 = некурящий

2 = изредка курящий

3 = интенсивно курящий

4 = очень интенсивно курящий.

Вес. И т.д.

Рассмотрим сначала графу Пол. Мы видим, что назначение соответствия цифр 1 и 2 обоим полам абсолютно произвольно, их можно было поменять местами или обозначить другими цифрами.

Мы, конечно, не имеем в виду, что женщины стоят на ступеньку ниже мужчин, или мужчины значат меньше, чем женщины. Следовательно, отдельным числам не соответствует никакою эмпирического значения. В этом случае говорят о переменных, относящихся к номинальной шкале . В нашем примере рассматривается переменная с номинальной шкалой, имеющая две категории. Такая переменная имеет еще одно название- дихотомическая.

Такая же ситуация и с переменной Семейное положение. Здесь также соответствие между числами и категориями семейного положения не имеет никакого эмпирического значения. Но в отличии от Пола, эта переменная не является дихотомической - у нее четыре категории вместо двух.

Возможности обработки переменных, относящихся к номинальной шкале очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной Семейное положение, совершенно бессмысленен. Переменные, относящиеся к номинальной шкале часто используются для группировки, с помощью которых совокупная выборка разбивается по категориям этих переменных. В частичных выборках проводятся одинаковые статистические тесты, результаты которых затем сравниваются друг с другом.

В качестве следующего примера рассмотрим переменную Курение. Здесь кодовым цифрам присваивается эмпирическое значение в том порядке, в котором они расположены в списке. Переменная Курение, в итоге, сортирована в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий - больше, чем умеренный курильщик и т.д. Такие переменные, для которых используются численные значения, соответствующие постепенному изменению эмпирической значимости, относятся к порядковой шкале .

Однако эмпирическая значимость этих переменных не зависит от разницы между соседними численными значениями. Так, несмотря на то, что разница между значениями кодовых чисел для некурящего и изредка курящего и изредка курящего и интенсивно курящего в обоих случаях равна единице, нельзя утверждать, что фактическое различие между некурящим и изредка курящим и между изредка курящим и интенсивно курящим одинаково. Для этого данные понятия слишком расплывчаты.

Кроме частотного анализа, переменные с порядковой шкалой допускают также вычисление определенных статистических характеристик, таких как медианы. В некоторых случаях возможно вычисление среднего значения. Если должна быть установлена связь (корреляция) с другими переменными такого рода, для этой цели можно использовать коэффициент ранговой корреляции.

Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты, формулы которых оперируют рангами.

Рассмотрим теперь переменную Рост. Его абсолютные значения отображают порядковое отношение между респондентами, но и разница между двумя значениями также имеет эмпирическую значимость. Например, если у Ивана рост равен 180, а у Федора - 170, а у Петра - 160, можно сказать, что Иван в сравнении с Федором выше, и еще выше Петра. Такие переменные, у которых есть разность (интервал) между двумя значениями и она имеет эмпирическую значимость, относятся к интервальной шкале . Они могут обрабатываться любыми статистическим методами без ограничений. Так, к примеру, среднее значение является полноценным статистическим показателем для характеристики таких переменных. К таким переменным относятся Вес, Размер и т.д.

Очень часто переменныеинтервальной шкалы , к которой относятся данные, могут называться шкалой отношений . Поэтому в настройках Define Variable (определение переменных) обе эти шкалы определяютсяя как Scale (Метрическая).

Теперь необходимо обосновать и определить тип шкал для наших переменных:Vozrast (Возраст); Ves (Вес); Rost (Рост); Noga (Размер буви); Pol (Пол); Volos (Цвет волос); Glaz (Цвет глаз).

Vozrast (Возраст),Ves (Вес), Rost (Рост) - интервальная шкала .

Pol (Пол), Volos (Цвет волос); Glaz (Цвет глаз).- номинальная шкала.

После выяснения этого важнейшего вопроса необходимо ввести тип шкалы в таблицу для наших переменных. Делается все очень просто: двойной клик по наименованию переменной и появляется окно Define Variable (определение переменных). В этом окне выбираем рамку Measurement (измерение) и устанавливаем кнопку в одно из трех состояний для каждой переменной.

Переменные: Vozrast (Возраст),Ves (Вес), Rost (Рост) будут иметь значение Scale.

Переменные: Pol (Пол), Volos (Цвет волос); Glaz (Цвет глаз) будут иметь значение Nominal.

Переменных относящихся к шкале Ordinal (порядковая) у нас не будет.

Со шкалой переменных мы разобрались. Теперь продолжим дальше определение переменных.

Type (тип переменных), чтобы задать тип переменной, щелкните по кнопке Туре . Откроется диалоговое окно Define Variable Type (Определение типа переменной). Примите предлагаемую настройку Numeric (Численный) и установите длину "2" для переменной Vozrast и количество десятичных разрядов "0", так как в этой переменной будут храниться только значения возраста. Подтвердите настройку кнопкой ОК и перейдите к следующему полю переменной Ves. Учитывая цифровую кодировку значений переменных, наши переменные все будут Numeric.

Labels ..(Метка переменной) - это название, позволяющая описать переменную более подробно. После клика по кнопке Labels .. появляется диалоговое окно, и в него вы можете занести до 256 символов. В метках переменных различаются прописные и строчные буквы. Они отображаются в том виде, в каком были введены. Для переменной Vozrast введите в качестве метки «данные о возрасте студента (ки)».

В этой же опции введем Метки значений (Values). Метки значений - это название, позволяющее более подробно описать возможные значения переменной. Так, например, в случае переменной Pol можно задать метку "женский" для значения "1" и метку "мужской" для значения "2". Подтвердите настройку по умолчанию. Впрочем, ввод данных также можно подтвердить клавишей .

Missing values (Пропущенные значения). В SPSS допускаются два вида пропущенных значений:

Пропущенные значения, определяемые системой (System-defined missing values): Если в матрице данных есть незаполненные численные ячейки, система SPSS самостоятельно идентифицирует их как пропущенные значения. Этот факт отображается в матрице данных с помощью запятой (,).

Пропущенные значения, задаваемые пользователем (User-defined missing values): Если в определенных случаях у переменных отсутствуют значения, например, если на вопрос не был дан ответ, ответ неизвестен, или существуют другие причины, пользователь может с помощью кнопки Missing объявить эти значения как пропущенные. Пропущенные значения можно исключить из последующих вычислений. В нашем примере пропущенным значением, определяемым пользователем мы объявим вариант ответа "0" (нет данных) для переменной Pol.

Column Format (формат столбцов). Поле Columns определяет ширину, которую будет иметь в таблице данный столбец при отображении значений. Ширину столбца также можно изменить непосредственно в окне редактора данных. Для этого поместите указатель мыши на разделитель между двумя заголовками столбцов с именами переменных. Вид указателя изменится. Появившаяся двойная стрелка указывает, что соответствующий столбец можно расширить или сузить путем перетаскивания.

Таким образом, определив все параметры переменных вы можете приступать к вводу собранных данных по своей группе.


5.2. Типы статистических шкал

В эмпирическом исследовании могут встречаться, к примеру, следующие переменные (указано их наиболее вероятное кодирование):

Пол 1 = мужской
2 = женский
Семейное положение 1 = холост/не замужем
2 = женат/замужем
3 = вдовец/вдова
4 = разведен(а)
Курение 1 = некурящий
2 = изредка курящий
3 = интенсивно курящий
4 = очень интенсивно курящий
Месячный доход 1 = до 3000 DM
2 = 3001 - 5000 DM
3 = более 5000 DM
Коэффициент интеллекта (I.Q.)
Возраст (лет)

Рассмотрим сначала графу "Пол" . Мы видим, что назначение соответствия цифр 1 и 2 обоим полам абсолютно произвольно, их можно было поменять местами или обозначить другими цифрами. Мы, конечно, не имеем в виду, что женщины стоят на ступеньку ниже мужчин, или мужчины значат меньше, чем женщины. Следовательно, отдельным числам не соответствует никакою эмпирического значения. В этом случае говорят о переменных, относящихся к номинальной шкале . В нашем примере рассматривается переменная с номинальной шкалой, имеющая две категории. Такая переменная имеет еще одно название - дихотомическая .

Такая же ситуация и с переменной "Семейное положение" . Здесь также соответствие - между числами и категориями семейного положения не имеет никакого эмпирического значения. Но в отличии от Пола, эта переменная не является дихотомической - у нее четыре категории вместо двух. Возможности обработки переменных, относящихся к номинальной шкале очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной Семейное положение, совершенно бессмысленен. Переменные, относящиеся к номинальной шкале часто используются для группировки, с помощью которых совокупная выборка разбивается по категориям этих переменных. В частичных выборках проводятся одинаковые статистические тесты, результаты которых затем сравниваются друг с другом.

В качестве следующего примера рассмотрим переменную "Курение" . Здесь кодовым цифрам присваивается эмпирическое значение в том порядке, в котором они расположены в списке. Переменная Курение, в итоге, сортирована в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий - больше, чем умеренный курильщик и т.д. Такие переменные, для которых используются численные значения, соответствующие постепенному изменению эмпирической значимости, относятся к порядковой шкале .

Однако эмпирическая значимость этих переменных не зависит от разницы между соседними численными значениями. Так, несмотря на то, что разница между значениями кодовых чисел для некурящего и изредка курящего и изредка курящего и интенсивно курящего в обоих случаях равна единице, нельзя утверждать, что фактическое различие между некурящим и изредка курящим и между изредка курящим и интенсивно курящим одинаково. Для этого данные понятия слишком расплывчаты.

К классическими примерами переменных с порядковой шкалой относятся также переменные, полученные в результате объединения величин в классы, как "Месячный доход" в нашем примере.

Кроме частотного анализа, переменные с порядковой шкалой допускают также вычисление определенных статистических характеристик, таких как медианы. В некоторых случаях возможно вычисление среднего значения. Если должна быть установлена связь (корреляция) с другими переменными такого рода, для этой цели можно использовать коэффициент ранговой корреляции .

Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты , формулы которых оперируют рангами.

Рассмотрим теперь "Коэффициент интеллекта (IQ) ". Не только его абсолютные значения отображают порядковое отношение между респондентами, но и разница между двумя значениями также имеет эмпирическую значимость. Например, если у Ганса IQ равен 80, у Фрица - 120 и у Отто - 160, можно сказать, что Фриц в сравнении с Гансом настолько же интеллектуальнее насколько Отто в сравнении с Фрицем (а именно - на 40 единиц IQ). Однако, основываясь только на том, что значение IQ у Ганса в два раза меньше, чем у Отто, исходя из определения IQ нельзя сделать вывод, что Отто вдвое умнее Ганса.

Такие переменные, у которых разность (интервал) между двумя значениями имеет эмпирическую значимость, относятся к интервальной шкале . Они могут обрабатываться любыми статистическим методами без ограничений. Так, к примеру, среднее значение является полноценным статистическим показателем для характеристики таких переменных.

Наконец, мы достигли наивысшей статистической шкалы, на которой эмпирическую значимость приобретает и отношение двух значений. Примером переменной, относящейся к такой шкале является "Возраст ": если Максу 30 лет, а Морицу 60, можно сказать, что Мориц вдвое старше Макса. Шкала, к которой относятся данные называется шкалой отношений . К этой шкале относятся все интервальные переменные, которые имеют абсолютную нулевую точку. Поэтому переменные относящиеся к интервальной шкале, как правило, имеют и шкалу отношений.

Подводя итоги, можно сказать, что существует четыре вида статистических шкал, на которых могут сравниваться численные значения:

На практике, в том числе в SPSS, различие между переменными, относящимися к интервальной шкале и шкале отношений обычно несущественно. То есть в дальнейшем практически всегда речь будет идти о переменных, относящихся к интервальной шкале .

  • Туровец О.Г. Маркетинговые исследования рынка: практикум (Документ)
  • Беляев В.И. Маркетинг: основы теории и практики (Документ)
  • Зубец А.Н. Маркетинговые исследования страхового рынка (Документ)
  • Методическое пособие - SPSS: компьютерная обработка данных (Документ)
  • Беляевский И.К. Маркетинговые исследования (Документ)
  • Алексеев А.А. Маркетинговые исследования на рынке услуг (Документ)
  • n1.doc

    2.3. ТИПЫ ШКАЛ ИЗМЕРЕНИЯ ПЕРЕМЕННЫХ

    Для работы с данными в SPSS важно знать, по шкале какого типа измеряются исследуемые переменные. Это необходимо для выбора метода анализа данных и определения возможности расчета статистических показателей (табл. 2.3).

    Существует четыре типа шкал измерения переменных:

    Номинальная шкала.

    Порядковая шкала.

    Интервальная шкала.

    Примеры переменных, измеряемых по шкалам разных типов

    Относительная шкала.

    Таблица 2.3


    Шкала

    Переменная

    Значения переменной

    Номинальная

    Пол

    (дихотомическая переменная)


    • «1» = мужской

    • «2» = женский

    Производитель продукта

    «X»


    • «1» = производитель А

    • «2» производитель В

    • «3» производитель С

    Порядковая

    Класс полета

    • «1» = первый класс

    • «2» = бизнес-класс

    • «3» =эконом-класс

    Категории потребителей по уровню дохода

    • «1» = до 1000 евро

    • «2» = от 1001 до 3000 евро

    • «3» = свыше 3000 евро

    Интервальная

    Коэффициент интеллекта

    (IQ)


    ...«120»...

    Относительная

    Уровень дохода

    ... «2100» евро...


    Номинальная шкала характеризуется самым низким уровнем измерения переменных. Все значения переменной, измеряемой по номинальной шкале, находятся на одном уровне. По этой шкале измеряются, как правило, качественные характеристики объекта исследования. Между значениями переменной, измеряемой по номинальной шкале, не существует логического порядка. Например, в качестве ответа на вопрос анкеты: «Какого производителя продукта «X» вы предпочитаете?» - может быть предложено несколько вариантов: «Производитель А», «Производитель В», «Производитель С» и т.д. В этом случае, с точки зрения исследователей, все предложенные производители являются рав нозначными. Числовые коды («1», «2», «3»...) могут присваиваться значениям метки переменной в любом порядке.

    Переменные, измеряемые по номинальной шкале и имеющие всего два значения (например, «мужчины» и «женщины»), называются дихотомическими.

    Порядковая шкала является второй по уровню измерения переменных. Значения переменной, измеряемой по порядковой шкале, не являются равнозначными, они находятся на равных уровнях по отношению друг к другу и подчиняются логическому числовому порядку.

    Порядковая шкала характеризуется низким уровнем измерения переменных, поскольку является шкалой с неравными интервальными отрезками. Совершенно четко можно утверждать, что уровень обслуживания авиапассажиров первого класса выше, чем бизнес-класса, но насколько именно, неизвестно. Также разница в обслуживании между первым и бизнес-клас- сом, между бизнес- и эконом-классом может быть различной (см. табл. 2.3).

    Низкий уровень измерения переменных по порядковой шкале можно проиллюстрировать на примере переменной «Категории потребителей по уровню дохода». Потребители примерно с одинаковым уровнем дохода (например, 950 и 1050 евро) оказываются в разных категориях, а потребители с существенной разницей по уровню дохода (например, 1050 и 2950 евро) оказываются в одной категории.

    Интервальная шкала является третьей по уровню измерения переменных. В отличие от порядковой шкалы она является шкалой с равными интервальными отрезками. Это позволяет осуществлять количественное сравнение значений переменной, т.е. можно определить, насколько одно значение больше или меньше (лучше или хуже, длиннее или короче и т.д.) другого.

    Характерной чертой интервальной шкалы является отсутствие «естественного нуля», т.е. исходная точка измерения является относительной. Примерами интервальной шкалы являются шкала Цельсия и календарь. По шкале Цельсия за «0» принята температура замерзания воды, однако за «0» можно было принять любую другую температуру. Существуют также различные календари с одинаковым количеством дней в году, но разным временем начала года.

    В маркетинговых исследованиях очень часто используется рейтинговая шкала, когда респондентам предлагается оценить по балльной шкале (например, от 1 до 7 баллов) утверждение, продукт, бренд и т.п. Строго говоря, рейтинговая шкала является порядковой, поскольку балльные оценки субъективны. Одинаковые балльные оценки в действительности отображают разный уровень измеряемой переменной. Например, студенты, получившие одинаковые оценки на экзамене, в действительности могут иметь разный уровень знаний.

    Очень часто при проведении исследований шкала бапльных оценок рассматривается как интервальная. В основе этого лежит предположение, что интервальные отрезки шкалы балльных оценок одинаковы. Это дает возможность рассчитать соеднее значение переменной (например, средний балл успеваемости студентов). Расчет средней величины (среднеарифметической) для показателя, измеряемого по порядковой шкале, невозможен. Например, не существует показателя «средний класс» полета (см. табл. 2.3).

    Относительная шкала характеризуется самым высоким уровнем измерения переменных. Ее основное отличие от интервальной шкалы заключается в существовании «естественного нуля», который можно интерпретировать как отсутствие значения переменной. Например, если заработная плата равна нулю, это значит, что ее не выплачивают.

    По относительной шкале измеряются количественные характеристики. Это могут быть как физические характеристики (объем, вес, скорость и пр.), так и экономические характеристики (доход, издержки, цена и пр.).

    Относительная шкала получила свое название благодаря возможности сравнения значений переменной по отношению друг к другу, что невозможно при использовании интервальной шкалы измерения. Например, нельзя сказать, что человек, у которого коэффициент интеллекта (iQ) равен 160, в два раза умнее человека у которого этот показатель составляет 80. Но можно сказать, что заработная плата 1000 евро в два раза больше заработной платы 2000 евро.

    При выборе типа шкалы измерения переменных в SPSS (столбец « Measure » во вкладке редактора данных «Variable View ») интервальная шкала и шкала отношений объединяются в один вид - метрическую шкалу ( Scale ).

    При построении в SPSS интерактивных графиков номинальная ( Nominal ) и порядковая ( Ordinal ) шкалы объединяются в «категориальный» тип (табл. 2.4).

    Таблица 2.4


    Шкала

    Характеристики

    Категориаль-ная

    Номинальная {Nominal)

    Служит для классификации качественных показателей. Все значения измеряемой переменной равнозначны

    Порядковая ( Ordinal )

    Служит для построения значений измеряемой переменной в определенной последовательности. Шкала с неравными интервальными отрезками

    Метрическая (Scale)

    Интервальная

    Шкала с равными интервальными отрезками и условной точкой отсчета

    Относительная

    Шкала с равными интервальными отрезками и безусловной точкой отсчета


    Чем выше уровень измерения переменной, тем богаче ее информационная содержательность и тем больше возможностей осуществления расчетов и определения статистических показателей.

    Числовые коды («1», «2», «3»...) значений метки переменной, измеряемой по номинальной или порядковой шкале, не могут рассматриваться как числа, они представляют собой лишь некие числовые символы. Поскольку они не являются числами, с ними нельзя производить никаких арифметических операций (сложение, вычитание, деление, умножение).

    Что касается статистических показателей, характеризующих распределение величины, измеряемой по номинальной шкале, можно провести частотный анализ (Frequencies ) и определить моду ( Mode ). Частоты показывают, например, сколько респондентов предпочитают того или иного производителя продукта «Л». Мода обозначает самую многочисленную группу респондентов, предпочитающих определенного производителя продукта «Л».

    Для переменных, измеряемых по порядковой шкале, кроме вышеуказанных статистических показателей можно определить медиану и средневзвешенное. Значения меток переменной, измеряемой по интервальной шкале, рассматриваются как числа. С ними можно производить такие арифметические операции, как сложение и вычитание.

    Что касается возможности расчета статистических показателей, характеризующих распределение переменной, измеряемой по интервальной шкале, кроме моды и медианы можно также определить стандартное отклонение ( Std . deviation ) и среднеарифметическое ( Mean ). (Средневзвешенное значение переменных с интервальной шкалой равно среднему арифметическому.)

    При расчете статистических показателей, характеризующих распределение переменной, измеряемой по интервальной шкале, не рассчитывается такой показатель, как сумма ( Sum ). Например, не рассчитывается «суммарный коэффициент интеллекта» для группы студентов, такого показателя не существует.

    Значения меток переменной, измеряемой по шкале отношений, выражаются в числах, с ними можно производить любые арифметические операции. Также можно определять любые статистические показатели, характеризующие распределение переменной.

    Возможна трансформация имеющихся данных, измеряемых по шкале более высокого уровня, в данные, измеряемые по шкале более низкого уровня, но не наоборот. Например, значения переменной «Уровень дохода», измеряемой по относительной шкале, можно трансформировать в значения переменной «Категории потребителей по уровню дохода», измеряемой по порядковой шкале (см. табл. 2.3). Подобная трансформация данных, производимая в целях упрощения процедуры анализа и наглядности представления результатов, неизбежно связана с частичной потерей информации и снижением точности расчетов.

    На практике, в том числе при применении SPSS , различие между переменными, измеряемыми по интервальной и относительной шкалам, обычно несущественно.

    Во многих учебниках по SPSS метрические переменные (Scale) определяются как интервальные.

    ип шкалы измерения переменных определяет возможность применения того или иного метода анализа данных. Все методы статистического анализа делятся на две группы:

    методы оценки связи между переменными;

    методы выявления структуры данных.

    Методы выявления структуры данных характеризуются тем, что исходные данные для проведения анализа не содержат информации (предположений) о существовании взаимосвязей между исследуемыми переменными. К таким методам относятся, например, кластерный и факторный анализ.

    Методы оценки связи между переменными устанавливают влияние одной или нескольких независимых переменных на одну или несколько зависимых переменных. С точки зрения теории статистики существуют правила применения того или иного метода оценки связи между переменными в зависимости от типа шкалы их измерения (табл. 2.5).


    Таблица 2.5

    Методы оценки связи между переменными и типы шкал измерения переменных

    (Backhaus, Erichson, Ptinke, Weiber, 2000.S. Ш )


    Независимые переменные

    Метрическая шкала

    Номинальная шкала

    Зависимые переменные

    Метрическая шкала

    Регрессионный анализ

    Дисперсионный анализ

    Номинальная шкала

    Дискриминантный анализ

    Таблицы сопряженности

    Применение некоторых основных методов статистического анализа в SPSS будет более подробно рассмотрено в следующих подразделах.

    КОНТРОЛЬНЫЕ ВОПРОСЫ

    Что представляют собой таблицы, содержащиеся во вкладках редактора данных SPSS «Свойства переменных» ( Variable View ) и «Значения переменных» ( Data View )?

    Каким образом осуществляется процедура занесения в исходный файл данных SPSS меток переменных?

    Чем отличаются пропущенные значения, определяемые системой ( system - defined truss , ig values ) от пропущенных значений, задаваемых пользователем программы { user - defined missing values )!

    Какие три типа шкал измерения переменных используются в SPSS и каким образом задается тип шкалы измерения переменной при формировании исходного файла данных?

    Чем отличаются дихотомическая и категориальная кодировка данных?

    Почему при занесении в исходный файл данных SPSS ответов ка многовариантные (безальтернативные) вопросы необходимо использовать дихотомическую кодировку данных?

    С какой целью и в каких случаях применяется двойная запись данных при создании исходного файла SPSS ?

    По шкале какого типа измеряются следующие переменные: а) частота приобретения товара « A »

    реже 1-го раза в неделю;

    1 - 3 раза в неделю;

    чаще 3-х раз в неделю;

    Б) семейное положение

    Замужем/женат;

    Не замужем/ холост;

    Разведена/разведен;

    В) оценка уровня сервисного обслуживания

    Очень высокая;

    Высокая;

    Средняя;

    Очень низкая;

    Г) возраст (23 года, 24 года, 32 года, 57 лет)?

    1. Как отличаются друг от друга переменные, измеряемые по разным типам шкал, относительно возможности произведения арифметических операций и расчета статистических показателей?

    Нелюбимый муж