Понятие репрезентативность выборки обозначает что
Понятие выборки в психологии. Репрезентати́вность и нерепрезентативность выборки. Примеры
Любое психологическое исследование строится на том, что автор проекта осуществляет некий эксперимент или наблюдение за конкретной группой лиц, предварительно определив цель мероприятия, объект, методологию и пр.
Любое психологическое исследование строится на том, что автор проекта осуществляет некий эксперимент или наблюдение за конкретной группой лиц, предварительно определив цель мероприятия, объект, методологию и пр.
Прежде чем реализовать свои планы: будь то опрос, анкетирование, беседа или наблюдение, важно правильно определить объект исследования. В большинстве психологических изысканий авторы научной работы изучают поведение, общение, особенности развития и иные действия конкретных индивидов или группы лиц. Притом испытуемых делят на несколько групп по схожим признакам (пол, возраст, привычки и пр.). Именно такие группы объектов называют в психологии выборками.
Какие выборки бывают?
Выборка в психологии означает выбор конкретных элементов или группы для проведения исследования из конкретного множества. Выборочный метод исследования позволяет конкретизировать причины определенных процессов, явлений, поведения и следствий. Притом при оценке результатов исследования в отношении конкретной группы в дальнейшем исследователь может распространить действие собственной гипотезы на большую область с учетом определенных условий и критериев.
Проведение исследования
Исследовать полностью все человечество для определения некоего направления, тенденции просто нереально. Поэтому выборка – актуальный способ для проведения качественного исследования, позволяющая выявить нужные закономерности или получить данные об их опровержении.
Эксперты выделяют следующие разновидности выборок в психологических исследованиях:
По сути, выборка – это целевая аудитория эксперимента, призванная помочь исследователю в достижении намеченной цели.
Нужна помощь преподавателя?
Мы всегда рады Вам помочь!
Как происходит формирование выборки?
Процесс формирования выборки напрямую зависит от темы и цели исследования, а также определения объекта исследования. Для начала автору научной работы нужно определить:
Как только автор сумеет ответить на эти вопросы, он приступит к конкретным действиям: планирование эксперимента, разработка плана мероприятий и критериев оценки и пр.
Формируем выборку для исследования
Самым важным этапом является определение выборки. Ученый должен понять, какие группы подлежат анализу и оценке, по каким критериям подбирать испытуемых (возраст, пол, работа образование, привычки, состояние здоровья и пр.), что брать во внимание (какие факторы оказывают воздействие) и пр.
В большинстве случаев при формировании выборки в психологическом исследовании учитывают:
Все условия и параметры, предъявляемые по отношению к испытуемым лицам и выборке в целом, способствуют тому, что исследователь в дальнейшем сможет собрать максимум полезных и достоверных данных для анализа.
Что значит репрезентативность выборки?
Репрезентативность представляет собой такое свойство выборки, которое позволяет распространить полученные результаты исследования, проведенного в отношении частных подгрупп, на всю генеральную совокупность. Данное правило успешно распространяется на качественные и количественные исследования при условии их грамотной реализации.
Что такое репрезентативность выборки?
Если распространить полученные результаты исследования невозможно на более широкий круг, то такая выборка будет нерепрезентативной.
Фактически репрезентативность выборки демонстрирует связь выборки с генеральной совокупностью.
Приведем пример репрезентативной и нерепрезентативной выборки.
Допустим, Вы провели социологический опрос населения. Ключевой вопрос исследования – устраивает ли Вас текущий уровень зарплаты? Допустим, в опросе приняло участие 100 человек. В результате Вы получили следующие данные: 18% респондентов негативно относятся к жаре, более 70% — положительно, 12% — затруднились ответить. В данном виде невозможно распространить результаты опроса на всех людей, так как в нем могли принять участие и неработаюшие люди, и иждивенцы и пр. Значит, данная выборка нерепрезентативна.
Проведение исследования
Но если изначально принять определенные критерии по отношению к выборке: объектом исследования могут быть только трудоустроенные лица в возрасте 18-65 лет, то полученные результаты уже будет можно распространить на все население в целом. В данном случае выборка будет считаться репрезентативной.
Таким образом, чтобы результаты исследования были не просто узкими и частными, но и ими можно было пользоваться в дальнейшем. Важно, чтобы выборка была репрезентативной. Для этого необходимо устанавливать грамотные и правильные параметры по отношению к испытуемым, исходя из целей и задач научной работы.
Трудности с учебой?
Помощь в написании студенческих и
аспирантских работ!
Понятие репрезентативной выборки
Репрезентативная выборка– способна повторять (представлять) генеральную совокупность по всем основным характеристикам (пол, возраст, образование, доход, род занятий и т.д.) и поэтому позволяет экстраполировать (распространить) на всю генеральную совокупность выводы, сделанные на основе опроса выборочной совокупности.
Репрезентативность выборки – способность выборки правильно отражать «состояние дел» в генеральной совокупности, из которой она извлечена и для изучения которой она предназначена. Р.в. делает исследование одновременно и представительным (точным по выводам), и экономичным.
62 Краткая характеристика выборки «снежный ком», её репрезентативность.
Выборка «снежный ком» – особый, мало распространенный вид выборки (способ поиска потенциальных респондентов), применяемый только в том случае, если исследователю не известны параметры генеральной совокупности. В. «с.к.» применяется для опросов каких-либо социальных меньшинств, которые: не значатся в картотеках, списках (или эти списки не доступны); не живут на определенных ограниченных пространствах; не собираются в каком-то определенном месте (из 100 единиц репрезентативной выборки населения «нужными» респондентами являются не более двух-трёх). Для составления выборки ведется специальный поиск нескольких «репрезентативных» лиц, а с их помощью находят других. И так «снежинка за снежинкой» наращивается «снежный ком».
Краткая характеристика квотной выборки, её репрезентативность.
Выборка квотная – вид социологической выборки, при построении которой используются имеющиеся до начала исследования статистические данные о контрольных признаках элементов генеральной совокупности, эти данные выступают в качестве квот, по которым интервьюеры отбирают респондентов.
Краткая характеристика гнездовой выборки, её репрезентативность.
Выборка гнездовая – вид социологической выборки, в которой в качестве объектов для исследования отбираются группы (гнёзда) – классы, студенческие группы, бригады и т.д. – иногда полярные по исследуемым качествам: передовые–отстающие, опытные–начинающие.
Репрезентативность выборочных данных
Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. В статье рассказываем подробнее об этом важном свойстве.
Репрезентативность — важнейшее свойство данных, используемых для построения аналитических моделей. Оно отражает способность данных представлять зависимости и закономерности исследуемой предметной области, которые должна обнаружить и научиться воспроизводить построенная модель. Иными словами, репрезентативность показывает, содержат ли анализируемые данные достаточно информации для построения качественной модели, а так же, может ли эта информация быть использована алгоритмом построения модели.
Репрезентативность генеральной совокупности отражает способность совокупности описывать существенные свойства, зависимости и закономерности объектов, процессов и явлений предметной области. Она достигается за счёт правильной организации сбора и консолидации первичных данных.
Репрезентативность выборки описывает способность выборочных данных отражать структурные свойства совокупности, из которой они были извлечены. Т.е. даёт ответ на вопрос: можно ли в исследовании заменить совокупность на выборку без значимого ухудшения результатов анализа. Репрезентативность выборки достигается с помощью правильного выбора метода сэмплинга.
Таким образом, репрезентативность выборки касается только воспроизведения характеристик совокупности. Если сама исходная совокупность плохо представляет предметную область, то, даже если полученная из неё выборка будет репрезентативной, построить на её основе корректную с точки зрения предметной области модель будут невозможно.
Например, пусть компания собирается вывести на рынок новый продукт. При этом она хочет провести маркетинговые исследования в виде опроса клиентов о желаемых характеристиках и параметрах продукта. Число клиентов компании насчитывает сотни тысяч человек (генеральная совокупность), поэтому опросить их всех не представляется возможным физически, не является целесообразным экономически.
Поэтому компания формирует выборку клиентов для проведения опроса. Если мнение клиентов из выборки отражает мнение большинства клиентов и может быть использовано для принятия решений о параметрах и характеристиках нового продукта, то такая выборка будет репрезентативной.
Независимо от того, в какой предметной области и какими методами производятся выборочные исследования, отсутствие репрезентативности выборки приводит к некорректным результатам. Поэтому в процессе анализа необходимо убедиться, что сформированная выборка репрезентативна.
Таким образом, репрезентативная выборка — это такая выборка, в которой представлены все подгруппы, важные для исследования. Помимо этого, характер распределения рассматриваемых параметров в выборке должен быть таким же, как в генеральной совокупности.
Особенно важным является обеспечение репрезентативности в машинном обучении, для построения моделей классификации и регрессии используется несколько выборок: обучающая, тестовая и валидационная, которые тем или иным способом отбираются из исходного набора данных. И все эти выборки должны быть репрезентативными.
Обеспечение репрезентативности
В основе построения репрезентативной выборки лежит правильный выбор используемого алгоритма сэмплинга. При этом размер выборки, хотя и является важным, сам по себе не гарантирует ее репрезентативности. Например, интернет-опрос может показать, что 100% людей пользуется интернетом, хотя это не соответствует действительности (т.е. репрезентативность нарушена).
Выделяют качественную (структурную) и количественную репрезентативность.
Рисунок 1. Количественная и качественная репрезентативность
Качественная репрезентативность
Качественная репрезентативность показывает, что все группы, присутствующие в совокупности, будут представлены и в выборке. Для этого каждый элемент совокупности должен иметь равную вероятность, быть выбранным, а сама выборка должна производиться из однородных групп.
Наиболее оптимальным способом формирования репрезентативной выборки является простой случайный сэмплинг, поскольку в этом случае у любого представителя генеральной совокупности будет одинаковая вероятность попасть в выборку.
Например, при формировании выборки клиентов для опроса, в нее попадут люди из различных социальных групп пропорционально их долям в генеральной совокупности. В результате, выборка будет представлять собой уменьшенную копию генеральной совокупности.
Случайность отбора респондентов в выборку может обеспечивается различными методами. Например, для опроса клиентов берутся номера клиентских карт, которые случайным образом отбираются компьютерной программой с использованием генератора случайных чисел.
Однако, на практике применить простой случайный сэмплинг не всегда представляется возможным. Это связано с тем, что генеральная совокупность может быть неоднородной и будет содержать группы объектов.
Например, если опрос будет проводиться по телефону, то большинство откликов будет получено от пенсионеров, как людей менее занятых и более склонных идти на контакт. Очевидно, что если опрос проводится о продукте, ориентированном на молодёжь, то ценность мнения пенсионеров вряд ли будет высокой.
Чтобы решить эту проблему, можно использовать случайный стратифицированный сэмплинг, когда исходная совокупность сначала разделяется на слои (страты) по некоторому признаку. Например, клиенты могут быть стратифицированы по возрасту. Тогда страты могут быть сформированы пропорционально доле объектов в группах, что позволит уменьшить или увеличить долю той или иной группы, сохранив репрезентативность.
Другой вариант — использовать кластерный (групповой) сэмплинг, когда клиенты предварительно разбиваются на качественно однородные группы — кластеры, и отбор производится из каждого кластера независимо. При этом вероятность отбора может быть одинаковой для всех кластеров, или различной. Можно некоторые кластеры вообще исключить из отбора. В нашем примере клиенты могут быть разбиты на кластеры по социальному статусу — студенты, работающие, пенсионеры, военнослужащие и т.д. Таким образом, долю, пенсионеров в выборке, можно уменьшить или совсем исключить.
Количественная репрезентативность
Количественная репрезентативность показывает, является ли достаточным число элементов выборки для представления характеристик генеральной совокупности с заданной погрешностью. Например, при неизвестной величине генеральной совокупности, когда результат отражается в виде показателя относительной доли, число элементов выборки, обеспечивающее количественную репрезентативность, может быть вычислено по формуле:
где t — доверительный коэффициент, показывающий, какова вероятность того, что размеры показателя не будут выходить за границы предельной ошибки, p — доля единиц наблюдения, обладающих изучаемым признаком, q=1−p — доля единиц наблюдения, не обладающих изучаемым признаков, Δ — допустимая ошибка выборки.
n=\frac<2^<2>\cdot 0,25\cdot 0,75><0,05^<2>>=300 заёмщиков.
Если же показатель — не относительная средняя величина просроченной задолженности по всем клиентам, то число наблюдений будет:
Если используется выборка без возврата и размер генеральной совокупности известен, то для определения необходимого размера случайной выборки при использования относительных величин (долей) применяется формула:
n=\frac
где N — число наблюдений генеральной совокупности. Для средних значений исследуемой величины формула примет вид:
n=\frac<2^<2>\cdot 0,25\cdot 0,75\cdot 500><0,05^<2>\cdot 500+2^<2>\cdot 0,25\cdot 0,75>\approx 188 клиентов.
Таким образом, необходимый объем выборки при безвозвратном отборе меньше, чем при возвратном (соответственнo, 188 и 300).
В целом, число наблюдений, требуемое для получения репрезентативной выборки, изменяется обратно пропорционально квадрату допустимой ошибки.
Методы оценки репрезентативности
Формально, выборку называют репрезентативной, когда результат оценки определенного параметра по данной выборке совпадает с результатом, оцененным по генеральной совокупности с учетом допустимой погрешности (ошибки репрезентативности). Если выборочная оценка отличается от оценки по генеральной совокупности более, чем на заданный уровень погрешности, то такая выборка считается нерепрезентативной.
Репрезентативность оценивается по отдельным параметрам выборки и совокупности. При этом выборка может оказаться репрезентативной по одним параметрам и нерепрезентативной по другим. Поэтому говорить о репрезентативности как о дихотомическом свойстве выборки (репрезентативна или нерепрезентативна) было бы не верно: выборка может одни параметры генеральной совокупности воспроизводить более точно, а другие — менее. Поэтому правильнее говорить о мере репрезентативности определённой выборки по конкретным параметрам.
Основным моментом в определении репрезентативности выборки является обоснование погрешности, в пределах которой выборка признается репрезентативной. Одна и та же выборка может быть достаточно репрезентативной для одной задачи и недостаточно для другой. Кроме этого, нужно проверять репрезентативность выборки по параметрам, имеющим существенное значение для предметной области исследования. Например, в маркетинговых исследованиях для анализа клиентов важны пол, возрасту, образование и пр.
Следует отметить, что далеко не все задачи бизнес-аналитики требуют строгого статистического подтверждения репрезентативности выборок. Как правило, это задачи точного прогнозирования. Что касается обычных задач, связанных, например, с определением предпочтений действующих и потенциальных клиентов, то они решаются охватом типичной клиентуры, которую можно найти непосредственно в торговых центрах.
Статистические методы
Данные, полученные в результате выборочных обследований, являются реализациями случайных величин (возраст, стаж работы, доход и т.д.). Обычно, на практике считают, что выборка является репрезентативной, если её статистические параметры (среднее значение, дисперсия, среднеквадратичное отклонение и т.д.) отличаются от параметров совокупности не более, чем на 5%.
Однако, данный подход применим только при условии, что вся генеральная совокупность известна и для неё можно вычислить статистические характеристики. Но на практике такое встречается редко, поскольку часть потенциально интересных для исследования объектов оказывается недоступной для наблюдения.
В этом случае прибегают к формированию двух независимых выборок, вычисляют и сравнивают их характеристики, и если они совпадают (не различаются значимо), то выборки считаются репрезентативными. В теоретическом плане такой подход является достаточно привлекательным, однако, на практике сложно реализуем. Во-первых, формирование нескольких выборок ведёт к дополнительным затратам, а во-вторых, если параметры выборок значимо различаются, то невозможно сказать, какая из них репрезентативна.
Нестатистические методы
Статистические методы оценки репрезентативности выборочных данных, хотя и являются строго обоснованными, но довольно сложны в использовании (особенно для пользователей, не имеющих достаточной математической подготовки). Кроме этого они могут иметь ограничения (например, независимость выборок), удовлетворить которым достаточно сложно.
Статистические подходы к оценке репрезентативности выборок имеет смысл использовать, если для анализа данных используются статистические методы. Методы машинного обучения, которые является эвристическими и в большинстве случаев не обеспечивают точного и единственного решения, вообще говоря, не нуждаются в точной оценке репрезентативности обучающих выборок. Поэтому в них используются свои техники для определения того, насколько обучающая или тестовая выборка хорошо представляют исходную совокупность.
Ещё одной особенностью выборок, используемых в машинном обучении, является то, что объём исходной совокупности, из которой формируются обучающее, тестовое, а при необходимости, и валидационное множество, известен, поскольку данные содержатся в консолидированных таблицах источника данных.
Затем вычислим величину:
где D_<_
Тогда индекс ближайшего соседа будет:
Если значение данного показателя близко к 1, то точки выборки имеют равномерное пространственное распределение. Если меньше 1, то пространственное распределение точек неоднородно. Если NNI больше 1, то имеет место значительная дисперсия значений внутри выборки.
Очевидно, что наилучшим вариантом с точки зрения репрезентативности будет первый случай, когда пространственное распределение точек данных в совокупности и выборке примерно одинаковое. Второй случай показывает, что внутри выборки могут присутствовать некоторое локальные особенности, нехарактерные для всей совокупности.
В литературе можно найти больше количество разнообразных алгоритмов и методов оценки репрезентативности выборок для машинного обучения, разработанных для различных предметных областей исследования и типов задач анализа. Большинство их них являются эвристическими и не гарантируют получения наилучшего результата. Поэтому самым надёжным критерием репрезентативности выборки, на основе которой строилась определённая обучаемая модель, является точность и обобщающая способность самой модели.
Ремонт выборки
Возникает вопрос: а что делать в ситуации, когда аналитику доступна только выборка «как есть», а её репрезентативность неудовлетворительная? При этом доступ к генеральной совокупности для формирования более репрезентативной выборки у него отсутствует (например, из-за проблем с сетью, невозможности повторных исследований из-за высоких затрат и т.д.). В этом случае улучшить ситуацию может специальная процедура, которая называется «ремонт выборки».
Все действия аналитика, связанные с репрезентативностью, можно разделить на два этапа: контроль и ремонт.
Контроль и ремонт выборки рассматриваются как обязательные этапы любого выборочного исследования. Хотя, некоторые авторы не разделяют эти два этапа, а включают ремонт в общую процедуру контроля выборки. Ряд вопросов, связанных с контролем выборки был рассмотрен выше.
Основной целью ремонта является повышение качества выборки в смысле отражения ею зависимостей и закономерностей исследуемых процессов и явлений, которые требуется обнаружить в процессе анализа. При этом не следует путать ремонт выборки с повышением качества данных вообще.
Ремонт выборки, обычно, включает следующие задачи:
Следует отметить, что единого, строго обоснованного подхода к ремонту выборок, вообще говоря, не существует, хотя в литературе можно встретить некоторые общие рекомендации. В большинстве практических случаев аналитику приходится самостоятельно выбирать, какие преобразования следует применить к выборке для повышения её репрезентативности.
Репрезентативность
Также репрезентативность можно определить как свойство выборочной совокупности представлять параметры генеральной совокупности, значимые с точки зрения задач исследования.
Связанные понятия
Упоминания в литературе
Связанные понятия (продолжение)
Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.
Качественный метод исследования – это метод сбора, обработки и анализа информации об индивидах. Объектом интереса качественных исследований являются индивиды как исполнители социальных ролей. Предметом исследования качественных исследований является «характер исполнения роли (вариации социального выбора)».
В когнитивной науке под когнити́вными искаже́ниями понимаются систематические ошибки в мышлении или шаблонные отклонения, которые возникают на основе дисфункциональных убеждений, внедрённых в когнитивные схемы, и легко обнаруживаются при анализе автоматических мыслей. Существование большинства когнитивных искажений было описано учёными, а многие были доказаны в психологических экспериментах.
Групповáя поляризáция — психологический феномен расхождения по разным полюсам мнений участников дискуссии во время принятия группового решения. Величина разброса конечных вариантов напрямую зависит от первоначальных позиций участников. То есть, чем дальше от середины находились их мнения в начале дискуссии, тем сильней будет проявляться феномен. Важно разделять «поляризацию» и «экстремизацию». Поляризация — явление, при котором решение члена группы смещается к ранее выбранному им полюсу; при экстремизации.