Скрыть
Раскрыть

Часто задаваемые вопросы

Вопрос: Скажите, пожалуйста, надо ли при расчетах в RLMS-HSE  перевзвешивать массив по переменной n_inwgt?  

Ответ: Веса выравнивают выборочную совокупность репрезентативной выборки данной волны, приводят показатели выборки к параметрам генеральной совокупности по полу, возрасту и типу поселения. Веса рассчитаны только для репрезентативной выборки. Для панельной дополняющей такого рода веса рассчитаны быть не могут, так как эти люди не репрезентируют ничего, а отвечают только лично за себя. Использование весов - на усмотрение исследователя.

 

Вопрос: Всего в базе 2009 года 13991 респондент, а после перевзвешивания остаётся 9570…

Ответ: Важно отдавать себе отчет, с каким массивом исследователь работает. 13991 респондент - это все опрошенные. В том числе:

(1) массив репрезентативной выборки (9570чел, x_origsm=1). Это те, кто в данной волне репрезентирует все население России. И никто кроме них для репрезентативного анализа России в целом в данной волне не подходит.

(2) массив панельной дополняющей (4421чел, x_origsm=0). Это те, кто в какие-либо предшествующие волны был опрошен в составе репрезентативной выборки, но к моменту проведения текущей волны переехал с адреса репрезентативной выборки и в текущей волне в репрезентативную выборку не входит. Они опрошены только для использования в панельных исследованиях - при сравнении "что происходит с каждый отдельным человеком" в последующие годы после ранее проведенного опроса. Т.е. если бы этого человека раньше не опросили в составе репрезентативной выборки, то и в текущей волне он был бы не опрошен. В репрезентативную выборку эти люди не входят.

 

Вопрос: Для чего используется полная выборка?

Ответ: Вряд ли существует задача, для которой нужно использовать всех 13991 опрошенных респондентов. Для получения информации о России в целом на момент проведения опроса нужно использовать данные только репрезентативной выборки. Для проведения панельного анализа нужно использовать данные только тех индивидов, которые были опрошены как репрезентативная выборка в базовой волне панели.

 

 

Вопрос: Как сливать семейные файлы  РМЭЗ, если хочется отследить "историю" каждой семьи? Существует ли уникальный идентификатор семей? Или, может быть, его можно как-то сконструировать? Кроме того, хочется вообще понять как кодируются семьи в РМЭЗ. Из анализа данных у меня складывается впечатление, что "идентификаторы семей" на самом деле являются идентификаторами адресов, по которым проживают семьи. Это действительно так? Не могли бы Вы внести ясность в эти вопросы.

Ответ: Сначала несколько слов о структуре выборке и правилах опроса - это имеет отношение к теме.

В RLMS мы отслеживаем как изменения репрезентативной выборки России в целом, так и изменения всех ранее опрошенных респондентов, семей и индивидов. Репрезентативная выборка - адресная. Это означает, что
существует фиксированный перечень адресов, по которым каждый год проводится опрос фактически проживающего населения, и эти данные составляют репрезентативную выборку данной волны. Кроме этого, мы опрашиваем всех тех, кто принимал участие в опросе когда-либо ранее - всех, кого сможем найти. Это переехавшие семьи, а также разделившиеся семьи (например, были опрошены родители с ребенком, ребенок женился и стал жить отдельным домохозяйством - мы опрашиваем оба домохозяйства, и оба они будут считаться ранее участвовавшими, т.к. есть хотя бы 1 человек, кто был опрошен ранее). Семья (домохозяйство) в RLMS определяется как люди, проживающие совместно (=общее место проживания) и ведущие общее хозяйство (=общий бюджет). Если деньги порознь, то даже в пределах одного адреса мы получаем 2 домохозяйства. Такое бывает. Если обе разделившиеся семьи фактически проживают по одному и тому же адресу репрезентативной выборки, в репрезентативную выборку попадет только одна из семей.

Итак, что важно: Семьи в RLMS, в отличие от индивидов, могут делиться (была первоначально одна, через несколько лет стало две или три, потом они вновь объединились, потом снова разделились - и так сколько угодно раз).
Отсюда следует, что:
(1) уникальный номер семьи и "история семьи" может быть создан каждый раз только "от последней по времени" волны назад по времени (потому что делятся семьи чаще, чем объединяются - и с течением времени чаще происходит увеличение числа семей, получившихся из первоначально опрошенных);

(2) говорить, что семья, опрошенная в данной волне, и эта же семья, опрошенная несколькими годами ранее, одна и та же, можно только отдавая себе отчет, что состав семьи мог измениться как угодно значительно. Одни люди уходят, другие приходят, и пока есть хотя бы 1 человек, опрошенный ранее, семья будет считаться "той же" (=опрошенной ранее). Хотя фактически это может быть почти совсем другая семья. В 1994 г. были опрошены бабушка с дедушкой, через какое-то время к ним приехала их дочь, потом дочь вышла замуж, когда-то бабушка и дедушка умерли, у дочери родились дети, и сейчас мы опрашиваем как "ту же" семью семью дочери и ее детей - а совсем не дедушку с бабушкой.
Поэтому мы не создаем уникального идентификатора для каждой семьи. Но в каждой волне для каждой семьи, где есть хотя бы 1 ранее участвовавший человек, указаны все идентификаторы всех прошлых волн, в которых участвовали наличные в данной волне члены семьи. Это переменные aid_h, bid_h, cid_h, и так далее. Именно их нужно использовать для объединения семейный данных разных волн.

Что касается второй части вопроса: "идентификаторы семей" действительно часто совпадают с идентификаторами адресов, по которым проживают семьи, но не являются ими - это не одно и то же!

Когда семья переезжает с адреса репрезентативной выборки, она сохраняет за собой свой предыдущий номер семьи, а отделившаяся часть вынужденно получает новый номер семьи, - хотя фактически это "старая" семья. Одна из разделившихся наследует старый номер, другая получает новый номер - иначе нам не избежать дубликатов номеров семьи внутри волны, что недопустимо.
К сожалению, это не означает, что численное совпадение идентификаторов разных волн говорит о том, что семья одна и та же. Это неверно. Когда семья исчезала безвозвратно (все умерли, или уехали за границу, или уехали и нет возможности найти их новые координаты), этот же номер семьи получала новая семья, проживающая по данному адресу репрезентативной выборки вместо исчезнувшей ранее опрошенной семьи. Поэтому численное совпадение bid_h и fid_h не означает, что семья одна и та же. Например, в текущей волне есть номер семьи в Москве 123 и в предыдущей есть номер 123 в Москве. Однако, это разные семьи, и поэтому у семьи 123 в текущей волне будет стоять миссинг в идентификаторе предыдущей волны - чтобы она не слилась с 123 прошлогодней семьей, которая была другая и уехала за границу. По этим причинам для объединения семейных данных разных волн мы вынуждены пользоваться идентификаторами каждой из интересующей нас волн. Все идентификаторы всех предыдущих волн для каждой семьи указаны в каждом семейном файле каждой последующей волны.
Итак, для объединения данных одной и той же семьи в разные волны исследования необходимо пользоваться только идентификаторами предыдущих волн (aid_h, bid_h, cid_h и т.д.) - последовательно добавляя данные более ранних волн к данным более поздней волны. При этом нужно учитывать, что для разных значений идентификаторов более поздних волн может быть указан один и тот же идентификатор более ранней волны (это как раз ситуация, когда
семьи делятся - у каждой разделившейся части указываются все предыдущие идентификаторы тех лет, когда семья еще была неразделившейся). Также, нужно отдавать себе отчет, насколько в рамках данной содержательной задачи можно считать эти семьи разных лет "одной и той же" семьей - из-за изменений состава семьи.

 

  

Вопрос: Есть ли возможность получить доступ к данным 1-ого этапа (самые первые четыре раунда, за 1992-1994 годы)?

Ответ: Да, такая возможность есть. Данные I фазы обследования проводившегося в период с 1992 по 1993 год доступны на сайте наших зарубежных коллег: http://www.cpc.unc.edu/projects/rlms-hse/data/questionnaires/. Это обследование проводилось Госкомстатом России и было выполнено на другой основе выборки, чем РМЭЗ 1994-2010.


Нашли опечатку? Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!