Оценка распространенности наркомании на местном уровне.
Методы двойного охвата

Из: European Monitoring Centre for Drugs and Drug Addiction (EMCDDA). Scientific Review of the Literature on Estimating the Prevalence of Drug Misuse on the Local Level. Lisbon: EMCDDA, July 1999. 62 р.

История

Ответственные за подсчет популяции людей, будь- то правительственные должностные лица или эпидемиологи, давно уже стремились полностью посчитать популяции, с которыми они работают. В таких странах, как США или Великобритания постоянно проводится регулярная перепись населения, которая ориентирована на то, чтобы собрать детальную информацию о популяции в целом. Однако, достаточно быстро стало очевидным, что цели полной переписи населения, возможно, были слишком оптимистичными, поскольку всегда будет существовать некоторый уровень недооценки. Это стало особенно очевидным в развивающихся странах, таких как Индия, где в 1949 году Sekar и Deming попытались оценить эту недооценку в небольшой области, используя метод двойного охвата. Deming, затем стал известен тем, он революционизировал качество и производство японских потребительских товаров в начале 1950-ых годов.

В то время, как основным специалистом, который привел к развитию методологии двойного охвата в изучении животных был Bailey (1952 год), другой великий статистик 20-ого столетия, R.A. Fisher (1943), принял участие в разработке похожей методологии, в которой количество видов животных оценивается на основании изучения случайной выборки из популяции животных. Идеология использования методологии обоих предложений на животных, затем была перенесена в новую ситуацию в 1970-ые годы Carothers (1973), который оценил количество такси, работающих в городе Эдинбурге, а также Efron и Thisted (1976), которые оценивали количество слов, известных Шекспиру.

Методы с двумя выборками.

Популяционные регистры.

Sekar и Deming переписали количество родов из списков в ЗАГСе, а затем сравнили эти данные с результатами опроса от дома к дому. Сравнивая эти списки, они нашли, что некоторое количество родов было зарегистрировано в обоих источниках, это количество они обозначают как C, некоторое количество родов было зарегистрировано только в списке загсов, они были помечены буквой N1, а некоторое количество родов были обнаружены только при опросе от дома к дому, они были обозначены, как N2. Затем они оценили общее количество родов, базируясь на этих трех цифрах, предположив, что, по отношению к спискам загса, отношение известных к неизвестным родам при опросе, точно такое же, как отношение известных к неизвестным родам в популяции в целом. Sekar и Deming обращают внимание, что имеются несколько дополнительных допущений. Они включают:

  1. Вся область, которая изучается, покрывается регистрирующим списком примерно одинаково.
  2. Информационные источники независимы.
  3. Отсутствуют ошибки классификации в двух источниках.

Если эти допущения справедливы, то тогда оценка общего размера популяции может быть вычислена по следующей формуле:

N = C + N1 +N2* (N1* N2) / C

Larson и соавторы (1994) дали краткое, но полное описание метода двух выборок для оценки размеров популяций животных. Эти авторы описывают, как ученый мог бы подсчитать количество рыбы в озере, поймав группу рыбешек и пометив их, а затем выпустив их обратно в озеро. Далее ученый вылавливает вторую группу рыбешек, и подсчитывает количество помеченной и немаркированной пойманной рыбы. Считаются, что две выборки могут быть независимыми выборками из неизвестной общей популяции размером N. Количество рыбы, которое оказалось в двух выборках (то есть рыбы, которые были помечены, отпущены и снова пойманы), обозначается, как n11, и общее количество рыбы, пойманные в первой и второй группах обозначены как n1 и n2, соответственно. В сущности двойного охвата приравнивается отношение первой выборки n1 к общей неизвестной популяции, отношение отмеченных индивидуумов n11 ко второй выборке n2, или

n1/N = n11/n2

Что можно переформулировать следующим образом:

N = n1*n2 / n11

Что и дает нам оценку общего размера популяции.

Larson является одним из немногих эпидемиологов, которые дополнительно представляют несмещенный метод оценки, который должен использоваться в случае небольших размеров выборки:

N' = (n1 + 1)* (n2 + 1) / (n11 + 1) -1

Larson также кратко описывает допущения, которые затем были развиты в работах Seber. Вот эти допущения:

  1. Популяция является закрытой, поэтому общее количество животных, которое оценивается, остается постоянным.
  2. Все животные имеют одинаковую вероятность поимки в первой группе.
  3. Маркировка не оказывает никакого действия на возможность поймать животное.
  4. Вторая выборка является простой случайной выборкой.
  5. Животные не теряют свои метки в промежутке времени между двумя поимками.
  6. Все пометки при повторном отлове обнаруживаются.

Наркоманы.

Это простое уравнение также может быть использовано в том случае, когда мы хотим оценить размеры скрытой популяции, такой, например, как популяция наркоманов. Hartnoll и соавторы в 1985 году собрали и оценили данные относительно наркоманов, использующих опиаты, которые обращались за лечением в клинику и тех, которые были госпитализированы в больницы для лечения инфекционных заболеваний. Сравнивая эти источники данных, они нашли, что приблизительно 20 %, или пятая часть, стационарной группы также обращалась в клинику для лечения наркомании. Таким образом, общее количество опиатных наркоманов может быть оценено тем, что мы умножаем количество людей, которые обращались за лечением в клинику по лечению наркомании, на пять. Newmeyer (1988 год) сравнивает смертность и данные о лечения для того, чтобы получить подобные оценки из двух выборок для вычисления количества героиновых наркоманов в Сан-Франциско.

Эти простые примеры скрывают некоторые из проблем методологии. Если те, кто обращался в клинику, более часто могли быть госпитализированы в больницу, в этой ситуации результирующая цифра будет меньше реальной. Таким образом, если имеются некоторые отношения между этими двумя источниками данных, тогда оценка будет смещена. К сожалению, очень часто остается непонятным, существуют ли такие взаимоотношения, и поэтому достоверность подобных оценок часто ставится под вопрос.

Большинство из допущений, которые были описаны Sekar и Deming, а затем Seber , можно перевести на язык эпидемиологического подхода, например:

  1. Популяция является закрытой; не имеется никакого движения (миграции или эмиграции) населения за тот период, который изучается;
  2. Каждый индивидуум имеет одинаковую вероятность того, чтобы его представили в каждой группе - иными словами популяция является гомогенной;
  3. Наличие в одной группе, не влияет на вероятность нахождения в другой группе;
  4. Те, кто присутствуют более, чем в одной группе - так называемые двойные случаи - идентифицируются также.

Первое допущение превращается в предположение о том, что источники информации базируются на одной и той же популяции, а четвертое - предполагает, что идентификация тех индивидуумов, которые попадают в две группы, измеряются без ошибки. Это не всегда так, поскольку сравнение двух записей очень часто приводит к ошибке. Второе и третье допущения часто сложнее описать, поскольку они связаны с очень похожей проблемой; наркоманы, по различным причинам, не все одинаково равно вероятно, присутствуют в двух группах, и те, которые присутствуют в одной группе, могут быть, более или менее вероятными членами, и другой группы.

Bishop и соавторы в1975 году описали в деталях методологию двух выборок, "базовый" подход и подход с использованием "неполных таблиц", последний, как описано выше. "Базовый" подход, приводит к формированию простого уравнения, описанного Larson, но с использованием оценки по методу максимального правдоподобия и базирующемся на мультиномиальном распределении. Подход "неполной таблицы" достаточно понятен для тех, кто хочет провести исследование по оценке распространенности или понять технику, в то время, как более сложные подходы необходимы только для того, чтобы оценить некоторые из более современных теоретических достижений. Bishop и соавторы также дают оценки асимптотической дисперсии, которая может использоваться для того, чтобы создать 95 % доверительный интервал, и они используют пример, взятый из работы Sekar и Deming для того , чтобы описать расчеты этих оценок и связанного с ними, доверительного интервала.

Метод трех выборок.

Одна из основных проблем метода двойного охвата с использование двух выборок, заключаются в том, что не только допущение о том, что две выборки являются независимыми часто нарушается, но и в том, что обычно невозможно установить является ли подобное допущение вообще достоверным. Методология двойного охвата может компенсировать эту проблему, за счет того, что она будет базироваться на трех или большем количестве источников информации. Дополнительная информация, присутствующая в третьей выборке, может использоваться для того, чтобы оценить, существуют или нет, какие-то зависимости между источниками данных, и если они существуют, то тогда мы можем откорректировать оценки размеров популяции. С использованием этого анализа можно описать различные взаимоотношения между источниками данных, например, если наркоманы, которые обращаются за лечением, чаще тестируются на ВИЧ, то тогда такие взаимоотношения также могут быть включены. Решение включить зависимые показатели может быть предпринято, после того, как будет проанализировано насколько похожих наблюдающихся картин перекрытий, и что можно ожидать, если такие зависимости были фактически представлены.

Bishop и соавторы демонстрируют, что подход с использованием трех выборок в вышеупомянутом примере - является более общим случаем традиционного метода двух выборок. Hook и Regal вместе с экспертами международной рабочей группы по мониторированию заболеваний и прогнозированию (IWGDFM) проводят обзор, и дают достаточно полное описание методологии, однако, редко упоминая специфические проблемы, связанные с оценкой распространенности наркомании. В особенности, проблемы, касающиеся определений случаев, которые не настолько серьезны в других приложениях. При применении этого метода для популяции наркоманов, необходимо понимать, что определения случаев в различных источниках может различаться, особенно относительно тяжести наркомании. Например, полицейский источник может включать наркоманов, которые в настоящий момент еще, не имеют серьезных проблем с наркотиками, которые не требуют медицинской помощи. Соответственно, наркоманы, которые находятся на этой стадии, будут иметь меньшую вероятность оказаться в центрах по лечению наркомании.

Образцы с одной выборкой.

Хотя в научной литературе описываются случаи, когда для таких популяций, как наркоманы, использовались методы двойного охвата с использованием либо двух источников, или большего количества источников, существует родственный метод, который требует только одного источника данных, но тем не менее, который может быть применим для оценки распространенности наркомании. Этот метод известен, как укороченная модель Пуассона.

Hser в 1993 году применила укороченную модель Пуассона к данным, полученным в Калифорнийской базе данных по учету злоупотребления наркотиками. При использовании данных с 1989, исследователь получила количество индивидуумов, которые были зарегистрированы в системе один раз, зарегистрированы дважды, зарегистрированы три раза и так далее. Данные этого исследователя представлены на диаграмме1.

Hser предполагает, что, поскольку количество новых случаев использования наркотиков достаточно редко, тогда распределение, частично показанное на рисунке1, имеет форму распределения Пуассона. Таким образом накладывая на данные распределение Пуассона, мы можем оценить количество людей, которые были зарегистрированы в базе данных ноль раз. Иными словами, ту самую скрытую популяцию. (Blumenthal и соавторы, 1978 год). Wickens (1993 год) обсуждает в деталях пример Hser. Также как и в традиционной методологии двойного охвата, точность оценки зависит от степени, с которой полученные данные следуют распределению Пуассона. Внутреннее допущение, которое обязательно должно быть выполнено, касается возможной гетерогенности населения, которое изучается. Если существенная пропорция населения имеет крайне низкие шансы контакта со службами по лечению, которые сообщали информацию в базу данных, в этой ситуации истинные размеры популяции будут недооценены.

Рис. 1 Распределение количества раз, которое наркоман регистрировался в Калифорнийской базе данных по учету злоупотреблений наркотиками. Источник: Hser, 1993

Распределение хи2 может использоваться для того, чтобы проверить, насколько ожидаемые значения, полученные от наложения распределения Пуассона, соответствуют теоретическим. В случае примера Hser крайне большое значение хи2 (12 774 с 5 степенями свободы) предполагает гетерогенность популяции и указывает на то, что некоторые индивидуумы, с большей вероятностью попадают в группу лечения, чем другие.

Smit и соавторы в1997 году использовали вариант укороченной модели Пуассона, в соответствии с тем, что предложили Chao (1989) и Zelterman (1988), для того чтобы моделировать данные по лечению, полученные в Роттердаме в 1994 году. Как и ранее, эти оценки были применены к данным, которые были получены от индивидуумов, зарегистрированных в одном единственном источнике данных однажды, дважды или более раз. Однако, вместо использования полных данных количества людей, которые присутствовали на лечении три или большее число раз, данные использовались только для того, чтобы посчитать известный размер популяции, но не использовались для самой оценки. Поскольку можно предположить, что те люди, которые наблюдались в центре по лечению один или два раза, более похожи на тех, которых в центре не видели ни одного раза, использование только этих цифр для получения основных оценок интуитивно разумно. В дополнение к этому, акцент на более низкие частоты, может частично разрешить проблему гетерогенности, которая имелась в примере Hser. Эти оценки имеют также дополнительный плюс, в том что они, как известно, могут быть использованы даже тогда, когда имеется небольшое количество данных.

Подсчеты Zelterman, посвященные популяции неизвестного размера , est (n), определяются формулой:

Est (n) = S / [1-exp (-2f2 / f1)]

А оценка Chao дается следующей формулой:

Est (n) = S + f12 / (2f2)

Где,

f1= количество людей, которые попали в первый частотный класс

f2= количество людей, которые попали во второй частотный класс

S = Сумма всех частот

Эти оценки также зависят от надежности допущений, которые использовались в более общих методах двойного охвата. Однако, для них нет необходимости выполнять допущение независимости, и допущения о точном сопоставлении людей в первой и второй группе, также менее важно, поскольку источники внутри одной базы данных, значительно легче сравнивать друг с другом. По отношению допущений о гомогенности, обе оценки, как известно, являются достаточно устойчивыми в том, что обе недооценивают истинный размер популяции в случае гетерогенности (Chao, 1989; Wilson и Collins, 1992). Таким образом, если подозревается некоторая гетерогенность, то можно предположить, чтополученная оценка является нижней границей истинного размера популяции.

Другое основное допущение заключается в том, что индивидуум поведенчески не реагирует на то, что его, хотя бы один раз, пометили. Это аналогично допущению в методе двойного охвата с тремя или более выборками, что вероятность того, что индивидуум идентифицированный в данном источнике, не оказывается под воздействием своего присутствия в другом источнике. В случае Smit и соавторов, это будет означать, что те, кто получил лечение, например, метадоном один раз, не будут меняться по сравнению с теми, которые не получили его, по крайней мере в период времени, который изучается. Явно, что подобное допущение не может являться достоверным и, как авторы отмечают, только циник может сказать, что программа метадонового лечения является настолько неэффективной, что это допущение в любом случае не будет выполняться.

Литература

Bailey, N. (1952) Improvements in the interpretation of recapture data. Journal of Animal Ecology, 21:120-127.

Bishop, Y., Fienberg, S., and Holland, P. (1975) Discrete Multivariate Analysis. MIT Press, Cambridge MA.

Blumenthal, S., Dahiya, R., and Gross, A. (1978) Estimating the complete sample size from an incomplete Poisson sample. Journal of the American Statistical Society, 73:182-187.

Carothers, A. (1973) Capture-recapture methods applied to a population with known parameters. Journal of Animal Ecology, 42:125-146.

Chao, A. (1989) Estimating population size for sparse data in capture-recapture experiments. Biometrics, 45:427-438.

Efron, B., and Thisted, R. (1976) Estimating the number of unseen species: How many words did Shakespeare know? Biometrika, 63:435-47.

Fisher, R., Corbet, A., and Williams, C. (1943) The relation between the number of species and the number of individuals in a random sample of an animal population. Journal of Animal Ecology, 12:42-58.

Hartnoll, R., Daviaud, E., Lewis, R., et al. (1985a) Drug problems: assessing local needs. A practical manual for assessing the nature and extent of problematic drug use in a community. Drug Indicators Project, London.

Hartnoll, R., Mitcheson, M., Lewis, R., et al. (1985b) Estimating the prevalence of opiod dependence. Lancet, i:203-205.

Hook, E. B. (1982) Incidence and prevalence as measures of the frequency of birth defects. American Journal Of Epidemiology, 116:743-747.

Hook, E. B., Albright, S. G., and Cross, P. K. (1980) Use of Bernoulli census and log-linear methods for estimating the prevalence of spina bifida in live births and the completeness of vital record reports in New York State. American Journal of Epidemiolog, 112:750-758.

Hook, E. B., and Regal, R. R. (1993) Effect of variation in probability of ascertainment by souces ("Variable Catchability") upon "capture-recapture" estimates of prevalence. American Journal Of Epidemiology, 137:1148-1166.

Hser, Y. I. (1993b) Prevalence Estimation - Summary of common problems and practical solutions. Journal of Drug Issues, 23:335-343.

Hser, Y.-I. (1993a) Population estimation of illicit drug users in Los Angeles County. The Journal of Drug Issues, 23:323-334.

International Working Group for Disease Monitoring and Forecasting. (1995a) Capture-recapture and multiple-record systems estimation I: History and theoretical development. American Journal Of Epidemiology, 142:1047-1058.

International Working Group for Disease Monitoring and Forecasting. (1995b) Capture-recapture and multiple-record systems estimation II: Applications in human diseases. American Journal Of Epidemiology, 142:1059-1068.

Larson, A., and Bammer, G. (1996) Why ? Who? How ? Estimating numbers of illicit drug users: Lessons from a case study from the Australian Capital Territory. Australian and New Zealand Journal of Public Health, 20:493-499.

Larson, A., Stevens, A., and Wardlaw, G. (1994) Indirect estimates of "hidden" populations: capture-recapture methods to estimate the numbers of heroin users in the Australian Capital Territory. Social Science & Medicine, 39:823-831.

Newmeyer, J. A. (1988) The prevalence of drug use in San Francisco in 1987. Journal of Psychoactive Drugs, 20:185-189.

Newmeyer, J., and Johnson, G. (1976) The heroin epidemic in San Fransisco: Estimates of incidence and prevalence. The International Journal of the Addictions, 11:417-438.

Seber, G. (1982) The estimation of animal abundance and related parameters. Charles Griffin, London.

Seber, G. (1992) A review of estimating animal abundance II. International Statistical Review, 60:129-166.

Sekar, C., and Deming, W. (1949) On a method of estimating birth and death rates and the extent of registration. American Statistical Association Journal, 44:101-115.

Smit, F, Toet, J and van der Heijden, P (1997) Estimating the number of opiate users in Rotterdam using statistical models for incomplete count data. In European Monitoring Centre for Drugs and Drug Addiction (EMCDDA) Methodological pilot study of local prevalence estimates. Lisbon: EMCDDA.

Smit, F., Brunenberg, W., and Van der Heijden, P. (1996) Het schatten van populatiegroottes toepassingen en een voorbeeld. Tijdschrift Sociale Gezondheidszorg, 74:171-6.

Smit, F., van der Heijden, P., and van Gils, G. (1994) Enkele weinig gebruikte methoden om het aantal plegers van misdrijven te schatten. Tijdschrift voor criminologie, 36:96-119.

Wickens, T. D. (1993) Quantitative methods for estimating the size of a drug-using population. The Journal of Drug Issues, 23:185-216.

Wilson, R., and Collins, M. (1992) Capture-recapture estimation with a sample of size one using frequency data. Biometrika, 79:543-53.

Zelterman, D. (1988) Robust estimation in truncated discrete distributions with applications to capture-recapture experiments. Journal of Statistical Planning and Inference, 18:225-237.