Ошибки измерения и систематические ошибки.

Из кн. Coggon D., Rose G., Barker D. EPIDEMIOLOGY FOR THE UNINITIATED. Fourth Edition.- BMJ Publishing Group 1997

Эпидемиологические исследования измеряют характеристики популяции. Параметром интереса может быть частота заболевания, распространенность воздействия, или, чаще всего, существующие взаимосвязи между воздействием и заболеванием. Поскольку исследования выполняются на людях, и они могут иметь сопутствующие практические и этические ограничения, практически все они подвержены систематическим ошибкам.

Ошибки отбора.

Ошибки отбора возникают, когда изучаемый пациент не является репрезентативным по отношению к целевой популяции, относительно которой мы пытаемся придти к заключению. Предположим, что исследователь желает оценить распространенность высокого потребления алкоголя (более 21 стандартной единицы в неделю) у взрослых жителей данного города. Он может попробовать сделать это создав случайную выборку из всех взрослых, которые находятся на учете у местного врача общей практики, а затем разослать им по почте опросник, которые будет содержать вопросы относительно привычек употребления ими спиртных напитков. При использовании этого дизайна исследования одним из источников ошибки может быть исключение из выборки тех жителей города, которые не зарегистрировались, или не находятся на учете у врача. Эти, исключенные из анализа лица, могут иметь иные характеристики употребления алкоголя, чем те, кто включены в исследование. Кроме того, не все люди, отобранные для исследования, обязательно заполнят и возвратят анкетные, а те исследуемые, которые отказались отвечать на вопросы, могут иметь иные характеристики потребления алкоголя, чем те, кто ответил на опросник. Обе эти проблемы - потенциальные источники ошибок отбора. Возможность ошибок отбора всегда должна рассматриваться при определении выборки для изучения. Более того, в ситуации когда отклик недостаточный, необходимо оценить возможные размеры смещения, вызванного этой ошибкой. Всегда необходимо обращать внимание на проблемы неполного отклика.

Информационные ошибки.

Второй большой класс систематических ошибок является результатом ошибок в измерении воздействия или самого заболевания. В исследовании, которое пыталось оценить относительный риск врожденных пороков развития, связанных с тем, что мать подвергалась воздействию органических растворителей типа белого спирта, матери детей с пороками развития опрашивались относительно их контакта с подобными веществами в течение беременности, и их ответы сравнивались с ответами, полученными от контрольной группы матерей, родивших нормальных детей. Когда мы используем подобный дизайн исследования, существует опасность того, что матери, родившие детей с пороками, были более мотивированы выяснить, почему их дети родились с аномалией и поэтому они с большей вероятностью могут вспомнить о своем контакте с органическими растворителями, чем матери из группы контроля. Если это так, то возникает систематическая информационная ошибка, которая будет приводить к преувеличению оценки риска.

Другое исследование изучало риск остеоартрита тазобедренного сустава в соответствии с уровнем физической активности на работе. При этом случаи были идентифицированы из больничных записей пациентов, поступавших в больницу для проведения процедуры пластики тазобедренного сустава. Здесь также имелась возможность систематической ошибки, поскольку лица, находившиеся на работе, требующей больших физических нагрузок, при одинаковом с людьми сидячих профессий уровне остеоартирита будут более инвалидизированы, и поэтому будут чаще обращаться за медицинской помощью.

Надо заметить, что систематические ошибки или смещения обычно не могут быть полностью удалены из эпидемиологических исследований. Поэтому целью исследования должно быть сведение их к минимуму, идентификация тех систематических ошибок, которых нельзя избежать, оценка их потенциального воздействия, и принятие их во внимание при интерпретации результатов.

Девизом эпидемиолога могло бы стать изречение "грязные руки, но чистая голова" (manus sordidae, mens pura).

Ошибка измерений.

Как указано выше, ошибки в измерении воздействия или заболевании могут стать важным источником систематической ошибки или смещения в эпидемиологических исследованиях. Поэтому при проведении исследований важно оценить качество измерений, которые в них используются. Идеальная техника опроса является достоверной (то есть она точно измеряет то, что необходимо измерить). Иногда существует надежный стандарт, по сравнению с которым можно измерять достоверность метода, который мы используем. Например, достоверность сфигмоманометра может быть оценена при сравнении данных, полученные с его помощью, с внутриартериальным давлением, а достоверность маммографической диагностики рака молочной железы может быть проверена (если женщина соглашается) биопсией. Более часто, однако, не имеется никакого достоверного стандарта для сравнения. Достоверность анкетного опросника для диагностики стенокардии напряжения не известна полностью: точка зрения варьирует среди экспертов, и даже коронарные ангиограммы могут быть нормальны в истинных случаях стенокардии, а могут быть патологически измененными у людей с отсутствием симптомов стенокардии. Патолог может описывать изменения при аутопсии, но эти изменения мало что могут сказать относительно функционального состояния пациента или наличия у него патологических симптомов. Измерение заболевания у живого человека очень часто нельзя провести с полной достоверностью.

На практике, поэтому, достоверность должна оцениваться непрямым методом. Обычно используются два подхода. Техника, которая была упрощена и стандартизирована для того, чтобы ее использовать в опросах, может сравниваться с наиболее адекватной общепринятой клинической оценкой. Самостоятельно применяемый психиатрический опросник, например, может сравниваться с точкой зрения консилиума врачей психиатров. С другой стороны, инструмент при помощи которого производится измерение, может быть валидизирован по своей способности предсказывать будущие заболевания. Однако, валидизирование за счет измерений его предсказательной силы может потребовать изучения очень большого количества пациентов.

Анализ валидности или достоверности.

Когда техника или тест используются для того, чтобы разделить обследованных на две группы (например, случаи или не-случаи, подвергнувшиеся воздействию или не подвергавшиеся воздействию) достоверность анализируется классификацией обследованных как с положительным, так и с отрицательным результатом, вначале при помощи метода, который используется в рамках скрининга, а затем в соответствии со стандартным тестом. В этой ситуации результаты могут быть просуммированы в следующей таблице, как показано ниже.

Таблица 4.1 Сравнение результатов исследуемого теста с референтным

 

Результат скринигового теста

Результат референтного теста

Всего

 

Положительный

Отрицательный

 

Положительный

Истинно положительный результат, выявлен правильно = (a)

Ложно положительный результат = (b)

Общее количество положительных результатов =
(a + b)

Отрицательный

Ложно-отрицательный результат = (c)

Истинно отрицательный результат, выявлен правильно = (d)

Общее количество отрицательных результатов =
(c + d)

Всего

Общее количество истинноположительных результатов =
(a + c)

Общее количество истинно отрицательных результатов =
(b + d)

Всего=
(a + b + c + d)

Из этой таблицы мы можем вывести четыре важных показателя:

Чувствительность - чувствительный тест обнаруживает большее количество истинных случаев, и измеряется чувствительность по формуле а / (a + c).

Специфичность - специфичный тест имеет малое количество ложно положительных результатов, и измеряется специфичность по формуле как d / (b + d).

Систематическая ошибка - В эпидемиологических исследованиях особенно важно, чтобы тест обнаруживал адекватное количество случаев. Оно измеряется отношением общего количества положительных случаев в скрининговом тесте к аналогичному показателю для референтного теста ( (а + b) / ( а+ c)).

Предиктивная оценка. Это пропорция положительных результатов теста, которые являются истинно положительными. Показатель важен для скрининга и будет обсужден далее.

Следует заметить, что, как и систематическая ошибка, так и предиктивное значение, зависят от относительной частоты истинно положительных случаев и истинно отрицательных случаев в выборке (то есть от распространенности заболевания или воздействия, которое мы измеряем).

Чувствительный или специфичный? Вопрос выбора.

Если критерии для положительного результата теста достаточно жесткие, будет иметься небольшое количество ложноположительных результатов, но тест будет нечувствительным. Наоборот, если критерии смягчены, тогда будет иметься меньшее количество ложноотрицательных случаев, но тест будет менее специфичным. При скрининге на наличие рака молочной железы альтернативные диагностические критерии сравнивались с результатами референтного теста (биопсия). Клиническая пальпация врачом давала наименьшее количество ложно положительных результатов (специфичность 93 %), но пропустила примерно половину случаев (чувствительность 50 %). Критерии для диагностирования "случай " тогда были смягчены, чтобы включить все положительные результаты, идентифицированные пальпацией врачом, пальпацией медсестры, или маммографией: в этой ситуации пропускалось меньшее количество случаев (чувствительность 94 %), но специфичность снизилась до 86 %.

Выбирая адекватный тест и адекватные разделяющие точки можно сбалансировать чувствительность и специфичность наилучшим образом для данного исследования. При проведении скрининга для того, чтобы установить распространенность, мы можем выбрать ту ситуацию, когда количество ложноположительных результатов сбалансируется количеством ложноотрицательных результатов. В исследовании, которое сравнивает частоты в различных популяциях, абсолютные значения менее важны и основной задачей является избежать систематической ошибки при сравнении: в этой ситуации мы можем отдать предпочтение специфическому тесту, даже с учетом некоторой потери чувствительности.

Воспроизводимость.

Когда не имеется никакого удовлетворительного стандарта для того, чтобы оценить достоверность измерения, часто оказывается полезным посмотреть на воспроизводимость результата. Воспроизводимость результатов не обязательно подразумевает, что техника является достоверной: лабораторный тест может постоянно давать ложноположительные результаты, или абсолютно воспроизводимый психиатрический опросник может быть нечувствительным инструментом для измерения, например, "стресса". Однако, плохая воспроизводимость результата указывает либо на плохую достоверность, либо на то, что измеряемая характеристика варьирует со временем. Если возникает любая из этих ситуаций, результаты должны интерпретироваться крайне аккуратно.

Воспроизводимость может быть измерена как в у одного и того же наблюдателя (то есть тот же самый наблюдатель, выполняет измерение в двух разных случаях), так и также в случае нескольких различных наблюдателей (при сравнении показателей, сделанных различными наблюдателями над одним и тем же образцом или человеком).

Оценка воспроизводимости может быть встроена в само исследование - некая группа людей подвергается повторному, обследованию, или образцы рентгенограмм, проб крови и так далее тестируются два раза. Даже при наличии очень небольшой выборки, эти данные кажутся чрезвычайно полезными, при условии, что (1) она является репрезентативной и (2), повторные тесты абсолютно точно являются независимыми. Если тестирование выполнено вне основного исследования (возможно как часть пилотажного исследования), в этой ситуации необходимо особо гарантировать, что все пациенты, которые входят в исследование, все люди, которое проводят наблюдение, и условия, в которых проводится исследование, являются репрезентативными для тех методов, которые будут проводиться в основном исследовании. Значительно легче измерить воспроизводимость, когда материал может транспортироваться или храниться - например, замороженные в глубоком холоде образцы плазмы крови или гистологические срезы, а также все виды кривых и фотографий. Однако подобные тесты могут исключать важный источник вариабельности, который связан с человеком, проводящим измерения - а именно методы получения образцов и отчетов.

Причины вариабельности при повторных измерениях.

Независимые повторные измерения у одного и того же пациента, обычно больше варьируют, чем наихудшие ожидания исследователя. Для того чтобы интерпретировать результаты и разрешить проблемы, которые при этом возникают, очень полезно разделить общую вариабельность на четыре основных компонента:

Вариабельность, существующая при проведении измерений одним наблюдателем - обнаруживать свою собственную непоследовательность может оказаться крайне неприятным; это указывает на отсутствие ясных критериев измерения и интерпретации, особенно когда мы находимся в неопределенной (“серой”) области между "нормальным" и "патологическим". Эта вариабельность в значительной степени случайна - то есть непредсказуема в своем направлении.

Вариабельность, которая возникает при проведении измерении разными людьми. Эта вариабельность включает в себя как первый компонент (нестабильность индивидуальных наблюдателей), так и добавляет к этому дополнительный систематический компонент в результате индивидуальных различий в методах и критериях. К сожалению, она может быть достаточно серьезной по отношению к реальным различиям между группами, которые мы пытаемся выявить. Можно избежать этой проблемы или используя одного единственного наблюдателя, или, если материал транспортируемый, направлять его для центральной экспертизы. Альтернативно, можно нейтрализовать ошибку при проведении скрининга, если мы будем случайным образом направлять пациентов к тем, кто будет их классифицировать. Каждый наблюдатель должен быть идентифицирован кодовым номером на скрининговом отчете; анализ результатов по каждому наблюдателю может идентифицировать любые крупные проблемы, и может предоставить возможность статистической коррекции возникающей систематической ошибки.

Случайная вариабельность у пациентов - когда измерения делаются неоднократно у одного и того же человека, физиологические переменные, подобные артериальному давлению, обычно имеют нормальное распределение вокруг среднего значения у данного человека. Однако скрининговые обследования чаще всего вынуждены принимать во внимание единственное измерение, и неточность этого измерения не будет замечена, если не изучалась вариабельность показателей у каждого пациента. Случайная вариабельность у пациентов имеет очень важные последствия для скрининга и клинической практики в тот момент, когда заново вызываются пациенты, у которых были обнаружены крайне высокие или крайне низкие начальные показатели. Благодаря статистической причуде эта группа тогда кажется улучшающейся, потому что на самом деле в нее были включено некоторое количество людей, у которых среднее значение было нормальным, но за счет случайных факторов при первом обследовании у них оказались более высокие значения: в среднем их значения при повторном обследовании снижаются (регрессия к среднему). Размер этого эффекта зависит от количества случайной вариабельности у пациентов. Неправильная интерпретация может быть исключена повторными обследованиями для того, чтобы установить адекватное исходное значение, или (в интервенционном изучении) включением группы контроля.

Систематическая вариабельность у пациентов - артериальное давление во многом находится под воздействием температуры в комнате, где проводится исследование, а также под воздействием менее легко стандартизируемых эмоциональных факторов. Скрининговые программы, которые направлены на выявление диабета, обнаруживают значительно более высокую распространенность во второй половине дня, чем утром; а стандартизованные опросники на выявление бронхита выявляют большее количество положительных ответов зимой, чем летом. Таким образом, условия и выбор времени исследования могут оказывать значительный эффект на истинное состояние пациента и на его, или ее, ответы. Насколько возможно исследования должны быть разработаны таким образом, чтобы обеспечивать контроль этих факторов - например, тесты на наличие диабета должны выполняться в одно и то же время суток. Альтернативно, такие переменные как температура комнаты, в которой проводится исследование, могут быть измерены и включены в анализ.

Анализ воспроизводимости.

Воспроизводимость измерений непрерывных числовых переменных, типа артериального давления, может быть описана значениями стандартного отклонения повторных измерений, или коэффициентом вариации (стандартное отклонение/среднее). Когда пары измерений производятся либо одним и тем же наблюдателем, либо в двух различных случаях двумя различными наблюдателями, можно построить диаграмму рассеяния, которая покажет размеры и характеристики вариабельности каждого наблюдателя.

Для качественных показателей, типа клинических признаков и симптомов, нам лучше всего построить таблицу.

Таблица 4.2 Сравнение результатов, полученных двумя наблюдателями


Наблюдатель 1

Результат

Положительный

Отрицательный

Наблюдатель 2

Положительный

a

b

 

Отрицательный

c

d

Общий уровень согласия затем может быть представлен как пропорция общего количества и значений в ячейках а и d. Этот показатель, к сожалению, больше зависит от распространенности данного состояния, чем от воспроизводимости метода. Это связано с тем, что на практике значительно легче согласиться в том случае, если имеются очевидно отрицательные результаты; расхождения чаще всего зависят от распространенности сложных пограничных случаев. Поэтому обычно воспроизводимость описывается при помощи каппа-статистики, которая измеряет уровень согласия, превышающий тот, который можно было бы ожидать при данной распространенности показателя.