Невероятная миссия: краткое и точное определение P-значения

невероятный

Виктор Де Грюттола, председатель биостатистики в Высшей школе здравоохранения Гарварда, увлечен своими p-значениями. Вот почему он был апоплектическим в прошлом месяце, когда уважаемый коллега и выдающийся исследователь вакцины против СПИДа говорили с ним о широко разглашенных результатах самого большого когда-либо испытание вакцины против СПИДа. «Вероятность, что эта вакцина не работала, составляла только 4%», сказал его коллега, которого мы назовем Тором для экономии от дальнейшего затруднения.Самые простые смертные предположили бы, что это было разумной интерпретацией результатов тайского испытания, на котором 51 из 8 197 человек в ручке из вакцины испытания стал зараженным ВИЧ, по сравнению с 74 из 8 198 человек, получивших солевой выстрел плацебо.

Это переводит к различию 31,2%, приведших к p-значению 0,04, чуть ниже произвольного, но широко использовавших статистически значительное сокращение 0,05. (Два других исследования данных не достигали p Де Грюттоле и легионам других биостатистиков, грубая ошибка Тора была приводящим в бешенство и вводящим в заблуждение коверканием значения p-значений. В его представлении слишком много ученых и журналисты, покрывающие их (моя вина), искажают значение слова.

Дебаты могли бы походить на семантическую тонкость, новые доказательства, что статистики с Марса и остальной части нас, от Земли. Но Де Грюттоле и его коллегам марсианам, широко распространенный беспорядок о таком фундаментальном понятии имеет огромные доли: p значения помогают биомедицинским исследователям определить, на каких продуктах продвинуться – или по крайней мере, в случае тайского исследования, основываться – и которые бросить в мусоре.

Чтобы излечить раны и улучшить связь между биостатистиками и запутанными массами, полагающимися на них, Де Грюттола согласился обсудить детали того, что значение p означает и не означает с ScienceNOW. Но, поскольку Вы будете видеть, вероятность, что это решит проблему, является низкой.SN: Что означает p-значение 0,05?V.D.G.: Все начинается с научного контекста, в котором Вы развиваете вмешательство, чтобы сделать что-то, что это собирается сделать людей более здоровыми или более счастливыми.

Таким образом, существует цель по этому новому вмешательству для оказывания измеримого влияния на чью-то жизнь. Та цель должна быть превращена в гипотезу. Часто в клиническом исследовании, гипотеза, которую Вы проверяете, – то, что лечение не работает. Каждый надеется отклонить нулевую гипотезу – а именно, что вмешательство не делает людей более счастливыми или более здоровыми – и доказывает, что лечение фактически работает.

SN: Много умных людей читает Науку. Результаты говорят, что p-значение 0.04.

Как Вы сказали бы это в предложении? Журналистский способ обращаться с ним состоит в том, чтобы сказать, что существует меньше чем 5%-й шанс, что результаты вводят в заблуждение. Но это делает Вас, парни ощетиниваются.V.D.G.: Мне действительно не нравится так слишком много.

Если существует p-значение 0,04, оно говорит, что вероятность – только 0,04 или каждое 25-е, что Вы видели бы результаты в величине, которую Вы видели или еще больше, если не было истинных результатов вакцины. Научные читатели должны знать, я верю, какое p-значение.SN: Я могу поместить тонкость на него. Я думаю, что это означает, что существует меньше чем 5%-й шанс, что я собираюсь сказать, что это работало, когда это действительно не сделало.

V.D.G.: Дело не в этом. Это действительно не как этот.

Вот в чем разница между, я владею домом, или дом владеет мной. Это – два различных понятия. При попытке заставить меня отрекаться как Томас Мур в возрасте Генри от этих VIII, Вы оказываетесь перед необходимостью иметь большой большой топор.

Я не собираюсь отрекаться.SN: Но средний человек думает, что Вы сделали исследование, и Вы хотите удостовериться, что Вы не делаете ошибку. Что-то могло произойти случайно, и Вы могли принять что-то, что реально, когда это не.

И «реальным» я имею в виду что-то, что не было бы восстанавливаемо, если Вы должны были сделать это снова.V.D.G.: Воспроизводимость является большим аргументом, и я думаю, что это – точное замечание.

Другим путем Вы могли сказать, что это, предполагают, что вакцина ничего не делает, это – вода. Если бы мы сделали времена эксперимента 25, то мы ожидали бы, что каждый 25-й раз получит результаты, которые являются столь же большими или больше, чем те, мы видели.SN: какова фраза, которую Вы читаете в газете или слышите на утренних новостях, заставляющих пар выйти из Ваших ушей?V.D.G.: Вероятно, самый расстраивающий, это – вероятность, что вакцина работает, который является различным понятием.

Было бы лучше сказать, что Вы сделали времена эксперимента 25, и вакцина действительно не работает, но один в 25 Вы получаете результаты, столь же впечатляющие как те, Вы видели. Это не собирается общаться Вашей аудитории?SN: Это.

Но это – много слов.V.D.G.: Если у Вас есть немного вставки, Вам необходимо сказать так много.

SN: Вы знаете, что действительность – то, что редактор будет смотреть на это и идти, ждать секунда, простой английский здесь является p-значением, отключенным 5%-х средств, у нас есть 95%-я уверенность, что это реально. Это сидит хорошо с Вами?V.D.G.: Нет! Нет!

То, что это реально? Это не вероятность, что вакцина работает. Это зависит от того, что «это реально», означает. Вы говорите, «Почему Вы не можете сказать это просто?» Вы видите, что язык все время и клиницисты интерпретируют его неправильно.

Это походит на Тора.SN: Я понимаю, что это добирается под Вашей кожей, но это не кажется неправильным мне. Это походит на поэтическую вольность.V.D.G.: Вы говорите, что это – поэтическое различие?

Я говорю, нет, это – огромное качественное различие между тем, что это исследование показывает и заявление, что мы думаем вероятность, что вакцина работает, 96%.SN: мы в куске его теперь. Я знаю, что это – pissing Вы прочь.V.D.G.: Право.

SN: среднему человеку вероятность вакцина работала, одна треть времени – то, что говорит исследование. По всей вероятности эта вакцина работает один из трех раз.V.D.G.: Нет. Это не говорит это.

Это – просто оценка пункта с огромным доверительным интервалом. С p-значением меньше чем 0,05 то, что это говорит, – то, что Вы на 95% уверены, что при репликации этого исследования 20 раз, 19 из эти 20 раз доверительного интервала Вы оценили, содержал бы правду. Добавление доверительных интервалов к этому было бы полезно.

SN: причиной, которая является таким образом неудовлетворяющая большинству людей, является доверительный интервал, вот 1.7 к 51,8. Та идея заставляет мозг стать разъединенным. Моя уверенность – то, что это работало где-нибудь между 1% и 52% времени?

Что это означает? Ничто.V.D.G.: Это означает, что Вы действительно не знаете, работало ли это или нет.

Другими словами, Вы не намного далее, чем Вы были перед стартом.SN: Я предполагаю, что это была бы забава посмотреть на доверительный интервал чего-то, что ясно работало.V.D.G.: Я думаю, что это – большой пункт.

Таким образом, мы могли посмотреть на доверительный интервал на тройной терапии с антиретровирусными средствами по сравнению с двойной терапией. [Это было прорывом в 1996, приведшим к первому сильному лечению ACTG 320 анти-ВИЧ, было одно из первых исследований, показавших это.]SN: Я помню, когда я увидел данные в первый раз. Я сказал, «О, это – то, на что это похоже, когда антиретровирусные средства работают».

Я посмотрел на одно понижение и сказал, «я никогда не видел что прежде». Каков был доверительный интервал?

V.D.G.: У Меня есть данные здесь. Конечная точка была СПИДом или смертью, и у Вас было вдвое меньше людей, у которых были СПИД или смерть в хорошей руке по сравнению с плохим. Доверительный интервал был к 0,76. P-значение было 0.001.

SN: таким образом, даже в чем-то, что действительно работает, это все еще говорит, что это уменьшило СПИД или смертельные случаи где-нибудь между 33% к 76%.V.D.G.: Существует все еще определенное количество изменчивости, Вы правы. Главное, которое это отражает, испытывает изменчивость. То, что 0,33 и 0,76 средства, если бы Вы тиражируете это 20 раз, 19 раз из 20 в среднем, что интервал содержал бы правду.

SN: Люди говорят мне все время: «При необходимости в статистике, чтобы знать, имеет ли это значение, тогда это не имеет значения».V.D.G.: Это – то, где они неправы.

Возьмите пример средств против ретровирусов, где Вы получили маленькие результаты с исследованиями отдельных наркотиков по сравнению с двумя медикаментозными лечениями, что Вы действительно, возможно, не обнаружили без правильного вида исследования и правильного вида статистики. И затем мы построили до более мощного результата, когда мы объединили три наркотика. Иногда Вы делаете прыжок, не требующий этого типа тщательного исследования, потому что это не является возрастающим. Но возрастающие улучшения часто наиболее эффективно исследуются при помощи статистических методов.

SN: Переключая механизмы, Вы назвали 0,05 сокращения «фетишем».V.D.G.: Это – лотерейная идея.

Каждый рассчитывается, и Вы переходите от мультимиллионера к нищему. Это – совершенно произвольная вещь. Вы отделяете спасенный от проклятого на основе числа. Что делает 95%-й доверительный интервал, которым полезная идея состоит в том, что это сделано довольно непротиворечивым через исследования, таким образом, Вы видите доверительный интервал, и это имеет подобное значение.

SN: Но в реальном мире при достижении статистического значения 0,05 в исследовании продвигается продукт.V.D.G.: Ну, американское Управление по контролю за продуктами и лекарствами требует двух исследований, достигающих 0.05. И два исследования в 0,05 являются намного более высоким уровнем защиты, если те – два независимых исследования. Это 0.05 раза 0.05, который является 0.0025.

Вот почему они требуют два. Одно исследование в.05 не означает много. При выполнении большого количества исследований вероятность, что у Вас будет тот, достигающий 0.05, может быть довольно высокой.Это – другой пункт, который должен быть учтен – многократные сравнения.

Если бы это было единственным исследованием вакцины, когда-либо делавшимся, то Вы интерпретировали бы его по-другому, чем если бы было много исследований, включая исследования с теми же двумя компонентами, которые были отрицательны.SN: Вы предлагаете объединить два сделанные более ранних исследования эффективности вакцины против СПИДа?V.D.G.: Вы смотрите на все количество доказательств.

Для эффективности вакцины это действительно не выглядит настолько хорошим. Если это было p-значением 0,001, как ACTG 320, это является впечатляющим даже в контексте связки продолжения исследований, некоторые положительные, некоторое отрицание. 0.04 в контексте других исследований не являются действительно впечатляющими. Вероятность, что одно из этих исследований дало бы нам 0,04 результата, составляет 11,5%.

Это примерно сопоставимо с шансом получения глаз змеи при броске игры в кости три раза.Если Вы делаете много исследований и связка их положительны, то Вы становитесь очень, очень взволнованными, что-то продолжается. Если Вы делаете связка исследований и только один из них положительны, то Вы не так входите в азарт.SN: это – точно противоположность того, что происходит.

В реальном мире области как вакцина против СПИДа у каждого есть так много неудачи, что, когда исследователи видят положительные данные, они говорят, Эврика!V.D.G.: Это – положительная сторона. Но Вы должны принять во внимание контекст.

В конечном счете, если Вы играете в кости, Вы собираетесь стрелять в семь или 11. Вы могли сказать, «Ну и дела, я бросил так много раз и не получил победителя, но тогда я молился своему местному божеству и получил семь. Сначала я молился этому святому и затем другому и затем к третьему, и наконец я молился к местному и получил семь». Это – святой, работавший на Вас.

Это – то, как люди рассуждали в течение незапамятного времени, пока люди не начали становиться статистическими – и начали бороться с людьми как Вы.SN: Если область вакцины против СПИДа имеет положительное открытие, что делает это должно быть, прежде чем люди могут сказать, «Мы можем взять это к банку, это реально, это хорошо».

V.D.G.: Вы хотите видеть хорошее, здоровое, сильное p-значение, по крайней мере меньше чем 0,01. Тогда Вы действительно начинаете говорить о чем-то, на чем Вы хотите поместить свои деньги.Если Вы – обжора для наказания и хотите далее исследовать определение p-значения, просмотреть страницу Википедии на предмете. Нельзя доказать ни с каким градусом уверенности, что статистики фактически написали страницу, но по всей вероятности, они сделали.

Определение иллюстрирует, почему понятие заставляет даже очень умных людей достигнуть для их баров: «В статистическом испытании гипотезы p-значение является вероятностью получения испытательной статистической величины, по крайней мере, столь же чрезвычайной как та, фактически наблюдавшаяся, предполагая, что нулевая гипотеза верна». И страница Wiki убедительно тратит больше пространства на «частые недоразумения», чем это делает на самом определении.


Блог Ислама Уразова