Boris Lvin (bbb) wrote,
Boris Lvin
bbb

Categories:

Еще раз о статистике вируса

Пару недель назад я писал о ненадежности статистических данных, связанных с эпидемией и приводил несколько примеров, касающихся динамики тестирования в США. Вот еще в ту же корзину.

Сайт https://covidtracking.com/data/us-daily показывает ежедневную динамику по стране, включая динамику тестирования. Данные получаются сложением цифр по штатам. Попробуем же посмотреть, что это за цифры.

Вот Техас - https://covidtracking.com/data/state/texas

Про него написано - "As of May 16, Texas is reporting mostly specimens tested, except for the small number of tests performed by public labs, which are de-duplicated. As of May 23, Texas is separating out PCR and antibody tests; we report the number of PCR tests. Total tests might be impacted". То есть Техас показывает данные по тестированию с разделением на ПЦР и антитела, и эти агрегаторы учитывают только тесты ПЦР. И даже эти данные могут быть сильно испачканы непоследовательным подходом к дублированию, если одни лаборатории проводят очистку итоговых цифр от повторых тестов (то есть показывают суммарное число людей, прошедших тесты), а другие лаборатории такую очистку не проводят, то есть показывают суммарное число тестов, даже если среди них были повторные.

Свои цифры агрегаторы подкрепляют скриншотами соответствующих сайтов штатов, делая их несколько раз в день. Соотстветственно, мы можем сравнить скриншоты на конец вчерашнего рабочего дня (четверг 18 июня) и конец сегодняшнего рабочего дня ( пятница 19 июня). Мы видим, что по состоянию на 19 июня, в Техасе было всего протестировано 1,623 тысячи человек. Чуть ниже сообщается, что тестов ПЦР сделано 1,424 тысячи, а тестов на антитела - 153 тысячи. Но цифры тестов на ПЦР и антитела указаны по состоянию на предыдущий день, 18 июня, поэтому в сумме они дают 1,577 тысяч, указанную как общую в скриншоте за предыдущий день. Очевидно, агрегаторы не углядели, что разбивка по видам тестов на скриншотах дается не от итоговой суммы на том же скриншоте, а от итоговой суммы за предыдущий день - и поэтому расчетную величину ежедневных тестов ПЦР постоянно сдвигают на день позже, чем следует, тем самым внося искажение и в цифры ежедневных данных по стране в целом.

Переходим к Нью-Йорку - https://covidtracking.com/data/state/new-york

Про нью-йоркские тесты агрегаторы ничего не пишут. Правда, они пишут нечто другое, в некотором роде более поразительное - "There is a significant gap between deaths reported by New York City and New York State. As of 6/1, the difference between the state reported deaths, which we use, and the NYC deaths was 5740". Но про тесты - ничего. На скриншотах же видно, что штат Нью-Йорк сообщает просто общее число тестов, без детализации по ПЦР и антителам. На самом сайте штата в разделе FAQ о происхождении данных по тестированию сообщается крайне энигматично - мол, они даются по базе данных, куда собираются цифры, сообщаемые лабораториями.

Таким образом, в общенациональный учет тестов, который ведут агрегаторы, попадают цифры Техаса по тестам ПЦР, то есть очищенные от данных тестов на антитела (но не полностью очищенные от двойного счета) - и цифры Нью-Йорка, про которые мы ничего не знаем, очищены ли они от тестов на антитела и от двойного счета.

При этом если бы Техас не проводил раздельный учет, то цифры у агрегаторов за сегодняшний день были бы не 16 тысяч, а 46 тысяч, в три раза больше (даже отвлекаясь от того факта, что они ошибочно сдвигают свои данные на один день).

И это все, конечно, в предположении, что лаборатории исправно и аккуратно передают властям штата полные ежедневные данные о количестве тестов...
Tags: virus
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 4 comments