June 20th, 2020

Еще раз о статистике вируса

Пару недель назад я писал о ненадежности статистических данных, связанных с эпидемией и приводил несколько примеров, касающихся динамики тестирования в США. Вот еще в ту же корзину.

Сайт https://covidtracking.com/data/us-daily показывает ежедневную динамику по стране, включая динамику тестирования. Данные получаются сложением цифр по штатам. Попробуем же посмотреть, что это за цифры.

Вот Техас - https://covidtracking.com/data/state/texas

Про него написано - "As of May 16, Texas is reporting mostly specimens tested, except for the small number of tests performed by public labs, which are de-duplicated. As of May 23, Texas is separating out PCR and antibody tests; we report the number of PCR tests. Total tests might be impacted". То есть Техас показывает данные по тестированию с разделением на ПЦР и антитела, и эти агрегаторы учитывают только тесты ПЦР. И даже эти данные могут быть сильно испачканы непоследовательным подходом к дублированию, если одни лаборатории проводят очистку итоговых цифр от повторых тестов (то есть показывают суммарное число людей, прошедших тесты), а другие лаборатории такую очистку не проводят, то есть показывают суммарное число тестов, даже если среди них были повторные.

Свои цифры агрегаторы подкрепляют скриншотами соответствующих сайтов штатов, делая их несколько раз в день. Соотстветственно, мы можем сравнить скриншоты на конец вчерашнего рабочего дня (четверг 18 июня) и конец сегодняшнего рабочего дня ( пятница 19 июня). Мы видим, что по состоянию на 19 июня, в Техасе было всего протестировано 1,623 тысячи человек. Чуть ниже сообщается, что тестов ПЦР сделано 1,424 тысячи, а тестов на антитела - 153 тысячи. Но цифры тестов на ПЦР и антитела указаны по состоянию на предыдущий день, 18 июня, поэтому в сумме они дают 1,577 тысяч, указанную как общую в скриншоте за предыдущий день. Очевидно, агрегаторы не углядели, что разбивка по видам тестов на скриншотах дается не от итоговой суммы на том же скриншоте, а от итоговой суммы за предыдущий день - и поэтому расчетную величину ежедневных тестов ПЦР постоянно сдвигают на день позже, чем следует, тем самым внося искажение и в цифры ежедневных данных по стране в целом.

Переходим к Нью-Йорку - https://covidtracking.com/data/state/new-york

Про нью-йоркские тесты агрегаторы ничего не пишут. Правда, они пишут нечто другое, в некотором роде более поразительное - "There is a significant gap between deaths reported by New York City and New York State. As of 6/1, the difference between the state reported deaths, which we use, and the NYC deaths was 5740". Но про тесты - ничего. На скриншотах же видно, что штат Нью-Йорк сообщает просто общее число тестов, без детализации по ПЦР и антителам. На самом сайте штата в разделе FAQ о происхождении данных по тестированию сообщается крайне энигматично - мол, они даются по базе данных, куда собираются цифры, сообщаемые лабораториями.

Таким образом, в общенациональный учет тестов, который ведут агрегаторы, попадают цифры Техаса по тестам ПЦР, то есть очищенные от данных тестов на антитела (но не полностью очищенные от двойного счета) - и цифры Нью-Йорка, про которые мы ничего не знаем, очищены ли они от тестов на антитела и от двойного счета.

При этом если бы Техас не проводил раздельный учет, то цифры у агрегаторов за сегодняшний день были бы не 16 тысяч, а 46 тысяч, в три раза больше (даже отвлекаясь от того факта, что они ошибочно сдвигают свои данные на один день).

И это все, конечно, в предположении, что лаборатории исправно и аккуратно передают властям штата полные ежедневные данные о количестве тестов...