ДОВЕРИТЕЛЬНОЕ ОЦЕНИВАНИЕ ДЕМОГРАФИЧЕСКИХ КОЭФФИЦИЕНТОВ НА ПРИМЕРЕ КОЭФФИЦИЕНТОВ СМЕРТНОСТИ
Евгений Андреев, Дмитрий Жданов, Домантас Ясилионис
В большинстве случаев демографы игнорируют стохастическую природу демографических коэффициентов, в том числе коэффициентов смертности. Но рост интереса к смертности и долголетию малых групп населения требует надежных решений для доверительного оценивания соответствующих показателей смертности. В статье предлагается формула апостериорного распределения коэффициента смертности в однородной группе населения. На ее основе строится доверительная область значений коэффициента смертности. Методами стохастической симуляции строятся доверительные области для кумулятивных характеристик смертности, в том числе для продолжительности жизни.
Ключевые слова: демографический коэффициент, демографическая вероятность, доверительная область, продолжительность жизни, доверительное оценивание.
Введение
В демографии вероятности демографических событий (рождений, смертей, браков, разводов и миграций) повсеместно вычисляются на основе уникального наблюдения, причем никакие оговорки, что данная эмпирическая относительная частота есть случайная реализация и может отличаться от объективной вероятности данного события, обычно не делаются. Тем более никто не оценивает вклад случайной составляющей в рассчитанный показатель, когда речь идет о демографических коэффициентах. В отличие от вероятностей, демографические коэффициенты (иногда центральные демографические коэффициенты) измеряют не вероятность события в течение интервала времени или возраста для некоторой совокупности людей, входящих в этот интервал, а среднюю интенсивность процесса в совокупности, определенной такими признаками, как время события, возраст, территория и, возможно, какими-то еще. Они вычисляются как число событий, деленное на число человеко-лет, прожитых совокупностью в период наблюдения (будем кратко говорить «население-под-риском»), при соблюдении условий, выделяющих совокупность. В отличие от вероятностей, к коэффициентам классическая схема испытаний Бернулли для оценки вероятности определенного исхода не применима. Поэтому, хотя далее в нашей статье будут рассматриваться и вероятности, основное внимание будет уделено именно коэффициентам.
Евгений Михайлович Андреев, Центр демографических исследований российской экономической школы. Россия. E-mail: [email protected].
Дмитрий Александрович Жданов, Институт демографических исследований Общества Макса Планка, Германия и Российская экономическая школа.
Домантас Ясилионис, Институт демографических исследований Общества Макса Планка, Германия.
Статья поступила в редакцию в ноябре 2014 г.
Цель данной статьи - предложить относительно простые формулы для апостериорной оценки возможных границ истинной интенсивности демографического процесса (истинной демографической вероятности или истинного демографического коэффициента), исходя только из числа событий и числа их потенциальных участников. Формулы применимы для любого процесса, но для простоты изложения мы ограничимся смертностью. Число потенциальных участников события при расчете вероятности смерти определяется численностью совокупности на начало периода наблюдения, для коэффициента смертности - числом человеко-лет, прожитых населением-под-риском в период наблюдения. Предлагаемые формулы справедливы как для возрастных показателей смертности от всех причин, так и показателей смертности от отдельных причин. Мы также попытаемся охарактеризовать ситуации, когда оценка границ истинной интенсивности имеет смысл, т.е. разница между классической точечной оценкой показателя и его истинным значением может быть существенной. Опираясь на эти формулы, мы предложим схему доверительной оценки не только коэффициентов смертности, но и кумулятивных показателей, например, ожидаемой продолжительности жизни.
Мы будем исходить из допущения, что демографические процессы - это массовые случайные процессы, а демографические вероятности - реальные свойства этих процессов, которые существуют независимо от статистики, но могут быть оценены на основании данных статистического наблюдения. Мы предполагаем, что, помимо наблюдаемых реализаций демографических вероятностей и коэффициентов, существуют ненаблюдаемые (латентные) истинные вероятности и коэффициенты. Именно эти ненаблюдаемые характеристики могут описывать демографический процесс целиком и полностью. В частности, это допущение означает, что демографическая вероятность должна рассматриваться как случайная величина и наблюдаемая частота есть одна из ее возможных реализаций. Таким образом, вероятность не может быть вычислена точно по данным статистики, но возможно с той или иной точностью оценить ее функцию распределения. Следует подчеркнуть, что предложенный подход полностью соответствует принципам математической статистики и даже термин истинное значение позаимствован нами из теории доверительного оценивания, минимум необходимой информации о которой читатель может найти в «Математической энциклопедии» [Линник, Халфина 1979].
1. История вопроса
В начале своего развития демография и теория вероятности соприкасались весьма тесно. Имена Джона Граунта и Вильяма Петти с равной частотой упоминаются в работах по истории науки о населении и истории теории вероятностей [Гнеденко 2001]. А вторая глава диссертации юриста и математика Николаса Бернулли (племянник Якоба Бернулли, автора первой из многочисленных предельных теорем) «О применении искусства предположений в вопросах прав», представленной для получения ученой степени лиценциата называлась «О способе установления вероятности человеческой жизни». Однако примерно в это время пути демографии и теории вероятности начали расходиться, и большинство демографов, включая ныне здравствующих, не смирились со стохастической природой демографических событий и продолжают пользоваться детерминистской моделью
населения, в которой вероятность в точности равна отношению числа событий к числу испытаний. В подавляющем большинстве демографических учебников, включая, например, весьма известные [Caselli, Vallin, Wunsch 2006; Preston, Heuveline, Guillot 2001; Shryock, Siegel 1980], отсутствует комментарий об особенностях демографического понимания вероятности. То же можно сказать и о русскоязычных учебниках. В «Демографическом энциклопедическом словаре» [1985] сказано: «Вероятность демографического события ... выражается отношением числа людей, с которыми в течение определенного времени произошло данное демографическое событие ..., к числу людей, с которыми это событие могло произойти (например, вероятность рождения первенца есть отношение числа первенцев, рожденных за год, к числу женщин на начало года, не родивших еще ни одного ребёнка)».
Одновременно исследователи прекрасно понимали, что расчет вероятности демографического события при малой численности населения - дело неблагодарное, так как случайные колебания исследуемого показателя сведут все усилия на нет. И все же представляется, что до серии исследований Чин Лон Чанга (Chin Long Chiang), начатых в 1960 г. и завершившихся монографией «Таблица смертности и ее применения» [Chiang 1984], четкое представление о стохастической природе демографических вероятностей в демографии отсутствовало.
При этом в смежных областях эпидемиологии и социологии понятия вероятности и относительной частоты изначально строго различались, и указание доверительного интервала для показателей был обязательным атрибутом научных публикаций. Да и в самой демографии при моделировании демографических процессов все большее место занимали стохастические модели населения. Однако и в классической работе ведущего математического демографа второй половины ХХ века Натана Кейфитца «Прикладная математическая демография» [Keyfitz 1977], и в его блестящем библиографическом обзоре современного состояния математической демографии [Keyfitz 1976], несмотря на многочисленные упоминания стохастических демографических моделей, вопрос о стохастической природе демографических вероятностей не затрагивается. Имя Чанга и его работы упоминаются неоднократно, но не в контексте необходимости оценивать дисперсию или стандартную ошибку демографических вероятностей.
В предисловии к первому изданию «Прикладной математической демографии» [Keyfitz 1977] Кейфитц пишет: «Искусство построения теории в том, чтобы начать с простого предположения, а затем по мере необходимости приближать теорию к реальности, что всегда означает усложнение. На этом пути от простоты к реальности надо остановиться на точке компромисса». И далее в начале второй главы: «Таблица смертности построена в терминах вероятностей для отдельных лиц, но и для населения в целом это детерминированные модели смертности и дожития. То, что она представляет только средние значения и игнорирует случайные колебания, противоречит тому, как работает природа, и, в частности, упрощает демографические механизмы, но дает на этой основе огромное множество полезных результатов. Ценность метода прямо пропорциональна полученным результатам и обратно пропорциональна его сложности».
Таким образом, вопрос заключается в том, насколько существенно или несущественно влияет на демографические показатели тот факт, что при их определении мы полностью игнорируем их стохастическую природу и рассматриваем объективную реальность как строго детерминированную демографическую модель.
В работах Чин Лон Чанга предложены чрезвычайно простые формулы для оценки статистической точности вероятности смерти и коэффициента смертности и несколько более сложные процедуры для оценки статистической ошибки показателей дожития и продолжительности жизни. Формулы Чанга позволяют увидеть область, за пределами которой применение математико-статистических оценок не дает никакого эффекта.
Уместно ответить на вопрос, почему, столь высоко оценивая вклад Чанга в решение проблемы оценки статистической вариации демографических показателей, мы сочли необходимым еще раз вернуться к ее рассмотрению.
Дело в том, что предложенный Чангом в начале 1960-х годов метод оценки вариации вероятностей и коэффициентов смертности, изложенный в трех статьях, название которых начинается со слов «Вероятностное изучение таблиц смертности и их приложений» [Chiang 1960a; 1960b; 1961], все же не свободен от недостатков. Далее мы пользуемся наиболее подробным изданием [Chiang 1984].
Согласно Чангу число смертей есть случайная величина, подчиняющаяся биномиальному распределению.
При построении доверительного интервала для вероятности смерти Чанг делает следующие допущения. Предполагается, что число смертей есть случайная величина, подчиняющаяся биномиальному распределению. Далее допускается, что это биномиальное распределение может быть приближено нормальным распределением (при соблюдении определенных условий). Таким образом, вероятность смерти оценивается на основе центральной предельной теоремы. Такой ход рассуждений весьма типичен для специалистов в выборочном методе, но не безукоризнен.
Первая трудность - аппроксимация биномиального распределения нормальным возможна, если число умерших и число доживших до конца периода больше 9 [Sachs 1982: 164]. Трудность не столь существенная, потому что можно и не заменять биномиальное распределение нормальным, а провести все расчеты для вероятности смерти непосредственно на основе биномиального распределения. Но тогда, как мы увидим далее, не удастся использовать формулы для дисперсии суммы, произведения и аналогичные и сравнительно просто определить доверительную область для чисел доживающих таблицы смертности и для продолжительности предстоящей жизни. Придется использовать более сложный метод стохастический симуляции [Andreev, Shkolnikov 2010].
Вторая трудность связана с использованием частот (т.е. оценки максимального правдоподобия для вероятностей в схеме Бернулли) в качестве параметров нормального распределения. При частотах, близких к 0 или 1, оценки максимального правдоподобия параметров биномиального распределения не являются корректными [Wilson 1927; Agresti, Coull 1998; Sauro, Lewis 2005; Lewis, Sauro 2006; Lewis, Sauro 2012: 19-39].
В демографии допущение, что истинная вероятность смерти равна наблюдаемой относительной частоте, в частности означает, что, если относительная частота смертей равна 0, то и вероятность смерти равна 0, а доверительная область вырождается в точку. Иначе говоря, если в некоторой совокупности в течение данного периода никто не умер, то и вероятность смерти в этой совокупности была в рассматриваемый период равна 0,
В отличие от вероятности смерти коэффициенту смертности в общем случае невозможно сопоставить определенное число испытаний, необходимое для реализации схемы Бернулли. Чанг предлагает следующее решение. Исходя из коэффициента смертности, с помощью формулы, получившей имя Чанга, рассчитывается вероятность смерти. Число потенциальных участников определяется как отношение числа умерших и этой вероятности смерти. Далее определяется стандартная ошибка биномиально распределенной случайной величины «число умерших», а потом и коэффициента смертности.
Если бы коэффициент смертности реально относился к возрастному интервалу в жизни некоторой, изменяющейся только под действием смертности, когорты, то данное построение было бы вполне корректным. Однако в общем случае возникают еще две трудности (третья и четвертая в общем списке).
Третья трудность не столь серьезна. Согласно Чангу наблюдаемая вероятность смерти равна
п • М
Я =
1 + (1 - а) • п • М
где М - коэффициент смертности в данной возрастной группе, п - длина возрастного интервала, а а - доля возрастного интервала, прожитого теми, кто умер в этом возрастном интервале. Легко убедиться, что при заданных числе умерших и населении-под-риском результаты расчета мало зависят от п и а .
Четвертая трудность связана с тем, что при расчете коэффициента смертности в календарный период для некоторого интервала возрастов даже в отсутствии миграции число индивидов, формирующих население-под-риском, очень далеко от численности, полученной в результате деления числа умерших на вероятность смерти. Человек может прожить в данном календарном году и данном одногодичном интервале возраста время длительностью от части дня до 1 года. Как следствие, если сила смертности постоянна, то индивидуальная вероятность умереть может колебаться от почти 0 до величины, полученной по формуле Чанга. К такой реальной совокупности схема Бернулли заведомо неприменима.
В открытом населении ситуация еще более сложная. Достаточно напомнить классический труд Паевского [1934]. Однако, как следует из приведенных ниже Теорем 2 и 3, доверительная область коэффициента смертности зависит только от числа умерших и населения-под-риском, она одна и та же для когорты и календарного периода, открытого и замкнутого населения. В случае реального поколения без миграции прием, примененный Чангом, полностью оправдан. Поэтому и в общем случае его формулы работают вполне
успешно, если только совокупность живущих достаточно велика, а вероятность смерти не слишком близка к 0 или 1.
Основное отличие развитого далее метода от ранее применявшихся в том, что в процессе оценивания мы не пользуемся допущением, что относительная частота смертей совпадает или, по крайней мере, очень близка к истинной вероятности. Как показали многие численные эксперименты, о чем речь пойдет далее, наибольшие трудности связаны именно с допущением о близости наблюдаемой и истинной интенсивности смертности. Допущение, что истинная вероятность близка к наблюдаемой, ведет к уменьшению доверительной области. Схема, при которой сначала осуществляется переход от коэффициента к вероятности, затем - оценивание доверительной области для вероятности и обратный переход, дает доверительную область, достаточно близкую к оцененной непосредственно на основе коэффициентов.
Основной результат данной статьи - функции апостериорного распределения вероятности смерти при заданных числе смертей и начальной численности совокупности и коэффициента смертности при заданных числе смертей и населении-под-риском. В данном случае мы рассматриваем вероятность смерти как параметр распределения Бернулли. Используя найденные функции распределения, можно оценивать доверительные области показателя и получать приближенные оценки кумулятивных показателей смертности.
2. Апостериорная функция распределения демографических вероятностей
Апостериорная функция распределения вероятности смерти может быть оценена на основе схемы испытаний Бернулли.
Теорема 1. Пусть Р есть численность группы в начале фиксированного временного интервала и ° есть число смертей в этой группе в течение данного временного интервала. Также предположим, что группа гомогенна с точки зрения рассматриваемого события, или, что тоже самое, что одна и та же вероятность смерти свойственна каждой непустой подгруппе рассматриваемой группы. Тогда вероятность того, что истинная вероятность смерти ч < ч есть
ч
3° -(1 -3)Р-° ■ /(3) йЗ
Рг( ч < ч | °, Р) = 7-,
3° -(1 -3)Р-° ■ /(3) йЗ
о
где /(ч) есть функция плотности априорного распределения случайной переменной ч, основанная на некоторой предшествующей информации относительно вероятности смерти
ч.
Доказательство
Согласно формуле, основанной на схеме испытаний Бернулли, если ч есть вероятность события, то вероятность того, что при Р наблюдениях произойдет " событий, равна
Рг(Б, Р | q) =
ГР ^
Р 1 ч"-(1 - чГ^ (1)
V " у
• и
Если ч есть случайная величина с плотностью распределения /(ч), то
( Р1 е1
Рг(", Р) = ^Р- (1 - 3)Р-" - /(З) ёЗ.
Согласно теореме Байеса для плотности вероятности условная функция распределения для ч есть
ч
З" -(1 -З)Р-" - /(З) ёЗ Рг(ч < ч |Р) = \1--(2)
З" -(1 -З)Р-" - /(З) ёЗ
0
Что и требовалось доказать.
В отсутствие какой-либо дополнительной информации о вероятности смерти ч можно полагать, что все ее возможные значения равновероятны, т.е. /(ч) - плотность равномерного распределения на {0,1}. Такое решение вытекает из общенаучного принципа индифферентности, сформулированного еще в работах Лапласа и Бернулли [Гнеденко 2001: 386-394]. Тогда формула приобретает вид:
\з" -(1 -З)РёЗ
Рг(ч < ч |Р) = 0--(3)
З" -(1 -З)РёЗ
0
Выражение в правой части (3) есть в точности кумулятивная функция распределения для Бета-распределения В(ч,а,3) с параметрами а = " +1, ¡ = Р - " +1.
3. Апостериорная функция распределения коэффициентов смертности
Если численность когорты меняется не только под действием смертности, но и в результате пространственной или социальной мобильности, то непосредственный расчет вероятности смерти невозможен и приходится для когорт получать не вероятности, а (центральные) демографические коэффициенты. При расчетах для календарных периодов, как правило, могут быть вычислены только коэффициенты.
Коэффициент смертности равен отношению числа умерших в данном интервале возрастов в данном состоянии к числу человеко-лет жизни, прожитых членами данной совокупности в заданном интервале возрастов. Мы будем использовать стандартное для демографии графическое представление демографических событий, именуемое диаграммой Лексиса (рисунок 1).
Г- 1 t Г+1 ? + 2 Время г. 1 , ( + 2 вРемя
Рисунок 1. Диаграмма Лексиса. Изображение на плоскости интервала возраста в поколении родившихся в течение некоторого года (слева) и в населении в некоторый
период времени (справа)
На плоскости с координатами время и возраст жизнь отдельного человека в пределах рассматриваемой совокупности изображается наклонной линией, которая начинается либо в результате рождения, т.е. в возрасте 0, либо вследствие социальной или пространственной мобильности, такое начало на рисунке 1 отмечено белым кружком, а заканчивается либо миграцией из совокупности (черный кружок), либо смертью, обозначенной буквой "х".
В случае поколения интересующая нас область - косоугольный параллелограмм, если мы рассматриваем смертность в течение периода времени - прямоугольник. Число человеко-лет жизни, прожитых членами данной совокупности в данном интервале возрастов, - суммарная длина отрезков линий жизни, входящих в рассматриваемую фигуру.
Обозначим население-под-риском через Е (от соответствующего английского термина «exposure-to-risk»). Коэффициент смертности М равен отношению Б/Е.
Схема испытаний Бернулли для демографических коэффициентов применена быть не может. Собственно говоря, мы даже не можем сказать, отрезки жизни какого числа индивидуумов вошли в Е. То есть никакого аналога формулы (1) существовать не может.
Теорема 2. Пусть Е есть число человеко-лет, прожитых в полуинтервале возрастов ^: х <£ < х +1 когортой родившихся в период времени {У1 ,У2 ), и В есть соответствующее число умерших. Допустим, что сила смертности постоянна в соответствующем когортном
параллелограмме. Тогда вероятность того, что истинное значение демографического коэффициента М не превосходит значения некоторого М, равна
М
| у° ■ е■ (р(у
Рг(М < М | Б, Е) = --(4),
| Vй ■ е~гЕ ■((V
где р(М) есть некая априорная функция распределения для случайной величины М, основанная на некоторой предшествующей информации относительно М. Мы
ад
предполагаем, что интеграл | р(М) ■ е~а'М ёМ сходится при любом а > 0.
о
Доказательство
Если сила смертности и постоянна в некотором когортном параллелограмме (рисунок 2), то она равна соответствующему коэффициенту смертностиМ. Действительно, число смертей может быть записано как Б = |е(х, г) ■ ¿и(х, г)ёхёг, гдее(х, г) - плотность
ЛБОБ
распределения живущих по возрасту и времени. Поскольку и - константа, то Б = ¿и^ х, г)ёхёг = ¿и^ Е или и = Б/Е. Отношение в правой части и есть коэффициент
ЛБОБ
смертности.
Для доказательства теоремы мы сконструируем воображаемое поколение,
удовлетворяющее условиям Теоремы 1. Для этой цели мы разобьем параллелограмм на п
равных малых параллелограммов (рисунок 2). Представим себе когорту, объединяющую
1 к тех, кто дожил до возраста х, до возраста х н— и так далее до некоторого возраста х + —,
п п
п —1
где (1 < к < п — 1), и наконец, до возраста х +--. Пусть Рп означает общую численность
п
когорты. Очевидно, что Рп ^ ад, если п ^ ад .
о
Рисунок 2. Разбиение когортного параллелограмма
Поскольку сила смертности внутри всего большого параллелограмма принята неизменной, то вероятность умереть на протяжении интервала времени 1 / п от нижней до верхней стороны любого малого параллелограмма одна и та же и равна 1 - ехр( —у/п). Поэтому тот факт, что в реальности дожившие до нижней грани малых параллелограммов
1 2 п — 1
находятся в разных возрастах, равных х, х + —, х + —, ..., х л--соответственно, роли не
п п п
играет. Теорема 1 может быть приложена к каждому из малых параллелограммов и к их
объединению, так как вероятность смерти в каждом из них одна и та же. Учитывая, что
dq(у\ п) — ехр(—у/ п)
q(у \ п) = 1 — ехр( —у/п) и-=-, мы можем написать
dу п
Рг(у < у \ О, Рп) = Рг( q(У \ п ) < q(у \п ) \ О, Рп) =
q (у\п)
| Ну \ п)0 • (1 — Ну \ п))Рп '0 • /(Ну \ п)^Иу \ п)
0
q( ад|я )
j Ну I n)D • (1 - Ну I n))р D • f (Ну I n)) d&(y I n)
0
Или же
у
|(1 - exp(-v/n))A •(exp(-v/n)D (-exp(-v/n))/n •^(v)dv
_o_
ад
|(1 - exp(-v/n))A • (exp(-v/n))Pn-D(-exp(-v/n))/n •^(v) dv
0 у
" J-v/n ))• • • exp(- (P - D +1) • v/n)
0
Pr(y <y ID, P) =
j(1 - exp(-v/n))A • exp(- (р - D +1) • v/n)• <p(v) dv
J(1 - exp(-v/n))A • exp(- (р - D +1) • v/n)• <(v) dv
0
Число человеко-лет, прожитых когортой в данном полуинтервале возрастов, есть интеграл функции плотности распределения населения в зависимости от времени рождения
х+1 f Л
и возраста наблюдения р(x, y) по параллелограмму E = j jp(%, У)dy d% . Ясно, что число
x U )
к Y2 к n-1 \
доживших до возраста x +--равно Pkn = Jp(x +--, y)dy . Таким образом, V — • Pkn
n +1 ' • n +1 к=о n '
при n ^ ад может рассматриваться как интегральная последовательность для внешнего
интеграла. Это означает, что E = Pn •1 + о(1/ n) или р = n • E + n • o(1/ n). (Как обычно,
n
o(1/n) означает бесконечно малую величину порядка выше 1/ n : lim n • o(n) = 0 ). Тогда
J(1 - exp(-v/n))A • exp(- (E + o(1/n))v + (D -1) • v/n)• p(v) dv Pr(ß <ß|D,P) = ^-•
J(1 - exp(-v/n))A • • exp(- (E + o(1/n))v + (D -1) • v /n) • p(v)dv
0
Очевидно, что для любых v, 0 < v < w и n , 0 < n < w, 0 < (1 - exp(-v / n))A < 1 • Кроме того, из определения o() вытекает, что для любого у > 0 можно найти такое n0, что |o(1 /n) + (A -1) /n| < у если n > n0. В таком случае
0 < (1 - exp( -v / n))A • exp(- (E + o(1 / n))v + (D -1) • v / n) < exp(- (E - у) • v).
w
Если E >у , то несобственный интеграл J exp(- (E -у) • v )p(v)dv сходится. Это
0
w
означает, что интеграл J(1 -exp(-v/n))D • exp(-(E + o(1/n))v + (D -1) • v/n)p(v) dv
0
сходится равномерно по n при n > n •
Обозначим подынтегральное выражение I(n, v) . Интеграл в знаменателе может быть
Z
представлен как lim J I(n, v) dv . Равномерная сходимость означает, что
z —'ю j
0
z z
lim lim J I(n, v) dv = lim lim J I(n, v) dv.
n—Z — W j Z — W n—j
0 0
Таким образом, можно вначале перейти к пределу по n, а затем рассчитать интеграл. Сомножитель (1 - exp(-v / n))D подынтегрального выражения может быть заменен его
разложением в ряд Тейлора.
2
Тогда
n -D • vDЛ -1 v / n + - (v / n )2 - - (v / n )3 + ...] l 2 3Г 4!V 7 )
ß '1,1
[n D • vD • I 1--v/n +— (v/n)2 + ... I • exp(- (E + o(n)) • v))- exp(- (D - 1) • v/ra)- <p(v)dv
j_l 2! 3!_)_
lim lim z--—----td-
- — w n — w J n ~D • vD •( 1 - — v / n + - (v / n)2 + ...| • exp (- (E + o(n)) • v))• exp (- (D - 1) • v / n )<v)dv J l 9! I
0 v 2! 3!
j vD • exp(- (E • v)• <pv)dv
= lim
Z
Z — w j vD • exp(- (E • v)• <pv)dv
0
Теорема доказана.
ß
D
Теорема 3. Пусть Е есть число человеко-лет, прожитых в полуинтервале возрастов С : х <С < х +1 населением в период наблюдения , ), и В есть соответствующее число умерших. Допустим, что сила смертности постоянна в соответствующем интервале возраста и на временном интервале (^ — 8, + 8),8> 0. Тогда вероятность того, что
истинное значение демографического коэффициента М не превосходит значение некоторого М, также описывается формулой (4) при тех же допущениях относительно р(М), что и в Теореме 2.
Доказательство теоремы в случае прямоугольника «время наблюдения - возраст» отличается лишь разбиением прямоугольника ЛБСЭ (рисунок 3). Необходимо выбрать столь большое п, чтобы выходящие за пределы временного интервала треугольники (на рисунке окрашены в серый цвет) входили в область, где у неизменна. Для этого достаточно
взять п > 1/8. Дальнейшее доказательство ничем не отличается от доказательства Теоремы 2.
Теорема доказана.
х + 1
в С :
/ У
/ у.
/ /■
/
/
/
/
/ /!
/ /1
/ / 1
А 0 ; 1—!
'г' п
и-д '1
Ч к+0
Рисунок 3. Разбиение прямоугольника «период-возраст»
Легко видеть, что теоремы 2 и 3 справедливы, если В есть дробная величина -оценка числа умерших, возникающая, например, после распределения лиц неизвестного возраста. Но нижеследующее следствие справедливо только для целых В .
Следствие. Если В есть целое число и какая-либо априорная информация о коэффициенте смертности отсутствует, т.е. рр(у) = 1, то
Рг(М < М | В, Е) = 1 — е
-М •Е
к=0
(Е • М )к
к!
(5)
где как обычно 0! = 1 и 00 = 1. Следствие доказывается многократным интегрированием по частям.
Если Б = 0, то сумма по к в (5) есть 1. Если Б > 0, то сумма по к есть отрезок длины Б разложения экспоненциальной функции ехр(Е ■ М) в ряд Тейлора.
Допущение о существовании некоторой априорной информации о величине риска смерти выглядит достаточно неправдоподобным, и далее мы будем предполагать, что функции /(д) и р(М) - плотности равномерного распределения, т.е. в формулах тождественно равны 1.
Далее мы также будем предполагать, что Б есть целое число, а апостериорную функцию распределения коэффициента смертности обозначать через П(М):
п(М) = Рг(М < М | Б, Е)
4. Диапазон возможных значений истинных вероятностей и коэффициентов
Теоремы 1-3 дают возможность на основе единственного наблюдения решить задачу доверительного оценивания, иными словами, определить область наиболее вероятных значений истинных вероятностей или коэффициентов смертности.
Назовем доверительным интервалом значений истинной вероятности или истинного коэффициента с некоторой доверительной вероятностью р отрезок прямой, содержащий истинное значение с вероятностью р . Кратчайшим доверительным интервалом назовем доверительный интервал наименьшей длины.
Для каждой пары Р и Б , соответствующей Теореме 1, и для каждой пары Е и Б , соответствующей Теоремам 2 и 3, и для любой доверительной вероятности 0 < р < 1 выполняются следующие утверждения:
1) точка д0 = Б / Р есть точка максимума плотности распределения Рг(д < д | Б, Р) и М0 = Б /Е есть точка максимума плотности распределения Рг(М < М | Б, Е);
2) кратчайший доверительный интервал включает точки д0 = Б / Р иМ0 = Б / Е соответственно;
3) кратчайший доверительный интервал существует и единственен.
Доказательства этих утверждений для случая коэффициента и вероятности совершенно аналогичны, и мы ограничимся случаем коэффициента смертности, так как свойства распределения (5) менее известны, чем свойства Бета-распределения. Доказательство опирается на явный вид формулы для П(М). Допустим, Б > 0, тогда производная функции П(М), она же плотность распределения ж(М), равна ёП(М) _ ЕБ+1 ■ МБ ■ е-М'Е
ёМ Б!
вторая производная есть
й2 П (М) ЕБ+1 ■е -М Е■ МБ—1, , ^
- -[Б — М ■Е). Отсюда следует, что первая производная имеет
й 2М Б!
единственный максимум при М = Б / Е и первое свойство доказано.
Отметим, что функция л(М) есть вероятностная мера на положительной полупрямой возможных значений коэффициентов смертности.
Возьмем такое Мх, что П(М< 1 — р; тогда существует М2, что П(М^ = 1 — р + П(М,) . Вероятность того, что истинное значение лежит между Мх иМ2, как раз равно р . Если П(М= 1 — р, то М 2 - бесконечность, но в построенном множестве отрезков при условии П(М< 1 — р можно выбрать кратчайший. Очевидно, что кратчайший интервал содержит точку максимума плотности л(М), т.е. точку М0, следовательно второе свойство выполняется.
Обозначим длину кратчайшего отрезка через I и рассмотрим все отрезки этой длины. Если М - левый конец отрезка, то вероятность того, что истинное значение принадлежит отрезку {М1, +1}, есть интеграл по этому отрезку от функции л(М). Известно, что если л(М) имеет единственный максимум, то и функция от Мх, равная интегралу л(М) от Мх до Мх +1, имеет только один максимум, это и есть построенная нами доверительная область.
Если Б = 0, то л(М) = еЕ быстро убывает с ростом М, очевидно кратчайшая область должна начинаться в точке 0, а правый конец может быть найден из соотношения П(М2) = 1 — р.
5. Апостериорные функции распределения кумулятивных
ДЕМОГРАФИЧЕСКИХ ПОКАЗАТЕЛЕЙ И ПОСТРОЕНИЕ ДОВЕРИТЕЛЬНОЙ
области их истинных значений
Любой кумулятивный показатель смертности и (элемент таблицы смертности или таблицы смертности по причинам смерти, стандартизованный тем или иным способом коэффициент, популяционный риск, приписываемый фактору или какой-то другой кумулятивный индикатор) может быть записан как функция от возрастных показателей, которые, возможно, имеют еще некоторые другие характеристики (причина смерти, группа населения и т.д.). Мы ограничимся наиболее распространенным случаем, когда возрастные показатели - коэффициенты. Число участвующих в расчете коэффициентов может быть от нескольких единиц до нескольких сотен.
С точки зрения теории оценивания мы располагаем информацией не о точном значении каждого коэффициента, но можем судить о вероятности, с какой значение коэффициента меньше или равно данному М. Эта вероятность описывается функцией П(М | Б, Е), где Б - число умерших и Е - население-под-риском. При данных Б, Е
сказать, что значение вероятностиП(М | D,E) равно £ (0<£< 1), - это все равно, что задать M. Конечно, продолжительность жизни во взятой, например, из Human Mortality Database (HMD, www.mortality.org) полной таблице смертности есть функция 111 коэффициентов смертности, но может пониматься и как функция от 111 случайных величин £. Такой подход не облегчает расчет таблицы смертности, но облегчает доверительное оценивание ее индикаторов. Строго математически эта конструкция выглядит следующим образом.
Набор участвующих в расчете кумулятивного индикатора коэффициентов можно рассматривать как вектор в N -мерном пространстве и обозначить (м 1,...rMN). Кумулятивный демографический показатель есть функция на неотрицательном секторе в этом пространстве. Обозначим ее через U (м1 ,...,MN ). Номер i =1,..,N коэффициента может интерпретироваться как любой участвующий в демографических расчетах признак (например, возраст, причина смерти, группа населения и т.д.) или их сочетание.
Пусть i -ому коэффициенту M' соответствуют число умерших D' и население-под-риском Ei и M'0 = Di/Ei . Пусть (м 0,...,M0N) - вектор наблюдаемых коэффициентов и и0 = U (M l,...,MN ) есть наблюдаемое значение рассматриваемого кумулятивного показателя. Обозначим через {U} область возможных значений функции U.
Строго говоря, всякая функция на неотрицательном секторе в N -мерном пространстве может трактоваться как кумулятивный показатель. Чтобы в дальнейшем не сталкиваться с парадоксальными ситуациями, введем некоторые дополнительные предположения относительно функции U(м',...,MN). Будем считать ее непрерывной и многократно непрерывно дифференцируемой (этим условиям отвечают все широко используемые кумулятивные демографические показатели), а область (U} - связной. Последнее условие в случае прямой означает, что {U} не может быть разбито на 2 непустые несоприкасающиеся части.
Будем считать, что M i - независимые случайные переменные, тогда для оценки истинного значения случайного вектора (м 1,...,MN) должна быть использована вероятностная мера, равная прямому произведению мер, соответствующих каждому i : ж'(M') , обозначим его ж = ж1 ®ж2 ®жы. ж является мерой на неотрицательном секторе в N -мерном пространстве. Мерой подмножества S с {U} можно считать меру его полного прообраза в неотрицательном секторе N -мерного пространства. Эта мера измеряет вероятность того, что истинное значение кумулятивного показателя U содержится в S . Мера {U} равна 1.
Операционально эту конструкцию можно описать следующим образом: для каждого i функция распределения и П' (M') отображает полуось на отрезок [0,1]. Вектор-функция П(М1,... ,MN ) = (П1 (M1),... ,ПN (MN )) отображает неотрицательный сектор в пространстве на единичный куб {0,1}N в N -мерном Евклидовом пространстве, и мера области в секторе
равна обычному Евклидову объему ее образа в кубе {0,1}N . Функции Пг (M1) монотонны и, следовательно, существует обратная вектор-функция П^1(«1,...,«ы), где ) - точка
внутри единичного куба, отображающая куб на сектор. Возникает отображение единичного куба в область {U}вида U(П-1«1,...,«)). Вероятность того, что истинное значение кумулятивного показателя принадлежит S с {U}, равна Евклидовой мере полного прообраза S в {0,1}N . Пусть х е {0,1}N - точка единичного куба с координатами («',...,). Обозначим для краткости функцию U(П-1(«1,...,))через V(х) . Отметим, что в силу сделанных предположений относительно функции U функция V(х) непрерывная и непрерывно дифференцируемая функция на кубе {0,1}N .
Назовем доверительной областью истинных значений показателя u с некоторой доверительной вероятностью p связный диапазон его возможных значений, содержащий истинное значение с вероятностью p .
Если u - произвольный кумулятивный демографический показатель, то утверждение, что наименьшая доверительная область единственна и включает апостериорное значение u , возможно, неверно. Нас может интересовать любая наименьшая доверительная область или наименьшая доверительная область, содержащая u0. Именно этот случай мы рассмотрим далее. При наложенных на функцию U ограничениях доверительная область есть отрезок прямой.
Если доверительная область найдена, то обычный Евклидов объем ее полного прообраза, обозначим его S, равен p . Существует универсальный алгоритм решения аналогичных задач, обеспечивающий любую желаемую точность решения. К сожалению, все известные варианты занимают слишком много времени. Поэтому мы попытались применить менее точный, но и менее трудоемкий алгоритм поиска доверительной области.
Описанный далее метод представляет собой вариант метода Монте-Карло, специально приспособленный к нашей задаче. Понятие «метод Монте-Карло» весьма широко и объединяет вычислительные алгоритмы, моделирование реальных процессов, обработку выборочных данных. Разные аспекты доверительного оценивания этим методом достаточно подробно рассмотрены в литературе [Fishman 1996], он широко используется в медико-биологических исследованиях [Buckland 1984; Buckland 1983; Carpenter, Bithell 2000].
У нашей задачи есть некоторые особенности, которые важно учитывать при применении метода Монте-Карло. Первая особенность в том, что мы ищем не доверительный интервал для некоторой известной величины, а доверительную область, все точки которой в некотором смысле равноправны, и поиск идет только среди областей, содержащих наблюдаемое значение рассматриваемого кумулятивного показателя.
Вторая особенность - оцениваемый показатель зависит от большого числа независимых параметров, распределения которых иногда существенно различаются и
далеки от какого-либо стандартного распределения. Для продолжительности жизни при рождении их число колеблется от более 15 до более 100.
Третья особенность обнаружилась в процессе численных экспериментов по оценке доверительной области значений продолжительности жизни. Возникающие кривые плотности распределений существенно зависят от исходных данных. Форма кривой распределения существенно зависит от доли возрастных групп, где число умерших мало или равно 0.
Если х - случайная точка куба {0,1}^, то вероятность того, что она принадлежит области 2 , равна р . Если хх,... х - случайные точки куба, то при Ж ^ ж число точек, принадлежащих к прообразу доверительной области, стремится к рЖ. Однако это не значит, что при достаточно большом, но разумном Ж именно р • Ж точек принадлежат доверительной области. Задавшись некоторым допустимым риском ошибки а, можно для любых р и Ж оценить число точек, которые с данным риском ошибки будут заведомо принадлежать и не принадлежать доверительной области. При данных а , р и Ж мы можем действовать следующим образом. Пусть для определенности мы ищем доверительную область, содержащую точку и0, и в множество хх,...,х№ включена такая точка хг, что
V(х) = Щ. Обозначим число точек с риском ошибки а, принадлежащих и не
принадлежащих доверительной области, через Жт и Жои' соответственно, Ж'п + Жои < Ж. Выбрав в V(хх),...,V(хж) Жт ближайших к и0 и Жои' максимально удаленных от и0 точек, мы можем полагать, что отобранные точки лежат соответственно внутри и вне искомого интервала. Обозначим соответствующие множества точек через Хт и Xой' соответственно. Хоии разобьем на 2 подмножества точек, лежащих справа и слева от и0: и ХОЩ .
Границы доверительной области лежат между самой левой точкой Хт (это может быть сама и0) и самой правой точкой Х^ , а также между самой правой точкой Хт (это
может быть сама и ) и самой левой точкой Х ои' .
0 * > и0
Рассмотрим только точки, которые лежат слева от и0. Для точек, лежащих справа от
и , построение аналогично. Если расстояние между самой левой точкой, заведомо
принадлежащей области, и самой правой, к ней не принадлежащей, меньше желаемой точности определения левой границы доверительного интервала, то мы можем взять в качестве этого предела их среднее арифметическое. Другая стратегия - взять самую правую точку, которая не принадлежит доверительному интервалу, как пессимистическую оценку левой границы доверительного интервала.
-т-т /— ту ои' лг ои' »-» -т-т
Проблемы возникают, когда Х или Х не содержит ни одной точки. При достаточно большом числе симуляций Ж >500 ситуация Х- пустое множество всегда сочетается с ситуацией min( Х'п) = и0, а ситуация Х- пустое множество всегда
сочетается с ситуацией тах( X'") = и0. В этом случае в качестве левой или правой границы доверительной области берется сама точка и .
Подобная проблема не возникает, если искать кратчайшую доверительную область, содержащую значение кумулятивного показателя, в точке медиан одномерных распределений и(Мем,,... ,МемЫ ).
Расчет при каждом W < да является приближенным, и качество оценки границ доверительной области подтверждается лишь устойчивостью результата от расчета к расчету.
5. Результаты экспериментов
Теоремы 1 - 3 позволяют теоретически безупречно определить доверительную область значений вероятности или коэффициента смертности, а построенный на их основе алгоритм позволяет приближенно оценивать доверительную область для кумулятивных показателей смертности. Однако расчет, например для ожидаемой продолжительности жизни, по предложенным формулам сложнее, чем с использованием метода Чанга. Существенно ли различаются результаты? При каких числах умерших и размерах населения-под-риском необходимо проводить доверительное оценивание, и когда такая необходимость исчезает? Как общий размер населения влияет на точность определения продолжительности жизни? Для ответа на эти вопросы мы провели серию численных экспериментов. Во всех случаях доверительная вероятность равнялась 0,95 и размер случайной выборки для оценки доверительной области кумулятивного показателя был равен 1000.
Отметим также, что прямой расчет по формуле (5) при числе умерших Б>1000 сопряжен с серьезными вычислительным трудностями и мы прибегли к стандартным приближенным методам вычисления, чтобы их обойти.
5.1. Различия между доверительными интервалами для коэффициента смертности, определенными по методу Чанга и по предложенному методу
Начнем с примера, когда население-под-риском равно 100, а число умерших лежит в интервале от 0 до 49 (рисунок 4). Поскольку при Б < 9 замена биномиального распределения с помощью нормального приближения не допускается, то для этих чисел умерших мы приведем оценку доверительной области непосредственно на основе биномиального распределения. Следуя Чангу, мы рассчитали вероятность смерти, приняв, что длина интервала возраста равна 1, а умершие, в среднем, прожили ровно половину возрастного интервала. Затем на основе интегральной функции биномиального распределения мы нашли кратчайшую область, содержащую наблюдаемую относительную частоту смертных случаев с вероятностью 0,95.
Расчет показал, что при D > 9 результаты расчета с помощью биномиального распределения не отличаются от оценок на основе нормального приближения (то же показано далее в таблице 1).
Если перейти от коэффициента смертности к вероятности смерти, определить, следуя Чангу, условную численность совокупности, затем использовать формулы, вытекающие из Теоремы 1, и вновь вернуться к коэффициентам смертности, то при обычных коэффициентах смертности (не более 0,1) получится тот же результат, что и на основе Теоремы 2. При больших значениях такой метод дает меньшие значения, чем прямой расчет на основе коэффициентов. Отметим, что более 80% пятилетних коэффициентов смертности в HMD возрастах 95 лет и менее не превосходят 0,1. Рассчитанная с помощью предложенного метода доверительная область заметно больше, чем по формуле Чанга. В основном различаются верхние границы. При D = 10 доверительная область на основе Теоремы 2 больше, чем оцененная по Чангу, в 1,07 раза, а при D = 49 отношение увеличивается до 1,29.
0,7
-Коэффициент смертности
-Доверительная область
на основе Теоремы 3
-по формуле Чанга
-на основе
биномиального распределения
Числоумерших
Рисунок 4. Сравнение оценок доверительной области коэффициента смертности при населении-под-риском, равном 100 человеко-годам, и р = 0,95
Таблица 1. Сравнение оценок доверительной области коэффициента смертности при населении-под-риском, равном 1000 человеко-годам, и числе умерших в диапазоне от
0 до 500 ( р = 0,05 )
Число умерших Коэффициент смертности Границы доверительной области
на основе Теорем 2 и 3 на основе биномиального распределения по методу Чанга
0 0,000 0,000 0,003 неприменимо неприменимо
1 0,001 0,000 0,005 0 0,003 неприменимо
2 0,002 0,000 0,006 0 0,005 неприменимо
3 0,003 0,001 0,008 0 0,006 неприменимо
4 0,004 0,001 0,010 0,001 0,008 неприменимо
5 0,005 0,002 0,011 0,001 0,009 неприменимо
6 0,006 0,002 0,012 0,002 0,011 0,001* 0,011
7 0,007 0,003 0,014 0,002 0,012 0,002 0,012
8 0,008 0,004 0,015 0,003 0,014 0,002 0,014
9 0,009 0,004 0,016 0,004 0,015 0,003 0,015
10 0,010 0,005 0,018 0,004 0,016 0,004 0,016
20 0,020 0,012 0,030 0,012 0,029 0,011 0,029
30 0,030 0,020 0,042 0,019 0,04 0,019 0,041
40 0,040 0,029 0,054 0,028 0,052 0,028 0,052
50 0,050 0,037 0,065 0,036 0,063 0,036 0,064
100 0,100 0,082 0,121 0,082 0,119 0,081 0,119
150 0,150 0,127 0,175 0,127 0,171 0,128 0,172
200 0,200 0,174 0,230 0,175 0,225 0,175 0,225
250 0,250 0,221 0,283 0,222 0,276 0,223 0,277
300 0,300 0,268 0,336 0,271 0,329 0,271 0,329
350 0,350 0,315 0,389 0,318 0,379 0,319 0,381
400 0,400 0,363 0,441 0,368 0,432 0,368 0,432
450 0,450 0,410 0,494 0,416 0,482 0,417 0,483
500 0,500 0,458 0,546 0,466 0,534 0,466 0,534
Примечание: * - Курсивом отмечены клетки, где метод Чанга формально неприменим, но расчет по формуле дает правдоподобный результат.
Примерно такой же результат получен в случае, когда население-под-риском - 1000 человеко-лет, а число умерших - в интервале от 0 до 500 (таблица 1). Отметим, что различия между оценкой по формуле Чанга и предложенным методом в величине доверительной области и в степени асимметрии с ростом числа умерших в абсолютном выражении растут, но по отношению к коэффициенту смертности уменьшаются.
При больших населениях-под-риском характер результатов не меняется. Доверительная область, определенная по предложенной методике, всегда несколько больше, чем по формуле Чанга при той же доверительной вероятности. При коэффициенте смертности 0,001 отношение длин доверительных интервалов не более 1,02, с ростом коэффициента до 0,1 возрастает до 1,07, но при коэффициенте смертности 0,5 отношение длин составляет 1,3. Различие в основном связано с величиной правой (содержащей величины больше М ) части доверительной области.
5.2. Числа умерших, при которых доверительное оценивание коэффициентов смертности целесообразно
Расчеты с помощью формулы (5) позволили сделать ряд эмпирических наблюдений, строгое доказательство которых пока не найдено. Вот одно из них. Если число умерших Б
лежит в интервале от 1 до 5000, а население-под-риском Е таково, что коэффициент смертности М0 лежит на отрезке от 0,00005 до 0,5, то отношение длины доверительного интервала, определенной с помощью формулы (5) к величине коэффициента смертности М0 при данном Д практически не зависит от Е, т.е. отМ0. При Б<1000 это отношение
быстро убывает от 4,7 при Б=1 до 0,12 при Б=1000 (рисунок 5). Если число умерших -некоторое число Б меньше 1000, а коэффициент смертности - любое число между 0,00005 и 0,5, то все возможные значения отношения длины доверительного интервала к величине
Рисунок 5. Зависимость отношения длины доверительной области к коэффициенту
смертности M0 от числа умерших D
При 1000 < D < 2000 это отношение лежит в диапазоне 0,09 - 0,14, а при 2000 < D < 5000 - в диапазоне 0,06 - 0,10, причем по-прежнему почти не зависит от M0.
Например, при числе умерших, равном 5000, отношение в зависимости от населения-под-риском меняется в интервале от 0,055 до 0,064.
Данное свойство формулы (5) позволяет сформулировать простой критерий для целесообразности определения доверительного интервала.
На наш взгляд, если отношение величины доверительной области к величине коэффициент смертности M0 меньше 0,1, то определение доверительной области для
отдельного коэффициента утрачивает смысл. Это происходит всегда, если число умерших больше 2000, т.е. определение доверительной области целесообразно при D < 2000 .
5.3. Сравнение разных методов доверительной оценки продолжительности жизни
Сотрудники британского офиса национальной статистики Барбара Тосон и Аллан Бейкер [Toson, Baker 2003] опубликовали серию расчетов доверительных интервалов показателей таблиц смертности. Во всех этих расчетах использован один и тот же массив данных (таблица 2), который мы также решили использовать в наших экспериментах.
Второй массив данных - числа умерших и население-под-риском по Исландии. Среди стран, представленных в HMD, Исландия выделяется высокой продолжительностью жизни и малой численностью населения. В качестве эксперимента мы рассчитали таблицы смертности мужчин и женщин Исландии за период с 2000 по 2010 г. Подчеркнем, что из базы данных были взяты только данные о населении и числе умерших, а все расчеты сделаны независимо.
Таблица 2. Данные, использованные Тосон и Бейкером для сравнений, и оценка доверительной области истинных значений и медианы для возрастных
коэффициентов смертности
Границы довери- Границы доверительной
x Ex Dx Mx тельной области для MeMx области для M «по
Mx Чангу»
0 2533 20 0,00790 0,00491 0,01189 0,00816 0,00445 0,01134
1-4 11130 1 0,00009 0,000004 0,00043 0,00015 -0,00009* 0,00027
5-9 15519 2 0,00013 0,00002 0,00042 0,00017 -0,00005 0,00031
10-14 16409 4 0,00024 0,00008 0,00059 0,00028 0,00001 0,00048
15-19 16133 9 0,00056 0,00027 0,00101 0,00060 0,00019 0,00092
20-24 21482 10 0,00047 0,00023 0,00082 0,00050 0,00018 0,00075
25-29 15997 22 0,00138 0,00088 0,00204 0,00142 0,00080 0,00195
30-34 16026 35 0,00218 0,00154 0,00299 0,00223 0,00146 0,00290
35-39 19800 34 0,00172 0,00120 0,00236 0,00175 0,00114 0,00229
40-44 16076 39 0,00243 0,00174 0,00327 0,00247 0,00167 0,00318
45-49 13404 59 0,00440 0,00337 0,00562 0,00445 0,00329 0,00551
50-54 13027 108 0,00829 0,00683 0,00996 0,00834 0,00676 0,00982
55-59 10051 136 0,01353 0,01138 0,01593 0,01360 0,01133 0,01573
60-64 10220 176 0,01722 0,01486 0,01996 0,01729 0,01478 0,01966
65-69 9190 320 0,03482 0,03121 0,03885 0,03489 0,03132 0,03832
70-74 7427 445 0,05992 0,05461 0,06575 0,06001 0,05513 0,06470
75-79 5231 414 0,07914 0,07188 0,08715 0,07927 0,07290 0,08538
80-85 2884 355 0,12309 0,11095 0,13659 0,12332 0,11378 0,13241
85+ 1840 347 0,18859 0,16978 0,20951 0,18895
Примечание: * - Курсивом отмечены клетки, где метод Чанга, по нашему мнению, не применим.
Источник: [Toson, Baker 2003].
Результаты оценки доверительной области продолжительности предстоящей жизни e (x) в возрасте x представлены на рисунке 5. Из расчетов Тосон и Бейкера выбран вариант, который они называют «Chiang (I)».
В представленном примере ожидаемая продолжительность жизни при рождении равна 71,99 года, а ее доверительная область лежит между 71,41 и 72,56 годами, а по нашим расчетам она шире и существенно смещена влево: от 71,26 до 72,66 года.
В трех возрастных группах формально метод Чанга, на наш взгляд, неприменим, так как число умерших меньше 9. Как следует из сопоставления рисунка 6 и таблицы 3, различие в оценке длины доверительной области возникает в основном в возрастных группах с малым числом умерших и в открытом возрастном интервале. Тосон и Бейкер рассматривают в своем исследовании формулу Силкокса [Silcocks, Jenner, Reza 2001], но оцененный по этому методу вклад открытого интервала в неопределенность истинного значения продолжительности жизни составляет порядка 0,01% ее значения.
Рисунок 6. Отклонение границ доверительной области для ожидаемой продолжительности жизни в возрасте x, оцененной двумя способами
Примечание: Для интервала 85+ вместо формулы Чанга была использована формула Силкокса [Silcocks, Jenner, Reza 2001].
Тосон и Бейкер рассмотрели целый ряд методов оценки доверительной области истинных значений продолжительности жизни. Результаты сравнительных расчетов представлены ниже (таблица 3). Напомним, что в данной таблице смертности продолжительность жизни при рождении равна 71,99 года.
Хотя сам Чанг не делает никаких дополнительных предположений о возрастном числе умерших, мы обнаружили, что метод нельзя применять, если число умерших и число доживших до конца интервала возраста меньше 9, что связано с аппроксимацией нормальным распределением. В этой связи метод оценки доверительного интервала Чанга практически неприменим к исландским данным за 1 календарный год, так как даже при расчете кратких таблиц смертности годовое число умерших за последнее десятилетие меньше 9 для почти 40% возрастных групп. Поэтому мы провели сравнительный расчет методом Чанга и предложенным методом для 10 пятилетних временных интервалов с 196064 по 2005-2009 гг.
Таблица 3. Доверительная область истинных значений продолжительности жизни при рождении е(0), оцененная разными методами, лет
Метод
Нижняя граница Верхняя граница
Метод Чанга [Chiang 1984: 163-168 ] Метод Чанга для выборки [Chiang 1984: 233-236] Метод Сикока [Silcocks, Jenner, Reza 2001] Метод Тосон-Бейкера [Toson, Baker 2003] Предложенный метод
71,42
71.41 71,47
71.42 71,26
72,56 72,56 72,63 72,56 72,66
Даже при таком выборе, чтобы к исландским данным применить оценки по Чангу, необходимо в кратких таблицах иногда увеличивать возрастные группы. Почти
повсеместно таблица заканчивается открытым возрастным интервалом 90 лет и старше, и часто приходилось объединять интервалы 10-14 и 15-19 лет и иногда 1-4 и 5-9 лет, что естественно сказывается на точности расчетов.
Таблица 4. Ожидаемая продолжительность жизни населения Исландии на основе кратких таблиц смертности с увеличенными возрастными интервалами и ее доверительная область, оцененная по предложенному методу и по методу Чанга, лет
Годы е(0) Границы доверительной области по предложенному методу Границы доверительной области «по Чангу»
Мужчины
1960-1964 71,14 70,62 71,67 70,67 71,62
1965-1969 71,11 70,62 71,60 70,65 71,56
1970-1974 71,23 70,73 71,69 70,79 71,67
1975-1979 73,39 72,91 73,85 72,97 73,81
1980-1984 73,83 73,39 74,26 73,44 74,22
1985-1989 75,11 74,71 75,50 74,74 75,48
1990-1994 76,19 75,81 76,57 75,82 76,55
1995-1999 76,76 76,40 77,12 76,43 77,09
2000-2004 78,59 78,23 78,95 78,28 78,91
2005-2009 79,55 79,22 79,86 79,25 79,84
Женщины
1960-1964 76,10 75,61 76,57 75,67 76,53
1965-1969 76,39 75,92 76,84 75,98 76,81
1970-1974 77,19 76,73 77,60 76,79 77,59
1975-1979 79,32 78,84 79,77 78,91 79,73
1980-1984 79,93 79,51 80,34 79,56 80,31
1985-1989 80,12 79,71 80,51 79,75 80,48
1990-1994 80,90 80,50 81,27 80,55 81,25
1995-1999 81,11 80,75 81,46 80,77 81,44
2000-2004 82,42 82,06 82,77 82,10 82,74
2005-2009 83,17 82,84 83,48 82,90 83,43
Таблица 4 содержит сравнение результатов применения двух методов оценки по
одним и тем же данным. Величина доверительной области по методу Чанга составляет в среднем 0,92 от длины по предложенному методу для мужчин и 0,90 для женщин. Область, рассчитанная по предложенному методу, устойчиво асимметрична в левую (меньшую) сторону. Правая часть составляет в среднем 0,46 от общей длины у мужчин и 0,45 у женщин. Область, рассчитанная по методу Чанга, безусловно, симметрична.
5.4. Доверительная область для продолжительности жизни по полным и кратким таблицам
Расчет полных таблиц смертности для Исландии - неблагодарное дело. Из 2222 участвующих в расчете возрастных групп (2 пола х 101 возраст х 11 лет) в 455 число умерших равно 0, а в 1037 группах лежит в интервале от 1 до 9. Как следствие - огромная разность продолжительности жизни на основе полных и кратких таблиц и в обоих случаях длина доверительной области более 1,4 года (таблица 5). Еще одно обстоятельство - при расчете полных таблиц смертности верхняя граница доверительной области совпадает с наблюдаемой ожидаемой продолжительностью жизни, в кратких таблицах смертности правая граница всегда ближе к наблюдаемой продолжительности жизни, чем левая, но никогда с ней не совпадает.
Таблица 5. Ожидаемая продолжительность жизни населения Исландии на основе полных и кратких таблиц смертности и ее доверительная область, лет
Полная таблица Краткая таблица
Пол и год е(0) границы доверительной области е(0) границы доверительной области
Мужчины
2000 77,86 76,21 77,86 79,73 78,77 80,37
2001 78,26 76,63 78,26 80,93 79,93 81,62
2002 78,51 76,86 78,51 80,50 79,52 81,03
2003 79,49 77,78 79,49 80,72 79,80 81,41
2004 78,89 77,29 78,89 81,04 80,06 81,49
2005 79,46 77,82 79,46 81,50 80,57 82,16
2006 79,36 77,81 79,36 81,09 80,18 81,78
2007 79,43 77,90 79,43 81,31 80,43 81,99
2008 79,84 78,29 79,84 81,48 80,65 82,15
2009 79,66 78,16 79,66 82,00 81,11 82,53
2010 79,73 78,22 79,73 Женщины 82,11 81,22 82,69
2000 81,54 79,70 81,54 80,01 78,75 81,15
2001 82,91 80,99 82,91 80,38 79,18 81,37
2002 82,34 80,52 82,34 80,86 79,57 82,11
2003 82,47 80,65 82,47 81,84 80,60 82,88
2004 82,90 81,07 82,90 81,09 79,89 82,10
2005 83,27 81,42 83,27 81,52 80,38 82,43
2006 82,78 80,98 82,78 81,75 80,38 82,95
2007 83,05 81,25 83,05 81,44 80,25 82,33
2008 83,07 81,36 83,07 83,08 81,50 84,27
2009 83,61 81,88 83,61 81,72 80,56 82,74
2010 83,85 82,10 83,85 81,90 80,73 82,88
5.5. Зависимость доверительной области продолжительности жизни от общей численности населения и плавности возрастной структуры
Последняя серия экспериментов была поставлена для ответа на вопрос, как величина доверительной области продолжительности жизни зависит от численности населения при одной и той же возрастной смертности. Если при работе с изолированными коэффициентами смертности мы часто находили простые закономерности, то в данном случае связь оказалась достаточно сложной. Длина области существенно зависит от регулярности возрастной структуры, и малые числа умерших в начале или середине возрастной шкалы ее существенно увеличивают. Например, построив серию пар возрастных рядов чисел умерших и населений-под-риском, пропорциональных данным Тосон и Бейкера, с коэффициентами пропорциональности от 2 до 10 и посчитав величины доверительных областей, мы увидели, что эта величина с ростом множителя убывает быстро затухающим темпом (рисунок 7). Кривая на рисунке поразительно точно аппроксимируется линией логлинейной регрессии 1,3859- Е~0'5753. Доверительная область остается больше 1/3 года при населении 2,2 млн и числе умерших 25,3 тыс.
и га г ю о
>х
о
X
п -
О) IX
о.
О) ш
о ■=[
го
г -
О!
ей
Численность населения
Рисунок 7. Величина доверительной области (лет) для е(0) при возрастной структуре и возрастной смертности как в примере Тосон и Бейкера и разной численности
населения (1 = 224379 человек)
Синей (нижней) линией на диаграмме изображена величина доверительной области населения с той же смертностью и численностью, но с возрастной структурой стационарного населения таблицы смертности. В данном случае аппроксимирующее уравнение: 1,2897 • Е~0'5618. Можно предположить, что в населениях с искаженной возрастной структурой величина доверительной области для продолжительности жизни заметно больше, чем при плавной структуре. Легко видеть, что возрастная структура населения, использованная в примере Тосон и Бейкера (таблица 2), существенно менее плавная, чем структура стационарного населения таблицы. И величина доверительной области продолжительности жизни (1,41 года) заметно больше, чем при стационарной структуре (1,26 года).
Тот же результат дал расчет по данным для населения Исландии. Средняя величина доверительной области для кратких мужских таблиц смертности (таблица 5) равна 1,54, а условный расчет при структуре стационарного населения таблиц той же общей численности и возрастной смертности дает существенно меньшую среднюю величину -1,33. Для женщин аналогичные результаты: 2,31 и 1,93. Замена стационарной структуры на стабильную с коэффициентом роста 5%о или -5%о мало что меняет.
Существенно искаженная возрастная структура значительно увеличивает доверительную область. Мы поставили ряд экспериментов, вновь используя данные из примера Тосон и Бейкера. Возрастная смертность и общая численность населения оставались такими же, как в их примере. Возрастные численности населения-под-риском были пропорциональными величинам Ь(л) • р, где р - равномерно распределенное случайное число на отрезке {0,1}, а Ь(л) - число живущих в возрасте л в стационарном населении таблицы смертности. По итогам 100 расчетов средняя величина доверительной области составила 3,2 года или в 2,6 раз больше, чем при расчете по оригинальным данным
0,0
123456789 10
(1,24 года). Всего 4 результата оказались меньше, чем 1,24 года, минимальная величина -1,14 года, а максимальная - 19,0 года.
6. Обсуждение результатов
Главный результат нашего исследования - формула апостериорного распределения коэффициента смертности и основанный на ней простой алгоритм доверительной оценки истинного значения коэффициента смертности при данных числе смертей и населении-под-риском. Этот подход может быть применен к демографическим коэффициентам любой природы.
Впервые найденная апостериорная функция распределения для центральных демографических коэффициентов позволяет предложить алгоритм доверительной оценки истинного значения кумулятивных демографических показателей.
Оценки истинных значений коэффициентов смертности существенно отличаются от аналогичных оценок по методу Чанга в случаях малого числа смертей, когда построение доверительных значений необходимо прежде всего. Строго оцененная доверительная область оказывается заметно больше. В этом смысле наши результаты явно перекликаются с выводами Сауро, Льюиса и других авторов [Agresti, Coull 1998; Sauro, Lewis 2005; Lewis, Sauro 2006, 2012: 19-39], критикующих традиционные подходы к оценке доверительных интервалов для выборочных долей при малой выборке и низкой относительной частоте изучаемого явления.
Единственное существенное ограничение применения Теорем 1-3 - это допущение об однородности совокупности живущих и неизменности силы смертности в области на плоскости Лексиса, для которой рассчитывается коэффициент. Но подобное допущение является стандартным в математической демографии, общепринятым для всех исследований, кроме специально посвященных гетерогенным населениям. В отсутствии данного допущения неверна даже базовая формула Чанга для перехода от коэффициента к вероятности смерти.
Простота функций распределения открывает возможность для статистических экспериментов. С их помощью мы показали, что если число смертей в рассматриваемой группе больше 2000 и коэффициент смертности лежит в интервале от 0,00005 до 0,5, то длина доверительного интервала для коэффициента смертности с вероятностью 0,95 не превосходит 0,1 его величины. Численные эксперименты также показали, что при числе умерших менее 2000 и той же области значения коэффициента смертности относительная величина доверительной области зависит только от числа умерших.
Из численных экспериментов также следует, что при малых значениях коэффициентов смертности, характерных для большинства возрастов, доверительный интервал коэффициента смертности ассиметричен в сторону больших значений и соответственно доверительная область продолжительности жизни обычно смещена в сторону меньших значений.
При пропорциональном увеличении числа умерших и населения-под-риском во всех возрастах величина доверительной области для продолжительности жизни уменьшается существенно медленнее, чем растет число умерших. При этом доверительная область тем больше, чем менее плавно меняются возрастные численности живущих. Напротив, расчеты для населения, чья структура совпадает со структурой стационарного или стабильного населения, дают заметно меньшую доверительную область.
Поскольку неплавность возрастной структуры существенно увеличивает доверительную область, то оценки для стабильных населений [Scherbov, Ediev 2011] не вполне применимы в практических расчетах.
Если число умерших в большом числе групп равно 0, то максимальная точка доверительной области для продолжительности жизни практически совпадает с наблюдаемой продолжительностью жизни. Это объясняется двумя факторами. Во-первых и прежде всего, оценка максимального правдоподобия для коэффициента смертности в возрастных группах с нулевым количеством смертей в этом случае, очевидно, является смещенной. Иными словами, мы недооцениваем смертность в расчете наблюдаемой продолжительности жизни. Во-вторых, используемый алгоритм определения границ доверительного интервала возвращает смещенные (в меньшую сторону) значения. Коррекция данного смещения возможна (см. например [Carpenter, Bithell 2000]), но существенное усложнение метода в данном случае не дает столь существенного улучшения качества оценки.
Если число умерших во всех возрастных группах больше 2000, то доверительная область ожидаемой продолжительности жизни столь мала, что ее оценивание лишено смысла.
Однако и в обычной ситуации, когда все коэффициенты смертности положительны, оказывается, что медиана случайной величины "продолжительность жизни" зачастую меньше, чем ее наблюдаемое значение. Значит ли это, что демографы, обращаясь к данным по малым населениям, слишком оптимистично оценивают продолжительность жизни? Означает ли это, что успехи, достигнутые малыми группами, отчасти переоценены и заведомо неустойчивы?
Благодарности
Данное исследование было проведено в рамках проекта «From disparities in mortality trends to future health challenges» при поддержке Немецкого Научного Фонда (Deutsche Forschungsgemeinschaft) и Французского национального исследовательского агентства (L'Agence nationale de la recherche) (грант JA 2302/1-1 (DFG) / ANR-12-FRAL-0003-01 DIMOCHA) и частично финансировалось Фондом Династия (Москва, Россия).
Литература
Гнеденко Б.В. (2001). Очерк по истории теории вероятностей. М.: УРСС: 88.
Демографический энциклопедический словарь (1985) / Гл. ред. Валентей Д.И. М.: Советская энциклопедия.
Линник Ю.В., Н.М. Халфина (1979). Доверительное оценивание // Математическая энциклопедия. Т.2. М.: Советская энциклопедия: 365-367.
Паевский В.В. (1934). Об измерении смертности мигрирующих масс населения // Труды Демографического института Академии наук СССР. Т.1. Ленинград: 63-134.
Agresti A., B. Coull (1998). Approximate is better than "exact" for interval estimation of binomial proportions // The American Statistician. 52: 119-126.
Andreev E.M., V.M. Shkolnikov (2010). Spreadsheet for calculation of confidence limits for any life table or healthy-life table quantity MPIDR // Technical Report. 005.
Buckland S.T. (1983). Monte Carlo methods for confidence interval estimation using the bootstrap technique // Journal of Applied Statistics. 10 (2): 194-212.
Buckland S.T. (1984). Monte Carlo confidence intervals // Biometrics. 40: 811-817.
Carpenter J., J. Bithell (2000). Bootstrap confidence intervals: when, which, what? A practical guide for medical statisticians // Statistics in Medicine. 19: 1141-1164.
Caselli G., J. Vallin, G. Wunsch (2006). Demography: Analysis and Synthesis. Elsevier. London.
Chiang C.L. (1960a). A stochastic study of the life table and its applications: I. Probability distributions of the biometric functions // Biometrics. 6: 618-635.
Chiang C.L. (l960b). A stochastic study of the life table and its applications: 11. Sample variance of the observed expectation of life and other biometric functions // Human Bioilogy. 32: 221238.
Chiang C.L. (1961). A stochastic study of the life table and its applications: III. The follow-up study with the consideration of competing risks // Biometrics. 17: 57-78.
Chiang C.L. (1984). The life table and its applications. Robert E. Krieger publishing company. Malabar, Florida.
Fishman G.S. (1996). Monte Carlo: concepts, algorithms, and applications / G.S.Fishman. New York: Springer: 698 (Springer series in operations research).
Keyfitz N. (1976). Mathematical Demography: A Bibliographical Essay // Population Index. 42 (1): 9-38.
Keyfitz N. (1977). Applied mathematical demography. New York: John Wiley & Son: 388. (Reedited in 1985 by Springer-Verlag: New York: 442).
Lewis J R., J. Sauro (2006). When 100% Really Isn't 100%: Improving the Accuracy of Small-Sample Estimates of Completion Rates // Journal of usability studies. 1 (3): 136-150.
Lewis J.R., J. Sauro (2012). Quantifying the User Experience Practical Statistics for User Research. Elsevier Science & Technology.
Preston S.H., P. Heuveline, M. Guillot (2001). Demography. Measuring and Modeling Population Processes. Blackwell Publishers Inc. Maiden, Massachusetts.
Sachs L. (1982). Applied Statistics. A Handbook of Techniques. Springer-Verlag, New York -Heidelberg - Berlin.
Sauro J., J. R. Lewis (2005). Estimating Completion Rates from Small Samples using Binomial Confidence Intervals: Comparisons and Recommendations // Proceedings of the Human Factors and Ergonomics Society Annual Meeting Orlando, FL.
Scherbov S., D.M. Ediev (2011). Significance of life table estimates for small populations: Simulation-based study of standard errors // Demographic Research. 24(22): 527-550.
Shryock H.S., J.S. Siegel (1980). The methods and materials of demography. Vol. 1 - 2. Washington DC.
Silcocks P.B.S., Jenner D.A., Reza R. (2001). Life expectancy as a summary of mortality in a population: statistical considerations and suitability for use by health authorities // Journal of Epidemiology & Community Health. 55:38-43.
Toson B., A. Baker (2003). Life expectancy at birth: methodological options for small populations. Office for National Statistics (ONS) UK. http://www.statistics.gov.uk/statbase/Product.asp?vlnk=8841
Wilson E.B. (1927). Probable inference, the law of succession, and statistical inference. // Journal of the American Statistical Association. 22: 209-212.
CONFIDENCE ESTIMATION OF DEMOGRAPHIC RATES ON EXAMPLE OF MORTALITY RATES
Evgeny Andreev, Dmitri Jdanov, DomantAsS JAsSilionIsS
Evgeny M. Andreev. New Economic School, Russia. E-mail: [email protected].
Dmitri A. Jdanov. Max Planck Institute for Demographic Research, Rostock, Germany and New Economic
School, Russia.
Domantas Jasilionis, Max Planck Institute for Demographic Research, Rostock, Germany.
Date received: November 2015.
Demographers usually ignore a stochastic nature of demographic rates, in particular of mortality rates. However, a growing interest in longevity and mortality of small population groups or areas requires plausible solutions for confidence estimation of mortality measures. This paper provides a formula for posterior distribution of death rates in a homogeneous group ofpopulation. We also propose a new approach to estimate confidence limits for the death rate. We show that confidence limits for aggregate mortality measures, including life expectancy, can be easily estimated using the posterior distribution of death rates and the methods of stochastic simulation.
Key words: demographic rate, demographic probability, confidence limits, life expectancy.
REFERENCES
Agresti A., Coull B. (1998). Approximate is better than "exact" for interval estimation of binomial proportions. // The American Statistician,. 52: 119-126.
Andreev E.M.; Shkolnikov V.M. (2010). Spreadsheet for calculation of confidence limits for any life table or healthy-life table quantity MPIDR // Technical Report TR-2010-005.
Buckland S.T. (1983). Monte Carlo methods for confidence interval estimation using the bootstrap technique. // Journal of Applied Statistics, 10 (2): 194-212.
Buckland S.T. (1984). Monte Carlo confidence intervals. // Biometrics, 40: 811-817
Carpenter J., Bithell J. (2000). Bootstrap condence intervals: when, which, what? A practical guide for medical statisticians. // Statistics in Medicine 19: 1141-1164
Caselli G., Vallin J., Wunsch G. (2006). Demography: Analysis and Synthesis. Elsevier. London.
Chiang C.L. (1960a). A stochastic study of the life table and its applications: I. Probability distributions of the biometric functions. // Biometrics 6: 618-635.
Chiang C.L. (l960b). A stochastic study of the life table and its applications: 11. Sample variance of the observed expectation of life and other biomelric functions. // Human Bioilogy. 32: 221-238.
Chiang C.L. (1961). A stochastic study of the life table and its applications: III. The follow-up study with the consideration of competing risks. // Biometrics. 17: 57-78.
Chiang C.L. (1984). The life table and its applications. Robert E. Krieger publishing company. Malabar, Florida.
Demograficheskii entsiklopedicheskii slovar' (1985). [Demographic Encyclopedic Dictionary]. Valentei D.I. ed. Moscow. Sovetskaia entsiklopediia.
Fishman G.S. (1996). Monte Carlo: concepts, algorithms, and applications / G.S.Fishman. - New York: Springer, - 698 p. - (Springer series in operations research).
Gnedenko B.V. (2001). Ocherk po istorii teorii veroiatnostei. M. [Essay on the history of probability theory]. Moscow. URSS, 88 p.
Keyfitz N. (1976). Mathematical Demography: A Bibliographical Essay. // Population Index, 42, (1): 9-38.
Keyfitz N. (1977). Applied mathematical demography. New York, John Wiley & Son, 388 p. (Reedited in 1985 by Springer-Verlag, New York, 442 p).
Lewis J R., Sauro J. (2006). When 100% Really Isn't 100%: Improving the Accuracy of Small-Sample Estimates of Completion Rates. // Journal of usability studies. 1 (3): 136-150.
Lewis J.R., Sauro J. (2012). Quantifying the User Experience Practical Statistics for User Research. Elsevier Science & Technology.
Linnik U.V., Khalfina N.M. (1979). Doveritel'noe otsenivanie [Confidence estimation]. Matematicheskaia entsiklopediia. Vol. 2. Moscow. Sovetskaia entsiklopediia: 365-367.
Paevskii V.V. (1934). Ob izmerenii smertnosti migriruiuchshikh mass naseleniia [On measuring mortality of migratory population]. In: Trudy Demograficheskogo instituta Akademii nauk SSSR. Vol. 1. Leningrad: 63-134.
Preston S.H., Heuveline P., Guillot M. (2001). Demography. Measuring and Modeling Population Processes. Blackwell Publishers Inc. Maiden, Massachusetts.
Sachs L. (1982). Applied Statistics. A Handbook of Techniques. Springer-Verlag, New York -Heidelberg - Berlin.
Sauro J., Lewis J.R. (2005). Estimating Completion Rates from Small Samples using Binomial Confidence Intervals: Comparisons and Recommendations. // Proceedings of the Human Factors and Ergonomics Society Annual Meeting Orlando, FL.
Scherbov S., Ediev D.M. (2011). Significance of life table estimates for small populations: Simulation-based study of standard errors. // Demographic Research, 24(22): 527-550.
Shryock H.S., Siegel J.S. (1980). The methods and materials of demography, Vol. 1 - 2, , Washington DC.
Silcocks P.B.S., Jenner D.A., Reza R. (2001). Life expectancy as a summary of mortality in a population: statistical considerations and suitability for use by health authorities // Journal of Epidemiology & Community Health. 55:38-43.
Toson B., Baker A. (2003). Life expectancy at birth: methodological options for small populations. Office for National Statistics (ONS) UK. http://www.statistics.gov.uk/statbase/Product.asp?vlnk=8841
Wilson E.B. (1927). Probable inference, the law of succession, and statistical inference. // Journal of the American Statistical Association. 22: 209-212.