Прикладные разработки
А.Ш. Каганов
Инструментальное исследование спектральных характеристик речи в задаче криминалистической идентификации говорящего:
теоретические основания и технология исследования
Темой настоящей статьи является технология исследования спектральных характеристик речи диктора в задаче криминалистической идентификации говорящего. В статье рассматриваются также те теоретические основания, которые связывают спектральные характеристики речи с био-метрическми параметрами речевого аппарата человека. Статья основана на литературных источниках и материале реальных криминалистических экспертиз.
Ключевые слова: звучащая речь, криминалистика, судебная экспертиза, идентификация, форманта, спектральный анализ, биометрия.
Введение
Характерной особенностью задачи криминалистической идентификации личности по голосу и звучащей является её много-аспектность и (как следствие) комплексность. Целью настоящей статьи не является рассмотрение комплексной универсальной методики идентификации личности по голосу и звучащей речи. Заметим только, что успешное решение этой задачи требует интеграции знаний из целого ряда гуманитарных, естественных и технических наук. Именно концепция "стыка", интегрируя знания различных наук, позволяет многоаспектно проанализировать голос и звучащую речь диктора-фигуранта экспертизы и расширить тем самым доказательную базу криминалистического идентификационного исследования1.
© Каганов А.Ш., 2013
В процессе решения задачи криминалистической идентификации среди множества факторов, характеризующих конкретного говорящего, необходимо проанализировать и работу органов речевого аппарата, придающих голосу индивидуальную тембровую окраску и формирующих поток звуков речи. Иными словами, необходимо исследовать вторую независимую компоненту процесса речеобразова-ния в модели Гельмгольца: формирование акустического качества звука за счёт возбуждения резонансных частот артикуляционного тракта (у Гельмгольца), или фильтрации (в современном рассмотрении)2.
Метод фонетико-спектрального анализа
Процесс анализа спектральных характеристик речи диктора-фигуранта начнем с рассмотрения традиционного метода фонетико-спектрального анализа. Для этого, прежде всего, обсудим вопросы использования спектральных характеристик речи в качестве устойчивых идентификационных признаков в условиях ограниченного объема речевого материала, поступившего на исследование, и неполной сопоставимости исходной и сравнительной записей3.
Необходимость использования стабильных показателей в сравнительном идентификационном исследовании объясняется тем требованием, что только устойчивые признаки могут быть задействованы для установления наличия или отсутствия тождества того или иного материального объекта — в данном случае человека — по его отображениям, т.е. для идентификации в её криминалистическом понимании.
В практике традиционного формантного анализа широко используется подход, при котором для обеспечения стабильности результатов измерений форманты4 гласных оцениваются в одинаковом фонетическом контексте (в «триадах») с учётом комбинаторных и позиционных изменений5. Однако, в реальных задачах криминалистической идентификации личности объем речевого материала обычно ограничен. По этой причине эксперт-исследователь далеко не во всех ситуациях может воспользоваться указанной технологией и отобрать достаточное для представительной выборки количество «триад». В данном случае следует вести речь о решении задачи с ограничениями, наложенными на начальные условия.
Таким образом, появилась необходимость развития теории применительно к речевому материалу ограниченного, или малого
объема. Эффективной в этих случаях может оказаться методика получения и оценки значений формантных характеристик гласных, позволяющая сравнивать фонетические контексты, традиционно определяемые как несовпадающие, но такие, в которых сохраняется акустическое качество исследуемых звуков. Например, при сопоставлении ударных и безударных гласных необходимо учесть качества согласных по таким параметрам, как твердость-мягкость (предшествующего согласного, последующего согласного, т.е. позиции типа tat — tat', t'at — t'at', в которых изменяется степень сдвинутости фокуса артикуляции гласного вперед). Так, для гласного [а] в словах х[а]тят, Т[а]тьяна, с[а]дись, сиг[а]рета общей является позиция tat'; для гласного [ы] в словах пассаж[ы]р, ж[ы]вой, тяж[ы]ло общей является позиция типа tat.
В современных исследованиях формантного состава ударных гласных показано6, что в позициях типа t'at и t'at' степень продвижения гласных вперёд практически совпадает. Поэтому в общем ряду можно рассматривать фонетические позиции гласного в таких словах, как «слинял» и «пять»; «нюхать» и «люди»; «тётка» и «тётя» и др.
Далее следует усреднить значения формант исследуемого гласного по анализируемой выборке, ибо, как указывал Л.Р. Зиндер «.. результаты (измерений — А.К.), даже если перед нами несколько произнесений одного и того же диктора, будут колебаться»7. Близость числовых значений усредненных значений формант исходной и сравнительной записей явится в этом случае одной из разновидностей стабильности данного показателя, а сами средние значения формант можно рассматривать в качестве устойчивого идентификационного признака.
Продолжая обсуждение стабильных спектральных характеристик, заметим, что в настоящее время не получено убедительных доказательств того, что значения формант являются единственными индивидуализирующими признаками для определения акустического качества звуков. Как показывает анализ речевого материала в многообразии конкретных криминалистических экспертиз идентификации личности по голосу и звучащей речи, точнее было бы говорить о том, что существует несколько параллельно функционирующих систем, позволяющих выделить индивидуализирующие признаки спектральной группы, наподобие того как существует по крайней мере две параллельно действующие системы голосообра-зования8.
Именно за счёт существования нескольких систем признаков различного типа обеспечивается устойчивость речевой коммуни-
кации, в том числе в условиях помех, шумов и искажений (что особенно важно в идентификационном исследовании говорящего по реальным звукозаписям). Указанные параллельные системы признаков могут быть реализованы, как отмечается в работе9, в рамках допустимой для речевого аппарата человека акустической теории речеобразования.
Возвращаясь к параллельно функционирующим системам, позволяющим выделить идентификационные признаки спектральной группы, следует сказать, что устойчивые признаки могут иметь разную природу. К числу таких устойчивых признаков относятся и формантные соотношения — F2/ F1, F3/F1, F3/F2 и т.д. Анализ этих соотношений необходим при идентификации говорящего, который находится в разном эмоциональном состоянии (спокоен, возбужден, подавлен, испуган, оживлен и др.), в разных речевых условиях (деловой разговор, выступление перед аудиторией, разговор со следователем и др.), т.е. при наличии ограничений, связанных с неполной сопоставимостью исходной и сравнительной записей. В этих ситуациях формантные соотношения обладают большей устойчивостью по сравнению с абсолютными значениями формант и поэтому являются более доказательными идентификационными признаками. Такой вывод основан на нашем опыте решения задачи идентификации говорящего по реальным фонограммам, который показывает, что при изменениях значений формант в силу тех или иных причин (например, в зависимости от ситуации речевого общения, эмоционального состояния говорящего и др.) соотношения формант практически не меняются.
Рассмотрим сравнительные характеристики речи (по признаку соотношения формант F2/F1) в разных речевых условиях и в разном эмоциональном состоянии диктора-фигуранта экспертизы10. Различия обобщены в таблице I и озаглавлены как ситуация 1 и ситуация 2. В первом случае говорящий эмоционально собран, осторожен, краток. Голос звучит сухо, деловито, приглушенно. Во втором случае артикуляторно четко и полно представлена реализация гласных, согласные не напряжены, речь нетороплива (темп речи снижен по сравнению с ситуацией 1 примерно на 10%).
Как видно из таблицы I в ситуации 1 и в ситуации 2 усредненные формантные показатели речи значительно расходятся, но соотношение F2/ F1 остается практически неизменным — устойчивым, т.е. как отмечалось выше, соотношения формант меняются в незначительной степени или практически не меняются.
Итак, соотношение формант остается стабильным, а данный идентификационный признак — формантные соотношения — оказывается устойчивым даже на материале ограниченного объема.
Таблица I.
параметры формантного анализа
гласный средняя частота формант, Гц ситуация 1 ситуация 2
а исх. - Р1= 535 и Р2=1390 срав.- Р1= 580 и Р2=1500 2,6 2,6
и исх. - Р1=310 и Р2=2015 срав.- Р1=300 и Р2=1970 6,5 6,6
о исх. - Р1=457 и Р2=945 срав.- Р1=390 и Р2=840 2,0 2,2
Продолжая обсуждение таблицы I, заметим, что наилучшее совпадение относительных формантных показателей исходной и сравнительной записей по звуку [я] может быть объяснено тем фактом, что среди всех гласных русского языка гласный [а] наиболее устойчив в спектральном отношении к шумам акустической обстановки и искажениям. В силу вышеприведенных причин спектральные характеристики гласного [а] оказались наиболее устойчивыми к различиям в речевой ситуации, в контекстном окружении, в объёме и качестве речевого материала исходной записи и фонограммы-образца.
Оценивая приведенные результаты исследования акустического качества звуков речи с помощью абсолютных и относительных формантных показателей, отметим, что если средневзвешенное относительное отклонение исходного (ситуация 1) и сравнительного (ситуация 2) речевого материала, подсчитанное по средним значениям формант, в данном примере составило 8,4%, то средневзвешенное относительное отклонение, подсчитанное по отношениям F2/F1 (столбцы 2 и 3 таблицы 4.3.1), составляет всего 3,5 %11.
Хотя и тот, и другой показатели находятся в пределах внутридик-торской вариативности12, из приведенных результатов видно, что соотношение формант явилось в данном случае более "сильным" идентификационным признаком, чем средние значения формант. Можно сказать, что как идентификационный признак соотношение формант обладает большим «весом», чем средние значения формант.
Возвращаясь к анализу соотношения второй и первой формант, отметим, что данное соотношение вызывает интерес ещё и по другой причине. Оно не только отражает такое важное для идентификации
личности свойство говорящего, как сдвиг фокуса артикуляции, но и позволяет установить взаимосоответствие между отдельными идентификационными признаками перцептивной и инструментальной групп13.
Известно, что свойство продвинутости фокуса артикуляции вперёд или назад по сравнению с нормой можно рассматривать в качестве одной из региональных особенностей говорящего. Оно находит отражение в идентификационных признаках перцептивной и акустической групп и характеризует функционально-динамические комплексы (ФДК) артикуляторных навыков индивидуума.
В качестве иллюстрации этого положения рассмотрим данные, полученные в результате одного из проведенных нами эксперимен-тов14. В эксперименте исследовался голос диктора-москвича, речь которого не имела заметных дефектов и характеризовалась как нормативная (московская норма). В процессе исследования были получены описания перцептивных характеристик качества звучания, а также проведены инструментальные измерения формант-ных частот. Голос фигуранта относится к группе мужских голосов со средней частотой основного тона F0 ж 130 Гц. В качестве представительного показателя вновь были использованы не только абсолютные значения частоты первой, второй и третьей формант F1, F2, F3, но и их отношения F2/F1, F3/F2. Результаты измерения частоты формант на ударном гласном [а] в основных позициях при чтении фигурантом предложенного ему текста дали следующие результаты: F1 = 600 Гц, F2 = 1250 Гц, F3 = 2270 Гц и отношение F2/F1 ж 2,1, а F3/F2 ж 1,8. Эти данные достаточно близки к соответствующим данным для нормативной русской речи (известно, что значение F2/F1 по многочисленным измерениям для мужских голосов близко к 2,015).
Затем на фразах: «Синий — синий тата взвился ввысь» и «Эх, ту утку тата ухватил» были измерены формантные частоты ударного гласного [а] в слове «тата». В первой фразе преобладает артикуляция звуков, образующихся в передней полости речевого аппарата, а во второй — в задней. Это в какой-то мере имитирует эффект продвинутого вперед/назад фокуса артикуляции и сопровождается произнесением гласного [а] в слове «тата» как продвинутого вперед/назад. Оказалось, что отношение F2/F1 для гласного [а] в первой фразе равно 3,5, а во второй - 1,6. Это даёт в первом случае значительное превышение над измеренной величиной этого соотношения для чтения указанным диктором текста (приблизительно на 65%), а во втором — снижение почти на 24% по сравнению с чтением.
Расширим рамки анализа и рассмотрим соотношения не только первой и второй, но и первой и третьей, второй и третьей формант, распространив исследование не только на соседние, но и на более отдаленные друг от друга максимумы в спектре речевого сигнала.
В таблице II приведены сравнительные характеристики речи (по признаку соотношений формант F2/F1, F3/F2, F3/F1) в разных речевых условиях и в неодинаковом эмоциональном состоянии говорящего. В первом случае для речи диктора-фигуранта криминалистической экспертизы характерно беспокойство в сочетании с растерянностью. Оттенки голоса варьируются от умоляющих до требовательных и даже гневных. В ситуации 2 речь более сдержана, обдуманна, достаточно логична.
Из таблицы II видно, что характеристики соотношений формант, полученные в процессе формантного анализа гласных [а], [и], [о] в сильных позициях для голоса и речи фигуранта в записи исходных телефонных разговоров (т.е. в ситуации 1) и в сравнительной записи разговора со следователем (ситуация 2), меняются в незначительной степени или практически не меняются.
Таблица II.
гласный статистические значения параметров формантного анализа
[а] параметр ситуация 1 ситуация 2
Р / Р 2 1 2,5 2,5
Р / Р 3 2 1,7 1,7
Р / Р 31 4,4 4,4
[и] Р / Р 21 7,2 7,1
Р / Р 32 1,3 1,2
Р / Р 31 9,9 9,1
[о] Р / Р 21 1,9 2,1
Р / Р 32 2,6 2,5
Р / Р 31 5,3 5,5
Таким образом, данные идентификационные признаки — фор-мантные соотношения F2/F1, F3/F2, F3/F1—вновь показали свою устойчивость.
Оценивая полученные результаты по выбранной метрике, отметим, что средневзвешенное относительное отклонение исходного (ситуация 1) и сравнительного (ситуация 2) речевого материала,
подсчитанное по отношениям F2/F1, F3/F2, F3/F1 (столбцы 3 и 4 таблицы II), составляет около 3,5%, что существенно меньше среднестатистической внутридикторской вариативности.
Интересно отметить, что вновь, как и в предыдущем примере, наилучшее совпадение параметров исходной и сравнительной записей (теперь уже и с учетом F3) получено по звуку [а]. Таким образом, характеристики гласного [а] вновь оказались наиболее устойчивыми к различиям речевого материала, связанным не только с наличием шумов акустической обстановки и искажений (в данном примере на фонограмме-образце), но и с несовпадением речевой ситуации 1 и речевой ситуации 2, т.е. к ограничениям, наложенным на речевой материал реальных криминалистических экспертиз.
Теоретические основания выделения устойчивых идентификационных признаков спектральной группы
Вопрос о теоретических основаниях полученных нами результатов требует специального рассмотрения. По сути дела речь идет о теоретическом фундаменте успешного выделения устойчивых идентификационных признаков спектральной группы в условиях ограничений, накладываемых на речевой материал реальных криминалистических экспертиз.
Ещё в середине 50-х годов прошлого века отечественными исследователями Л.А. Варшавским и И.М. Литваком была высказана гипотеза о том, что акустическое качество звуков определяется соотношением уровней сигнала в полосах спектра16. При этом форманты (т.е. максимумы в спектре речевого сигнала) являются лишь доступным для речевого аппарата способом достижения необходимых полосных соотношений.
Время показало, что высказанная авторами гипотезы мысль оказалась справедливой, фундаментальной и обладающей большой объяснительной силой. Позднее, при расширении прикладных криминалистических исследований звучащей речи, возникли новые вопросы. Потребовалось развитие этой теории применительно к речевому материалу ограниченного объема, к речевому материалу на т.н. «этнических» языках и др., т.е. применительно к решению задачи идентификации говорящего при наличии ограничений, налагаемых на начальные условия.
Кроме того, возникла необходимость теоретического обоснования такой важной задачи медико-криминалистической идентификации, как задача определения биометрических характеристик речевого аппарата диктора-фигуранта экспертизы17.
Рассматривая под ракурсом гипотезы Л.А. Варшавского и И.М. Литвака результаты проведенных нами идентификационных исследований и лабораторных экспериментов, легко убедиться в том, что данная гипотеза в первых двух из приведенных выше примеров реализовалась с помощью отношений средних значений частот формант (F2/F1). Таким образом, подтвердилось предположение о том, что форманты являются доступным для речевого аппарата способом достижения необходимых полосных соотношений.
С другой стороны, результаты, идентификационного исследования, приведенные в таблице II, показывают, что гипотеза получила дальнейшее подтверждение при сопоставлении характеристик речи диктора-фигуранта экспертизы не только в соседних, но и в более отдаленные друг от друга полосах спектра.
Таким образом, теоретическое положение о том, что акустическое качество звуков определяется соотношением уровней сигнала в полосах спектра, получает новое развитие при сопоставлении фонограмм речи одного и того же говорящего (т.е. при установлении наличия или отсутствия индивидуально-конкретного тождества в криминалистическом понимании).
Распространим теперь гипотезу Л.А. Варшавского и И.М. Лит-вака на решение задачи идентификации диктора методом опорных сегментов (методом формантного выравнивания).
Поясним, что первоначально данный метод был предложен в рамках идентификации дикторов, говорящих на т.н. «этническом» языке. Актуальность этой задачи криминалистической идентификации вызвана тем обстоятельством, что в многообразии речевого материала, поступающего на экспертные исследования, всё больший удельный вес приобретают звукозаписи, в которых фигуранты говорят на т.н. этнических языках. В основном это языки юга России и бывших южных республик СССР.
Единственным выходом из создавшегося положения является создание методики, позволяющей опытным экспертам-исследователям, входящим в экспертную комиссию, но не владеющим тем языком, на котором говорит фигурант экспертизы, идентифицировать говорящего на этническом языке.
Указанная методика, которая была разработана специалистами Центра речевых технологий (г. Санкт-Петербург) и описана в целом ряде работ18. В настоящее время она успешно применяется в ряде государственных и негосударственных судебно-экспертных учреждений Российской Федерации.
Целью настоящей статьи не является рассмотрение комплексной универсальной методики идентификации личности по голосу и звучащей этнической речи. Отметим только, что данная задача, обладая определенной спецификой, во-первых, по-прежнему является типичной задачей речевой кибернетики и требует сочетания (в рамках концепции «стыка»19) знаний из различных областей гуманитарных, естественных и технических наук; во-вторых, предлагаемая методика может быть применена и для идентификации личности дикторов, говорящих на русском языке.
В наших исследованиях нас, прежде всего, интересовал вопрос о теоретических основаниях метода опорных сегментов. При этом речь идет о том разделе идентификационной экспертизы, в котором опосредованно происходит сравнение геометрической конфигурации речеобразующего тракта дикторов-фигурантов экспертиз на сопоставимых фрагментах исходной и сравнительной фонограмм20. В рамках метода опорных сегментов указанное сравнение проводится путем сопоставления формантного состава на участках реализации в речевом сигнале артикуляторно подобных акустических событий.
Таким образом, в рамках метода формантного выравнивания экспертами отбираются не одинаковые фонетические реализации (т.е. «триады» в словах, в слогах), как это происходит в традиционном методе фонетико-спектрального анализа, описанном выше, а артикуляторно подобные события. Такие события соответствуют ситуации, когда речеобразующие органы человека находятся в положении, реализующем одно и то же фонетически значимое звучание. Иными словами, для сравнения подбираются не формально, но реально фонетически одинаковые звуки. Фонетически незначимая часть формантного спектра таких звуков и образует идентифицирующие признаки сравниваемой артикуляции21.
По мысли разработчиков основная идея метода формантного выравнивания основана на предположении, что каждый диктор в процессе производства речи может изменять конфигурацию своего речевого тракта лишь в рамках жёстких анатомических ограничений, позволяющих изменять геометрические размеры акустического волновода - артикуляторного тракта только в определённой
степени. Каждая конфигурация управляется диктором только по своим основным геометрическим размерам, которые обеспечивают реализацию целевых акустических резонансных свойств для низкочастотной части спектра или, вообще говоря, только первых двух-трёх формантных максимумов.
Резонансные свойства каждой конфигурации вокального тракта для четвёртой и более высоких формант обычно диктором не контролируются и задаются имеющимися анатомическими ограничениями на возможные изменения конфигурации артикуляторного тракта диктора. На языке формантного описания это приводит к тому, что при фиксированных значениях первых формант более высокие по частоте форманты у данного диктора могут занимать только более-менее стабильные индивидуальные положения.
Таким образом, высокочастотная формантная структура речи диктора при фиксированной низкочастотной формантной структуре часто является стабильной22, неизменной во времени и не подлежит изменению (умышленному или неумышленному) диктором-фигурантом экспертизы, т.е. высокочастотная формантная структура — это, по выражению разработчиков метода, «устойчивая биометрическая характеристика» индивидуума. Сравнительный анализ этих высокочастотных формантных структур (а через них и геометрических характеристик вокального тракта) позволяет идентифицировать дикторов с высокой степенью надёжности23.
По своей сути метод формантного выравнивания соответствует косвенным измерениям и сравнению мелких деталей геометрического строения артикуляторного тракта дикторов. В процессе идентификации эксперт-исследователь ищет совпадающие конфигурации речевых трактов в исходной и в сравнительной записях. При достаточном числе найденных совпавших конфигураций такое совпадение считается, по мысли авторов метода, не случайным, и может быть принято решение об идентификации дикторов.
Вопрос о теоретических основаниях метода опорных сегментов требует специального рассмотрения. Хотя в случае использования данного метода задача криминалистической идентификации личности по голосу и звучащей речи приобретает свою специфику, теоретические основания, которые служат фундаментом выявления устойчивых идентификационных признаков инструментальной группы, связанных со спектральными характеристиками речи индивидуума, и в этом случае сохраняют свою справедливость и объяснительную силу.
Проиллюстрируем справедливость гипотезы о том, что акустическое качество звуков определяется соотношением уровней сигнала в полосах спектра применительно к методу опорных сегментов (методу формантного выравнивания) на конкретном примере24.
Рис. 1 Динамические спектрограммы [^-образного гласного.
|_2:39.30_2:39.35_2:39.40_2:39,45_2:39,50
[2:39.27 - 2:39.53| М1 массив с фонограмм,«>ау {Бл9кмана-Харриса;25б;КЛЛ: 14)
^■34751
3000 •2500
•2000
•1500
•1000 •500
0:10.05 0:10.10 0:10,15 0:10.20 0:10.25
£0:10.01 -0:1Л.27] MaccnE_.wav (Блакмана-Карриса;512;КЛП:14)
На рис. 1 приведены динамические спектрограммы [Г]—образно-го гласного в исходной (слева) и в сравнительной (справа) записях этнической речи. В приведенных реализациях совпадают положения четырех формант исследуемого звука: F1=400Гц, F2=1780Гц, Fз=2430Гц, F4=3480Гц.
На рис. 2 показаны т.н. спектральные срезы, соответствующие тем временным отметкам в исходной и в сравнительной фонограммах, которые отмечены на рис. 1 вертикальными курсорами. Черная (верхняя) кривая соответствует произнесению неизвестного М, серая (нижняя) произнесению подозреваемого, т.е. фонограмме-образцу.
Рис. 2. Мгновенные спектры анализируемого р]-образного
гласного.
Е о. ф -во 5
Частота, "Ц
500 10 00 15 00 20 00 25 00 30 00 ЗЕ 00 А1
[2:39.402] М1 массив с фонограмм.юау (Блэкмана-Харриса; 256; КПП: 14) [0:10,142] MacoiB_.wav (Блэкмана-Харриса; 512; КЛП:14)
Рис. 1 иллюстрирует высокую степень совпадения характерных особенностей реализации спектрально-временной картины при произнесении анализируемого Щ-образного звука, а рис. 2 высокую степень совпадения соотношений уровней сигнала в полосах спектра. И то и другое косвенным образом свидетельствует о совпадении геометрии речевого тракта исследуемых дикторов.
Итак, гипотеза Л.А. Варшавского и И.М. Литвака о том, что акустическое качество звуков определяется соотношением уровней сигнала в полосах спектра, показала свою справедливость и объяснительную силу и в случае метода опорных сегментов.
При этом форманты (т.е. максимумы в спектре речевого сигнала) вновь — как и в случае традиционного фонетико-спектрального анализа, когда речь идет о поиске и сравнении (как слуховом, так и инструментальном) реализаций одинаковых фонем в одинаковом речевом контексте25, — выступают в качестве доступного для речевого аппарата способа достижения необходимых полосных соотношений.
Таким образом, анализ соотношений уровня сигнала в полосах спектра является тем общим теоретическим фундаментом, на котором базируется методология выявления устойчивых идентификационных признаков инструментальной группы, связанных со спектральными характеристиками речи, применительно к решению задачи идентификации личности говорящего при наличии ограничений, наложенных на начальные условия.
Определение биометрических характеристик речевого аппарата
Обратимся теперь к задаче определения биометрических характеристик речевого аппарата диктора-фигуранта экспертизы.
Среди нескольких определений биометрии с точки зрения криминалистики и судебной экспертизы наиболее интересным, на наш взгляд, является то, в котором биометрия определяется как идентификация человека по уникальным, присущим только ему биологическим признакам.
При решении задачи медико-криминалистической идентификации личности говорящего естественным образом возникает вопрос о путях использования биометрических показателей речевого тракта диктора в качестве индивидуализирующих идентификационных признаков.
Некоторые из таких идентификационных признаков могут быть, как мы убедились выше, выявлены в результате спектрального анализа речевого сигнала. Рассмотрим связь спектральных характеристик речи и отдельных биометрических параметров речевого тракта и проанализируем те теоретические основания, которые являются основой медико-криминалистической идентификации личности по биометрическим характеристикам речевого тракта.
Сравнительный анализ речевого сигнала в норме и при определенных патологиях (например, при болезнях гортани), проведенный в работе26, показал, что при исключении в силу тех или иных обстоятельств (например, в результате хирургического вмешательства) из речеобразующего тракта Морганиева желудочка27 в спектральной картине исчезает третья форманта F3 для всех русских гласных звуков кроме [и]28. Из этого наблюдения можно сделать вывод, что Морганиев желудочек отвечает за формирование третьей форманты в таких русских гласных, как [а], [е], [о], [у].
Другими словами исчезновение из спектральной картины речевого сигнала третьей форманты F3 означает, что в той полосе спектра, где находится F3, исчезает спектральный максимум, который соотносится с соответствующим резонансом. Таким образом, происходит перераспределение соотношений уровней речевого сигнала в полосах спектра, что подтверждает правильность нашего наблюдения о применимости гипотезы Л.А. Варшавского и И.М. Литвака к оценке биометрических характеристик речевого тракта диктора.
При этом форманты (т.е. максимумы в спектре речевого сигнала) по-прежнему выполняют роль доступного для речевого аппарата способа достижения необходимых полосных соотношений.
Продолжая обсуждение вопросов использования биометрических характеристик речевого тракта диктора в качестве идентификационных признаков, распространим теперь гипотезу о том, что акустическое качество звуков определяется соотношением уровней сигнала в полосах спектра, на теоретическое обоснование той части задачи построения речевого психологического портрета, которая связана с определением размера ротового отверстия говорящего фигуранта.
Интуитивно ясно, что при построении психологического портрета по голосу и звучащей речи информация о дикторе-фигуранте экспертизы передается акустическим путем. Д.п.н., проф. В.П. Морозов в своих работах не только выделил целый ряд видов и разновидностей этой информации, но и доказал их достаточно объективную связь с психофизическими особенностями говорящего.
Это (как указывает автор исследований) касается, прежде всего, таких чисто физических свойств человека, которые легко проверить, например, возраст, пол и даже его рост и вес. Последнее объясняется тем фактом, что акустические особенности голоса зависят от размеров голосовых складок, величины резонаторов голосового тракта «обследуемого» (чем больше эти размеры, тем ниже голос и «гуще» его тембр; и наоборот — чем меньше эти размеры, тем выше голос и светлее тембр).
В своих недавних исследованиях В.П. Морозову удалось показать, что субъект восприятия способен по голосу даже воссоздать общий облик говорящего, нарисовать его портрет с довольно точным изображением деталей, например, относительных размеров рта29.
Рис. 3. Сравнительные интегральные спектры речи при разной ширине рта.30
дБ о
I - широкий рог к=2Я,6% -2 - узкий рот к=1б,0%
5 Б .7.8.3 1
......111111111....... II III 11Ш
кГц
Для оценки ширины рта диктора-фигуранта такой экспертизы В.П. Морозовым был введен специальный коэффициент Ь. Данный коэффициент характеризует процентное отношение акустической энергии высокочастотной части спектра звука в полосе 1—11 кГц к энергии всего звука в целом (т.е. к энергии в полосе 0,1—11 кГц). На рис. 3 показаны результаты одного из экспериментов, проведенных В.П. Морозовым. Диктору с широким ротовым отверстием соответствует значение к=28,6%, с узким — к=16,0%.
Следовательно, по значениям коэффициента Ь (т.е. по соотношениям уровней сигнала в полосах спектра) мы можем судить о таком биометрическом показателе диктора-фигуранта экспертизы, как размер его ротового отверстия.
Таким образом, и в этом случае, т.е. в задаче определения размера ротового отверстия говорящего, гипотеза о том, что акустическое качество звуков определяется соотношением уровней сигнала в полосах спектра, показала свою справедливость и объяснительную силу.
Заключение
Итак, анализ речевого материала экспертно-криминалисти-ческих исследований, проведенный с учетом ограниченности его объема, неполной сопоставимости по речевой ситуации и качеству записи, показал, что полученные результаты полностью согласуются с гипотезой о том, что акустическое качество звуков определяется соотношением уровня сигнала в полосах спектра. При этом форманты (т.е. максимумы в спектре речевого сигнала) выступают в качестве доступного для речевого аппарата индивидуума способа достижения необходимых полосных соотношений.
С другой стороны, эксперименты, проведенные нами как в лабораторных условиях, так и на речевом материале реальных экспертиз, наглядно продемонстрировали связь идентификационных признаков перцептивной и инструментальной групп, показали, что указанные признаки находятся в отношениях взаимодополнения, (частично) взаимосоответствия и взаимопроникновения, часто неразделимых.
Наконец, результаты экспериментов по определению биометрических характеристик речеобразующего тракта диктора-фигуранта экспертизы, полученные к.т.н. А.Н. Квасовым и д.п.н., проф. В.П. Морозовым, получили свое теоретическое обоснование в том, что акустическое качество звуков речи индивидуума определяется соотношением уровней сигнала в полосах спектра.
А. Ш. Каганов Примечания
1 Каганов А.Ш. Криминалистическая идентификация личности по голосу и звучащей речи. Монография. 2-е изд. перераб. и доп. М.:, Юрлитинформ, 2012. С. 51.
2 Фант Г. Акустическая теория речеобразования / Пер. с англ. под ред. В.М. Григорьева. М.: Наука, 1964. С. 27.
3 Для значительного числа фонограмм, поступающих на экспертно-крими-налистическое исследование, характерны недостаточный объём, зашумленность, низкая разборчивость, недостаточная (на первый взгляд) сопоставимость исходной и сравнительной записей, различие технических характеристик каналов записи и другие ограничения, которые с математической точки зрения можно рассматривать как ограничения, налагаемые на начальные условия решения задачи.
4 Форманта — акустическая характеристика звука речи, связанная с уровнем энергии сигнала в соответст-вующей полосе спектра и участвующая в образовании тембр звука. Формантный — относящийся к форманте, формантам.
5 Каганов А.Ш. Указ. соч. С. 152. Златоустова Л.В. Роль мягких согласных при правом и левом контексте: Доклад на «Ломоносовских чтениях» (25 апреля 2005 г. в МГУ, Москва). Зиндер. Л.Р. Общая фонетика, М.: Высшая школа, 1979. С. 35. Жинкин Н.И. О теориях голосообразования // Мышление и речь / Под ред. Жинкина Н.И. и Шемякина Ф.Н. М., 1963.
Галунов В.И., Гарбарук В.И. Акустическая теория речеобразования и система фонетических признаков // Материалы международной конференции «100 лет экспериментальной фонетике в России» 1—4 февраля 2001 г. СПб.: Филол. ф-т Санкт-Петербургского гос. ун-та, 2001. С. 58—62.
Здесь и далее приводятся примеры из наших экспертных исследований, выполненных по постановлениям следственных органов и определениям судов. Для оценки близости формантных показателей использовалась метрика 8S =
<2/ (1/lyil)(lx.|-|y.|) • 100%)/N.
j
Допустимая внутридикторская вариативность составляет по разным данным от 15 до 20%.
Напомним, что идентификационные признаки, по которым устанавливается наличие (или отсутствие) индивидуально-конкретного тождества между голосами неизвестного и подозреваемого делятся на перцептивные (аудитивные, лингвистические) и инструментальные, или акустические: признаки, связанные с параметрами основного тона, и спектральные.
По причине ограниченности объема настоящей статьи результаты других наших экспериментов на материале реальных экспертных исследований, не приводятся. Интересующихся этими результатами, отсылаем к монографии Каганов А.Ш. Указ. соч.
Halle М. The Sound Pattern of Russian. A linguistic and acoustical investigation/ Ed. by R. Jakobson, Mouton & Co. S-Gravenhage, 1959. 206 p. Варшавский Л.А., Литвак И.М. Исследование формантного состава и не-
которых других физических характеристик звуков русской речи // Проблемы физиологической акустики. М.-Л.: АН СССР, 1955. Т.3. С. 5-17.
17 Интуитивно ясно, что измерение указанных характеристик по материалам звукозаписей будет носить косвенный, опосредованный характер.
18 Коваль С.Л. и др. Использование метода формантного выравнивания для проведения инструментальной части идентификационного исследования говорящего // Современные методы, технические и программные средства, используемые в криминалистической экспертизе звукозаписей: Методическое пособие для экспертов под общ. ред. А.Ш. Каганова. М.: РФЦ СЭ при Минюсте России, 2003. С. 107-132; ЗубоваП.И., Коваль С.Л. Идентификации личности по голосу и звучащей речи на основе комплексного анализа фонограмм // Теория и практика судебной экспертизы: Научно-практич. журнал. 2007. № 3 (7).
19 Каганов А.Ш. Указ. соч. С. 49.
20 Поясним, что целью задачи криминалистической идентификации с юридической точки зрения является установление индивидуально-конкретного тождества между голосом неизвестного, записанного на исходной фонограмме (которая могла быть получена, например, в процессе оперативно-розыскных мероприятий или предоставлена одной из сторон в судебном разбирательстве), и голосом подозреваемого, записанного на фонограмме-образце.
21 Таким образом, в методе формантного выравнивания находит своё подтверждение мысль целого ряда авторов, что в задачах КЭЗ (криминалистической экспертизы звукозаписей) наиболее информативными часто оказываются те составляющие звукового сигнала, которые вообще не воспринимаются на слух.
22 Напомним, что для идентификации говорящего могут быть использованы только стабильные показатели (см. например, Каганов А.Ш. Указ. соч.).
23 Коваль С.Л. и др. Указ. соч. С. 107-132.
24 Приведенный пример взят из реального экспертного исследования фонограмм на этническом языке. Исследование было выполнено экспертами судебно-экспертного учреждения «ФоренЭкс» (г. Санкт-Петербург).
25 Каганов А.Ш. Указ. соч. С. 152. Квасов А.Н. Модель голосообразования и анализ речевого сигнала в норме и при патологии: Автореф. дисс... канд. тех. наук. Томск: ТУСУР, 2007. Морганиев желудочек [ventriculus laryngis, ventriculus laryngis (Morgagnii); син.: желудочек гортанный, желудочек гортани] - парное углубление слизистой оболочки гортани между преддверной и голосовой складками. Квасов А.Н. Указ. соч. С. 10.
Морозов В.П. Невербальная коммуникация. Экспериментально-психологические исследования. М.: Ин-т психологии РАН, 2011. С. 169-170. Иллюстрация из книги: Морозов В.П. Указ. соч. С. 170.
26