Научная статья на тему 'Распознавание гомотопического типа объекта с помощью дифференциально-топологических инвариантов аппроксимирующего отображения'

Распознавание гомотопического типа объекта с помощью дифференциально-топологических инвариантов аппроксимирующего отображения Текст научной статьи по специальности «Математика»

CC BY
162
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Компьютерная оптика
Scopus
ВАК
RSCI
ESCI
Область наук
Ключевые слова
машинное обучение / топологические инварианты / степень отображения / обработка изображений / machine learning / topological invariants / degree of a map / image processing

Аннотация научной статьи по математике, автор научной работы — Курочкин Сергей Владимирович

Предложен новый метод топологического анализа данных, позволяющий получить информацию о гомотопическом типе анализируемого объекта. В отличие от наиболее хорошо разработанных и широко применяемых методов, использующих понятие персистентных гомологий, данный метод основан на анализе дифференциальных инвариантов аппроксимирующего отображения. Таким образом, в противоположность комбинаторно-топологическому подходу, используются методы дифференциальной топологии и прямая аналогия с основным результатом теории Морса. При этом аппроксимирующее графический объект гладкое отображение может быть построено с использованием общедоступного инструментария, например, нейронной сети. Доказано, в частности, что метод позволяет полностью распознать гомотопический тип объекта на плоскости: топологическая степень некоторого вспомогательного отображения и количество окружностей в гомотопически эквивалентном представлении объекта в виде букета связаны соотношением. Работа алгоритма продемонстрирована на примере символов из базы данных MNIST и их трансформаций. Рассмотрены обобщения и открытые вопросы, возникающие в случае более высоких размерностей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Detection of the homotopy type of an object using differential invariants of an approximating map

A method of topological data analysis is proposed that allows one to find out the homotopy type of the object under study. Unlike mature and widely used methods based on persistent homologies, our method is based on computing differential invariants of some map associated with an approximating map. Differential topology tools and the analogy with the main result in Morse theory are used. The approximating map can be constructed in the usual way using a neural network or otherwise. The method allows one to identify the homotopy type of an object in the plane because the number of circles in the homotopy equivalent object representation as a wedge is expressed through the degree of some map associated with the approximating map. The performance of the algorithm is illustrated by examples from the MNIST database and transforms thereof. Generalizations and open questions relating to a higher-dimension case are discussed.

Текст научной работы на тему «Распознавание гомотопического типа объекта с помощью дифференциально-топологических инвариантов аппроксимирующего отображения»

Распознавание гомотопического типа объекта с помощью дифференциально-топологических инвариантов аппроксимирующего отображения

С.В. Курочкин 1

1 Национальный исследовательский университет «Высшая школа экономики», Москва, Россия

Аннотация

Предложен новый метод топологического анализа данных, позволяющий получить информацию о гомотопическом типе анализируемого объекта. В отличие от наиболее хорошо разработанных и широко применяемых методов, использующих понятие перси-стентных гомологий, данный метод основан на анализе дифференциальных инвариантов аппроксимирующего отображения. Таким образом, в противоположность комбинаторно-топологическому подходу, используются методы дифференциальной топологии и прямая аналогия с основным результатом теории Морса. При этом аппроксимирующее графический объект гладкое отображение может быть построено с использованием общедоступного инструментария, например, нейронной сети. Доказано, в частности, что метод позволяет полностью распознать гомотопический тип объекта на плоскости: топологическая степень некоторого вспомогательного отображения и количество окружностей в гомото-пически эквивалентном представлении объекта в виде букета связаны соотношением. Работа алгоритма продемонстрирована на примере символов из базы данных MNIST и их трансформаций. Рассмотрены обобщения и открытые вопросы, возникающие в случае более высоких размерностей.

Ключевые слова: машинное обучение, топологические инварианты, степень отображения, обработка изображений.

Цитирование: Курочкин, С.В. Распознавание гомотопического типа объекта с помощью дифференциально-топологических инвариантов аппроксимирующего отображения / С.В. Курочкин // Компьютерная оптика. - 2019. - Т. 43, № 4. - С. 611-617. - DOI: 10.18287/2412-6179-2019-43-4-611-617.

Введение

Топологический анализ данных (TDA) [1, 2] имеет целью выявление и изучение наиболее «грубых» («существенных», «устойчивых», «инвариантных» и т.д.) свойств точечных множеств в многомерных пространствах - именно таких, которые не зависят от выбора системы координат и инвариантны относительно непрерывных деформаций объекта и/или пространства признаков. В последние годы в связи постановкой всё более сложных задач анализа многомерных, зашумлённых и плохо структурированных данных направление привлекает большое внимание исследователей и практиков, о чём свидетельствует интенсивный поток публикаций. В частности, TDA стал важной составляющей проекта DARPA [3 - 5].

В настоящее время основным рабочим инструментом TDA является вычисление гомологий симплици-альных комплексов, связанных с исследуемым объектом. Кратко суть метода состоит в следующем. Для некоторого параметра е > 0 берётся покрытие множества е-шарами и строится его комплекс Чеха (как нерв покрытия) или же (несколько иным и вычислительно более выгодным способом) комплекс Вието-риса-Рипса. Затем вычисляются гомологии комплекса. Процедура эффективно реализуется численно, однако содержит произвол в выборе параметра. Здесь работает идея persistence [6] (русский термин не сложился, по смыслу - устойчивость, неизменность). Нужно рассмотреть гомологии для различных е (теоретически - для всевозможных) и естественные отоб-

ражения этих групп для ei < е2 (вся конструкция вместе образует т.н. фильтацию). Persistent-существен-ными являются те элементы групп гомологий, которые сохраняются (т.е. изоморфно отображаются из прообраза в образ, а не обнуляются и не возникают) на достаточно длинных промежутках изменения параметра. Идея persistence перекликается с похожим приёмом в методе кластерного анализа: «истинными» кластерами объявляются те, конфигурация которых соответствует длинным горизонтальным (без слияний) участкам диаграммы кластеров. Следующие рисунки (источник [1]) иллюстрируют метод.

Рис. 1. Персистентные гомологии

Представлено одно и то же точечное множество на плоскости и его комплексы Чеха для двух различных значений параметра (на рис. 1а меньше, чем на рис. 16). Визуально ясно, что объект, выборку из которого представляет множество, гомеоморфен окружности. Однако при анализе его дискретного представления возникают хорошо видимые «паразитные» циклы - два на первом рисунке и один на вто-

ром. Формально вычисленные числа Бетти (соответственно 3 и 2) для исходного объекта неверны. Правильное значение можно узнать, рассмотрев естественное отображение группы гомологий левого комплекса в группу правого: два маленьких цикла на левом рисунке перейдут в ноль («заклеиваются»), маленький цикл на правом рисунке не будет иметь прообраза («возникает»), и только истинный цикл отобразится изоморфно.

Разработка и практическая реализация методов описанного класса включает в том числе преодоление различных технических трудностей и неестественных эффектов. Например, на плоскости можно построить точечное множество, чей комплекс Виеториса-Рипса будет гомеоморфен сфере Sn любой наперёд заданной размерности n, см. [7].

В данной работе предложен подход к задаче топологического анализа данных, основанный на другой математической идее и конструкции: свойства объекта можно узнать, изучая функции, заданные на нём. Эта идея плодотворно работает в различных разделах математики. Возможно, самым ярким примером её применения (и близким к теме данной работы) является основной результат теории Морса [8, 9]: гомотопический тип компактного связного многообразия можно узнать, имея информацию о критических точках (их количестве и индексах) всего одной произвольно взятой («общего положения») гладкой функции на этом многообразии.

Привлекательность предлагаемого подхода связана с тем, что к настоящему времени хорошо разработаны и реализованы в виде, доступном даже для неквалифицированного пользователя, различные методы построения аппроксимирующих/сглаживающих отображений. Обычно при этом используются нейронные сети или методы типа local fit. Таким образом, почти вся техническая составляющая метода уже оказывается в распоряжении исследователя, и необходимо лишь - как в теории Морса - найти конечное множество точек, по которым можно вычислить степень отображения и посчитать их индексы.

Целью и результатом предлагаемого метода анализа является определение гомотопических свойств анализируемого объекта, в наилучшем случае (для случая плоскости, см. далее) - его гомотопического типа. Эта классификация более грубая, чем с точностью до гомеоморфизма. Однако в этом отношении методы, основанные на вычислении гомологий аппроксимирующих комплексов, дают не больше информации об объекте, поскольку (см., например, [9]) у гомотопически эквивалентных пространств гомологии одинаковы.

Инструментом анализа выступают некоторые дифференциально-топологические инварианты, связанные с аппроксимирующим отображением.

Структура работы следующая. В параграфе 1 изложена математическая конструкция. Сформулирован и доказан основной результат. В параграфе 2 метод применён к задаче анализа изображений из известной те-

стовой базы данных. Сделано это с целью продемонстрировать принципиальную работоспособность метода в хорошо известной специалистам и полностью реплицирумой ситуации. В заключение представлены некоторые выводы и открытые вопросы.

1. Связь дифференциальных свойств аппроксимирующего отображения с гомотопическим типом объекта

В качестве предмета классификации могут выступать объекты с формально различным математическим описанием, в том числе (список неполон):

1) «достаточно хорошие», например, клеточные, подпространства евклидовых пространств; пример -плоский граф;

2) чёрно-белые растровые изображения;

3) растровые изображения с оттенками серого, изначально представляющие чёрно-белый (графический) образ; последнее требование означает отсутствие больших областей серого цвета и сёдел (см. ниже замечание к п. 4 схемы метода и параграф 2);

4) точечные подмножества евклидовых пространств, имеющие метрическую размерность меньше, чем у объемлющего пространства [10].

Далее потребуются некоторые топологические понятия, изложение которых можно найти в учебниках, см., например, [9]. В этом абзаце дана краткая справка. Два непрерывных отображения /0, / из X в У, где X, У -топологические пространства, называются гомотопными (принадлежат одному гомотопическому классу), если существует непрерывное отображение [0, 1] х X^ У такое, что ^ [0, . ] =/0, ^ [1, . ] / Пространства X, У гомотопически эквивалентны (имеют один гомотопический тип), если существуют непрерывные отображения /: X^ У и g : У ^X такие, что ^ и g°/ гомотопны тождественным отображениям соответственно в X и У. Ретракция - непрерывное отображение топологического пространства X на его подмножество М, тождественное на М. Деформационная ретракция - ретракция, гомотопная тождественному отображению X. Используются также некоторые известные топологические факты, они приводятся далее в контексте.

Опишем схему метода для двумерного случая (про общий случай будет сказано далее).

1. Пусть дано связное компактное подмножество А евклидовой плоскости (х, у).

2. Пусть функция И(.) - индикатор множества А: И (х, у) = 1, если точка (х, у) принадлежит А, 0 - не принадлежит.

3. Аппроксимируем И гладкой функцией / Поскольку А ограничено, можно добиться, чтобы / была тождественно нулём вне некоторого круга. Тем самым можно считать, что / определена на сфере, которая получается добавлением к плоскости бесконечно удалённой точки.

4. По функции / строим отображение ф двумерной сферы в себя следующим образом: ф(х, у) есть точка, в которой луч с направляющим вектором

(/'х(х,у), /'у (х,у), /(х,у) - 1/2) пересекает единичную сферу; ф(да) = южному полюсу.

5. Гомотопический тип «достаточно хорошего» (например, клеточного) связного компактного множества на плоскости есть букет окружностей (несколько окружностей, склеенных по точке).

6. Гомотопический класс отображения сферы в сферу той же размерности (речь идёт об отображении ф) полностью определяется одним целочисленным инвариантом - степенью отображения. Степень отображения (допуская некоторую вольность речи) может быть определена как количество (со знаками) прообразов произвольно взятой («общего положения») точки из образа, причём каждый прообраз учитывается со знаком «+», если отображение в этой точке сохраняет ориентацию, и «-», если обращает. Точные формулировки см., например, в [9], Глава 1, § 10, п. 3.

7. В реальных задачах степень ф может быть вычислена конструктивно. Например, у точки (1,0,0) в общем случае будет конечное число прообразов относительно ф. В терминах отображения / это такие точки (х,у), что: /(х,у) = 1/2, т.е. серый цвет; /'х(х,у) > 0; /'у(х,у) = 0, т.е. переход от белого к чёрному слева направо. Расположение таких прообразов может быть найдено известными методами поиска решения для нелинейных уравнений. В случае (как далее в примере в параграфе 2), когда для / используется её дискретная аппроксимация, следует искать точки сетки, где выполняются приближённые соотношения /(х, у) ~ 1/2, /'х(х, у) > 0, /'у(х, у) ~ 0 . При удовлетворительном качестве аппроксимации такие точки будут образовывать кластеры, причем каждый кластер будет соответствовать одному истинному прообразу. Эти кластеры могут быть найдены обычными методами кластерного анализа. После нахождения прообразов следует определить в них знаки гессиана функции / и просуммировать (см. п. 6).

8. Гомотопический тип исходного объекта (п. 5) однозначно восстанавливается по информации п. 6, см. теорему далее.

Замечания.

К п. 1. Разделение компонент несвязного множества удовлетворительно делается методами кластерного анализа.

К п. 2. Вариант: дано не само множество, а гладкая функция / выражающая какую-то «меру» или «вероятность» для точки (х, у) принадлежать ему. Тогда переходим к пункту 3. Другой вариант: дано не А, а функция к, заданная на выборке точек плоскости и принимающая значения в промежутке [0,1]. Тогда в п. 3 аппроксимируем к, а не И.

К пп. 3 - 4. Здесь проясняется, какие требования нужно предъявить к исходному множеству и/или способу аппроксимации его индикатора. Множество должно быть в достаточной степени «контрастным» -так, чтобы его функция плотности не имела больших полутоновых областей и сёдел. Аппроксимирующая функция / может быть получена конструктивно (см. Введение). Далее, три координаты вектора в

определении ф не должны обращаться в ноль одновременно. По существу это вытекает из требований к множеству, а формально является свойством общего положения и будет удовлетворяться в реальных ситуациях. Однако для строго обоснования последующих действий и инвариантности результата относительно способа аппроксимации необходимо уточнить требования к последнему. Например, достаточно предположить следующее: для некоторого 5, 0 < 5 < 1/2 , множество А есть деформационный ретракт множества /-1{[1/2 + 5, 1]} и отрезок [1/2- 5, 1/2 + 5] не содержит критических значений /, см. [11, Теорема 2.2] и [12, Лемма 25.1.1]. Что касается вычисления частных производных, то формально информация о них содержится в параметрах функции /. По существу же, для сложно устроенных отображений, например, нейронных сетей, такое вычисление - в соответствующей литературе фигурирует как «оценка чувствительности к признакам» - является отдельной, не всегда тривиальной и хорошо осознанной задачей. Одним из известных подходов является генерирование дополнительной подвыборки в окрестности интересующей точки и прогон на ней обученной сети [13]. Здесь, в зависимости от специфики задачи, возможны различные решения и дополнительные исследования. Далее в изложенном в параграфе 2 примере используется численное дифференцирование сеточной функции.

К п. 5. Гомотопический тип связного плоского графа есть букет 1 - х окружностей, где х - его эйлерова характеристика, х = V- Е, V - количество вершин, Е -количество рёбер [14, Теорема 2.3.13]. Или, как следствие общего факта, [9, Глава 1, § 5]. Произвольный многоугольник на плоскости деформационно ретра-гируется на некоторый граф [15, Лемма 3.12] и, следовательно, имеет тот же гомотопический тип. Для реальных объектов утверждение интуитивно очевидно и практически выполняется. Так, в шрифте, которым набран этот текст, цифры 1, 2, 3, 5, 7 имеют гомотопический тип «точка» (букет нулевого количества окружностей), 0, 4, 6, 9 - одна окружность, 8 -букет двух окружностей. Результат верен независимо от того, рассматриваются ли символы как топологические графы, или как имеющие толщину линий, или как растровые изображения.

Основной результат.

Теорема. В сделанных предположениях относительно А и/количество 5 окружностей в букете, описывающем гомотопический тип А, и степень deg(ф) отображения ф связаны соотношением: 5 = 1 - deg(ф).

Доказательство. Дополнение к А состоит (см. [14, Глава 2, Теоремы 2.3.12, 2.3.13]) из 5 + 1 связных компонент, из которых одна - ида - является окрестностью бесконечности, а остальные - и1, ..., и- ограниченные области, гомеоморфные диску. Выберем в каждой из компонент ик по одной точке 2к и её круговую окрестность Vk, целиком лежащую в ик; для к=да положим = да и V«, = {(х,у): х2 +у2 > т}, где т >> diam(A). Функцию / можно гладко деформировать в функцию /1, равную единице вне объединения V/, ну-

лю во всех zk, а внутри Vk гладко и монотонно зависящую от расстояния точки-аргумента до zk (для k = да -монотонно стремящуюся к нулю при х2 + y2 ^ да). При этом отображение ф гладко деформируется в соответствующее отображение фь Поскольку степень инвариантна относительно гомотопий, deg^) = deg^i) . Но степень ф1 легко посчитать непосредственно: например, у точки сферы (1,0,0) будет относительно ф1 ровно s + 1 прообразов, по одному в каждом Vk. При этом прообраз, расположенный в Vm, будет иметь положительный знак якобиана, а все остальные (если таковые имеются, т.е. при s > 0) - отрицательный. Следовательно, степень ф равна 1 - s. □

В общем случае, т.е. когда A есть подмножество евклидова пространства произвольной размерности n, конструкция метода сохраняется: так же строится отображение ф: Sn ^ Sn и вычисляется его степень, которая по-прежнему полностью описывает гомотопический класс ф. Однако положение здесь существенно сложнее тем, что уже нет простой гомотопической классификации для произвольных A. Как букеты (n -1)-мерных сфер теперь представляются только (n -2)-связные подмножества [9], Глава 1, § 5]. Например, для трёхмерного пространства это его односвязные подмножества, и двумерный тор в эту классификацию не входит. Таким образом, гомотопический класс ф уже не определяет полностью гомотопический тип A . Тем не менее, степень ф всё равно содержит информацию об A, важную и саму по себе, и полезную в сочетании с иной информацией. Например, если a priori известно, что A - поверхность (двумерное связное компактное многообразие) в R3, то можно показать, что deg^) = 2(1 -g) , где g- род поверхности (количество ручек в представлении как сферы с ручками), то есть гомотопический (а с учётом априорной информации - и топологический) тип A полностью восстанавливается.

2. Пример распознавания гомотопического типа графического изображения Рассмотрим пример применения предлагаемого метода к конкретным объектам - символам из известной базы данных MNIST [16], которая широко используется для тестирования методов распознавания изображений. Первый объект (символ «9», номер 44 из обучающего множества) представлен на рис. 2. По типу формального описания объект относится к случаю 3 (см. начало параграфа 1) - растровое изображение с оттенками серого. Следует отметить, что из-за плохого по современным требованиям (можно сказать, умышленно плохого) качества изображения данный случай не удовлетворяет требованиям применимости предлагаемого метода (см. параграф 1, замечание к п. 4 описания метода). А именно, видны и обнаруживаются при расчётах трудно устранимые серые фрагменты, имеется седловая область (на рисунке отмечена стрелкой).

Тем не менее, анализ по описанной схеме с некоторыми дополнительными действиями даёт правильный результат. Прежде всего, потребовалось проде-

лать сглаживание по 9 точкам с равными весами, результат представлен на рис. 3а. Далее применялся алгоритм, частные производные вычислялись через разностное приближение

/'х (х, у) = [/(х +1, у) -/(х -1, у)]/2 и соответственно для /'у. На рис. 3б представлены кластеры точек, в которых /'х > 0, а величины / 'у (х,у) / / X (х,у), (/(х, у) - 1/2) //'х (х, у) по модулю меньше некоторого порога (полагался равным 0,5), и указаны знаки якобиана отображения ф на этих кластерах (вторые производные / вычислялись через симметричные вторые разности). Шкалы по осям позволяют визуально оценить расположение и состав кластеров. Расчёты показали, что кластерный анализ вполне удовлетворительно проводится соответствующими известными методами, например, методом к-средних с выбором числа кластеров к при помощи т.н. «коэффициента силуэта» [17].

Т-1-1-1-г

5 10 15 20 25 Рис. 2. Символ № 44 из базы данных MNIST с отмеченной седловой областью

252015105-

а) 5 10 15 20 25

Рис. 3. Тот же символ, сглаженный по 9-точечной маске, и прообразы регулярного значения (1,0,0) относительно отображения ф с указанием знаков

Получаем, что deg(ф) = 0 и, по Теореме, 5 = 1, что является верным ответом.

На рис. 4 - 6 представлены аналогичные результаты для различных трансформаций данного изображения, а на рис. 7 - 8 - для другого исходного объекта: МЫШТ, символ «8», номер 56 из обучающего множества, для которого 5 = 2.

25 20 15 10 5

а)

25 20 15 10 5

25 20 15 10 5

5

5 10 15 20 25 б) 5 10 15 20 25

Рис. 4. То же, поворот на п/2

а) 5 10 15 20 25 б) 5 10 15 20 25 Рис. 5. То же, отражение относительно диагонали

25 20 15 10 5

а)

25 20 15 10 5

5 10 15 20 25 б) 5 10 15 20 25 Рис. 6. То же, отражение относительно горизонтальной оси

а) 5 10 15 20 25 б) 5 10 15 20 25

Рис. 7. Символ № 56 из базы данных ММ8Т (сглаженный) и кластеры прообразов регулярного значения

25 20 15 10 5

25 20 15 10 5

а) 5 10 15 20 25 б) 5 10 15 20 25 Рис. 8. То же, отражение относительно диагонали

Здесь уместно напомнить, что решается не задача распознавания образа, а задача распознавания его гомотопического типа. Как и следовало ожидать, в различных трансформациях объекта количество, расположение и знаки кластеров различаются, однако, во-первых,

кластерная структура везде присутствует (что при столь плохом качестве материала заранее не очевидно), и во-вторых, везде получен верный результат.

Заключение

Предложенный метод позволяет выявлять топологические свойства точечных множеств в евклидовом пространстве с помощью инструмента, легко доступного аналитику, а как правило - автоматически имеющемуся у него в распоряжении, - гладкой числовой функции, аппроксимирующей функцию-индикатор анализируемого множества. В некоторых случаях — произвольных множеств на плоскости, многообразий в пространстве - дифференциально-топологические свойства аппроксимирующей функции позволяют полностью восстановить гомотопический тип объекта. Предлагаемый способ для некоторых задач может оказаться вычислительно дешевле и проще в применении, чем мейнстрим-подход топологического анализа данных, основанный на вычислении устойчивых гомологий симплициальных комплексов Чеха или Виеториса-Рипса. В задачах же такого типа, как была рассмотрена в параграфе 2, то есть когда задано не точечное множество, а аппроксимирующая функция или её дискретизация, метод, как показано, может быть успешно применён, в то время как методы, предполагающие построение комплексов, не могут быть применены. В то же время, в сравнении с нейросетевыми методами распознавания и классификации, предложенный метод позволяет напрямую исследовать топологические характеристики объекта.

По-видимому, дальнейшие усилия могут быть направлены на решение двух групп вопросов. Во-первых, в отличие от множеств на прямой и на плоскости, для множеств в многомерных пространствах отсутствует простая гомотопическая (тем более топологическая) классификация, что делает неопределённым формат требуемого ответа. Как и вообще в анализе данных, наибольшие трудности связаны с множествами, имеющими в разных своих участках разную размерность. Представляет интерес вопрос, в каких дополнительных предположениях или/и в сочетании с какой дополнительной информацией степень отображения ф позволяет определить топологические свойства объекта. Вторая группа вопросов проистекает из необходимости в данном методе знать первые частные производные аппроксимирующего отображения и даже некоторую информацию о вторых (нужен знак гессиана в конечном числе точек). При том, что способы сделать это будут неизбежно и существенно зависеть от метода аппроксимации, здесь -по аналогии с похожими ситуациями в других разделах вычислительной математики - могут быть найдены методы, позволяющие избежать собственно вычисления производных, а только диагностирующие их равенство/неравенство нулю и знак.

Благодарности

Работа выполнена в рамках реализации программы Центра хранения и анализа больших данных МГУ

имени М.В. Ломоносова. Автор благодарен рецензенту первого варианта статьи за ценные замечания и рекомендации, позволившие улучшить текст.

Литература

1. Carlsson, G. Topology and data / G. Carlsson // Bulletin of the American Mathematical Society. - 2009. - Vol. 46, Issue 2. -P. 255-308. - DOI: 10.1090/S0273-0979-09-01249-X.

2. Zomorodian, A. Topological data analysis / A. Zomorodian. - In Book: Advances in applied and computational topology / ed. by A. Zomorodian. - American Mathematical Society, 2012. - P. 1-40. - ISBN: 978-08218-5327-6.

3. Mervis, J. What makes DARPA tick? / J. Mervis // Science.

- 2016. - Vol. 351, Issue 6273. - P. 549-553.

4. DARPA - Frontiers of engineering [Electronical Resource].

- URL: https://www.naefrontiers.org/File.aspx?id=22017 (request date 30.10.2018).

5. Рогозин, Д.О. Высокие технологии в США: Опыт министерства обороны и других ведомств. / Д.О. Рогозин, И.А. Шеремет, С.В. Гарбук, А.М. Губинский. - М.: МГУ, 2013. - 380 с.

6. Edelsbrunner, H. Topological persistence and simplification / H. Edelsbrunner, D. Letscher, A. Zomorodian // Discrete and Computational Geometry. - 2002. - Vol. 28, Issue 4. - P. 511-533. - DOI: 10.1007/s00454-002-2885-2.

7. Adamaszek, M. On homotopy types of euclidean rips complexes [Electronical Resource] / M. Adamaszek, F. Frick, A. Vakili. - URL: https://arxiv.org/pdf/1602.04131.pdf (request date 30.10.2018).

8. Постников, М.М. Введение в теорию Морса / М.М. Постников. - М.: Наука, 1971.

9. Фоменко, А.Т. Курс гомотопической топологии / А.Т. Фоменко, Д.Б. Фукс. - М.: Наука, 1989.

10. Демидов, Е.Е. Нелинейный корреляционный анализ / Е.Е. Демидов, Ю.В. Даревская, О.А. Моренков, А.А. Товчигречко // Обозрение прикладной и промышленной математики. - 1999. - Том 6, Вып. 1. - С. 4-57.

11. Chazal, F. A sampling theory for compact sets in Euclidean space / F. Chazal, D. Cohen-Steiner, A. Lieutier // Discete and Computational Geometry. - 2009. - Vol. 41, Issue 3. -P. 461-479. - DOI: 10.1007/s00454-009-9144-8.

12. Chazal, F. High-dimensional topological data analysis. Handbook of discrete and computational geometry. - Boca Raton, FL: CRC Press, 2017. - ISBN: 978-1-4987-1139-5.

13. Ribeiro, M. "Why should i trust you?" Explaining the predictions of any classifier [Electronical Resource] / M. Ribeiro, S. Singh, C. Guestrin. - URL: https://arxiv.org/abs/1602.04938 (request date 30.10.2018).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Katok A. Introduction to modern topology and geometry / A. Katok, A. Sossinsky [Electronical Resource]. - URL: http://www.personal.psu.edu/axk29/TOPOLOGY/ (request date 30.10.2018).

15. Erickson J. CS 598: Computational topology. Spring 2013 [Electronical Resource]. - URL: http://jeffe.cs.illi-nois.edu/teaching/comptop/index.html (request date 30.10.2018).

16. The MNIST database of handwritten digits [Electronical Resource]. - URL: http://yann.lecun.com/exdb/mnist/ (request date 30.10.2018).

17. Hennig, C. Dissolution point and isolation robustness: Robustness criteria for general cluster analysis methods / C. Hennig // Journal of Multivariate Analysis. - 2008. -Vol. 99, Issue 6. - P. 1154-1176. - DOI: 10.1016/j.jmva.2007.07.002.

Сведения об авторе

Курочкин Сергей Владимирович, 1956 года рождения, в 1977 году окончил механико-математический факультет Московского государственного университета имени М.В. Ломоносова, кандидат физико-математических наук, работает старшим научным сотрудником в ФИЦ «Информатика и управление» РАН, доцент НИУ Высшая школа экономики. Область научных интересов: топология, численные методы, методы машинного обучения. E-mail: [email protected] , [email protected] .

ГРНТИ: 28.23.15

Поступила в редакцию 19 ноября 2018 г. Окончательный вариант - 4 июля 2019 г.

Detection of the homotopy type of an object using differential invariants of an approximating map

S.V. Kurochkin 1

1 Russian Academy of Science, Federal Research Centre "Computer Science and Control", Moscow, Russia

Abstract

A method of topological data analysis is proposed that allows one to find out the homotopy type of the object under study. Unlike mature and widely used methods based on persistent homologies, our method is based on computing differential invariants of some map associated with an approximating map. Differential topology tools and the analogy with the main result in Morse theory are used. The approximating map can be constructed in the usual way using a neural network or otherwise. The method allows one to identify the homotopy type of an object in the plane because the number of circles in the homotopy equivalent object representation as a wedge is expressed through the degree of some map associated with the approximating map. The performance of the algorithm is illustrated by examples from the MNIST database and transforms thereof. Generalizations and open questions relating to a higher-dimension case are discussed.

Keywords: machine learning, topological invariants, degree of a map, image processing.

Citation: Kurochkin SV. Detection of the homotopy type of an object using differential invariants of an approximating map. Computer Optics 2019; 43(4): 611-617. DOI: 10.18287/2412-61792019-43-4-611-617.

Acknowledgements: This work was conducted as part of the program of the Big Data Storage and Analysis Center of M.V. Lomonosov Moscow State University. The author thanks the reviewer of the first version of the article for valuable remarks that allowed him to improve the text.

References

[1] Carlsson G. Topology and data. Bulletin of the American Mathematical Society 2009; 46(2): 255-308. DOI: 10.1090/S0273-0979-09-01249-X.

[2] Zomorodian A. Topological data analysis. In Book: Zomorodian A, ed. Advances in applied and computational topology. American Mathematical Society; 2012: 1-40. ISBN: 978-0-8218-5327-6.

[3] Mervis J. What makes DARPA tick? Science 2016; 351(6273): 549-553.

[4] DARPA - Frontiers of engineering. Source: (https://www.naefrontiers .org/File.aspx?id=22017).

[5] Rogozin DO, Sheremet IA, Garbuk SV, Gubinskii AM. High technologies in the USA: The experience of the Defence Ministry and other Institutions [In Russian]. Moscow: "MSU" Publisher; 2013.

[6] Edelsbrunner H, Letscher D, Zomorodian A. Topological persistence and simplification. Discrete and Computational Geometry 2002; 28(4): 511-533. DOI: 10.1007/s00454-002-2885-2.

[7] Adamaszek M, Frick F, Vakili A. On homotopy types of euclidean rips complexes. Source: <https://arxiv.org/pdf/1602.04131 .pdf).

[8] Postnikov M.M. Introduction to Morse theory [In Russian]. Moscow: "Nauka" Publisher; 1971.

[9] Fomenko A, Fuchs D. Homotopical topology. 2th ed. Switzerland: Springer International Publishing; 2016.

[10] Demidov EE, et al. Nonlinear correlation analysis [In Russian]. Obozrenie Prikladnoy i Promyshlennoy Matemetiki 1999; 6(1): 4-57.

[11] Chazal F, Cohen-Steiner D, Lieutier A. A sampling theory for compact sets in Euclidean space. Discete and Computational Geometry 2009; 41(3): 461-479. DOI: 10.1007/s00454-009-9144-8.

[12] Chazal F. High-dimensional topological data analysis. Handbook of discrete and computational geometry. Boca Raton, FL: CRC Press; 2017. ISBN: 978-1-4987-1139-5.

[13] Ribeiro M, Singh S, Guestrin C. "Why should i trust you?" Explaining the predictions of any classifier. Source: <https://arxiv.org/abs/1602.04938).

[14] Katok A, Sossinsky A. Introduction to modern topology and geometry. Source: <http://www.perso-nal.psu.edu/axk29/TOPOLOGY/).

[15] Erickson, J. CS 598: Computational topology. Spring 2013. Source: <http://jeffe.cs.illinois.edu/teaching/comp-top/index.html).

[16] The MNIST database of handwritten digits. Source: <http://yann.lecun.com/exdb/mnist/).

[17] Hennig C. Dissolution point and isolation robustness: Robustness criteria for general cluster analysis methods. Journal of Multivariate Analysis 2008; 99(6): 1154-1176. DOI: 10.1016/j.jmva.2007.07.002

Author's information

Sergey Vladimirovich Kurochkin (b. 1956) graduated from Lomonosov Moscow State University in 1977, Mechanics and Mathematics faculty. PhD, associate professor at the National Research University Higher School of Economics, senior researcher at the Federal Research Centre "Computer Science and Control" of RAS. Research interests include topology, numerical and machine learning methods. E-mail: [email protected], [email protected], [email protected] .

Received November 19, 2018. The final version - July 04, 2019.

i Надоели баннеры? Вы всегда можете отключить рекламу.