Интернет-журнал «Науковедение» ISSN 2223-5167 http ://naukovedenie.ru/ Том 7, №4 (2015) http ://naukovedenie. ru/index.php?p=vol7-4 URL статьи: http://naukovedenie.ru/PDF/74TVN415.pdf DOI: 10.15862/74TVN415 (http://dx.doi.org/10.15862/74TVN415)
УДК 004.912
Бородащенко Антон Юрьевич
ГКОУ ВПО «Академия Федеральной службы охраны Российской Федерации»
Россия, Орёл1 Сотрудник Кандидат технических наук E-mail: [email protected]
Потемкин Алексей Владимирович
ГКОУ ВПО «Академия Федеральной службы охраны Российской Федерации»
Россия, Орёл Сотрудник E-mail: [email protected]
Сазонова Елена Александровна
ГКОУ ВПО «Академия Федеральной службы охраны Российской Федерации»
Россия, Орёл Сотрудник Кандидат педагогических наук E-mail: [email protected]
Шекшуев Сергей Васильевич
Россия, Орёл E-mail: [email protected]
Алгоритм поиска схожих публикаций средств массовой информации
1 302034, г. Орёл, ул. Приборостроительная, д. 35
Аннотация. В настоящей статье приводится описание алгоритма поиска схожих публикаций средств массовой информации, основанного на статистической мере TF-ГОF. Обосновывается актуальность разработки такого алгоритмов. Подробно раскрывается содержание этапов построения алгоритма, приводятся практические результаты проверки эффективности.
В статье проведен анализ существующих подходов к определению подобия текстовых сообщений. Показано, что они не обеспечивают высокую точность из-за использования хэш-функций, так как изменение одного символа в цепочке слов приводит к неправильному определению сходства сообщений. Для решения этой проблемы, а также для увеличения показателей точности и полноты отбора информации из различных источников, авторами был предложен алгоритм поиска схожих публикаций средств массовой информации, основанный на статистической мере TF-IDF. Приведена функциональная модель алгоритма в нотации IDEF0. На основе функциональной модели разработана блок-схема алгоритма поиска схожих публикаций средств массовой информации.
Для оценки эффективности предложенного алгоритма проведен натурный эксперимент по определению сходства публикаций средств массовой информации. Представлены примеры таких публикаций. На основе предлагаемого алгоритма разработано программное средство. В статье представлена экранная форма пользовательского интерфейса программы. Приведены результаты определения схожих публикаций разработанным алгоритмом и алгоритмом шинглов.
Ключевые слова: публикация; средство массовой информации; текст; дубликат; обработка текстов; алгоритм шинглов; подобие текстов; хэш-функция; точность; полнота.
Ссылка для цитирования этой статьи:
Бородащенко А.Ю., Потемкин А.В., Сазонова Е.А., Шекшуев С.В. Алгоритм поиска схожих публикаций средств массовой информации // Интернет-журнал «НАУКОВЕДЕНИЕ» Том 7, №4 (2015) http://naukovedenie.ru/PDF/74TVN415.pdf (доступ свободный). Загл. с экрана. Яз. рус., англ. DOI: 10.15862/74TVN415
Повсеместное использование информационных технологий привело к тому, что в различных коммерческих компаниях и государственных организациях накопились огромные массивы документов, обрабатываемые с помощью приложений различного назначения: систем электронного документооборота, управления электронной почтой, бухгалтерского учета и прочих. Наряду с этим наблюдается постоянный рост количества используемой в электронном виде информации. В сложившихся условиях становятся актуальными новые подходы к обработке информационных массивов, способные объединить разнородные информационные системы. Одним из таких подходов является внедрение специализированного класса аппаратно-программных комплексов - информационно-аналитических систем [1].
В настоящее время выделяют пять классов информационно-аналитических систем, исходя из их функциональных возможностей:
• лингвистические процессоры;
• системы анализа структурированной информации;
• системы визуализации текстовой информации;
• информационно-поисковые системы;
• системы анализа текстовой информации.
Наиболее сложными среди указанных классов систем являются системы анализа текстовой информации, так как они включают в себя в качестве подсистем все остальные перечисленные классы. Такие системы обладают возможностью анализа текстов с использованием синтаксических и семантических механизмов. Как правило, алгоритмы функционирования данных систем основаны на анализе терминов, встречающихся в документах, и их взаимного расположения. На основе этих алгоритмов выявляются темы документов и наиболее значимые фрагменты текстов. К основным функциям данных систем можно отнести [1]:
• получение данных из источников информации, преобразование их к единому формату [2];
• полнотекстовый, контекстный, тематический, атрибутивный, нечеткий поиск документов [3];
• построение таблиц, графиков, гистограмм, отражающих характеристики выборок объектов и документов;
• полнотекстовое индексирование текстов и реквизитов документов и размещение результатов предварительной обработки в системной базе данных, а также публикация документов для доступа к ним пользователей;
• ручное редактирование результатов автоматической обработки документов;
• автоматическая классификация, кластеризация, реферирование, аннотирование, создание дайджестов и другие операции анализа текстов [4-8].
Исходя из вышеизложенного, можно сказать, что на сегодняшний день системы анализа текстовой информации обладают широкими возможностями по работе с текстами, но не лишены и недостатков, одним из которых является повторная обработка дублированной информации. Только в сети Интернет важные сообщения многократно дублируются на экспоненциально растущем количестве сайтов, в то время как количество заслуживающих внимания источников растет не такими высокими темпами, скорее всего, линейно [9]. Модули
поиска схожих документов должны быть реализованы в информационно-поисковых системах, в системах анализа структурированной информации и системах визуализации текстовой информации для увеличения оперативности работы за счет исключения из результатов обработки одинаковых документов, а так же и в системах анализа текстовой информации как в классе систем, включающих в себя все вышеперечисленные системы. Однако в настоящее время указанная задача в информационно-аналитических системах должным образом не реализована.
Многие системы анализа текстовой информации включают в себя модули проверки документов на схожесть, основанные на так называемом алгоритме шинглов. Чаще всего он применяется для очистки поисковой выдачи, то есть для отсеивания документов, содержащих уже найденную информацию, а также поиска плагиата. Реализация данного алгоритма подразумевает четыре этапа:
• канонизация текстов;
• разбиение текстов на шинглы;
• нахождение контрольных сумм;
• поиск одинаковых последовательностей.
Рассмотрим эти этапы подробнее. Канонизация текстов представляет собой очистку текстов от знаков препинания, предлогов, союзов, местоимений и других лексических единиц, которые не несут смысла при сравнении, а также от стоп-слов.
Разбиение текстов на шинглы, реализуемое на втором этапе, представляет собой выделение последовательностей слов, идущих друг за другом, в среднем по десять штук. Следует отметить, что для наилучшего результата выборка происходит внахлест, а не встык. Пример выделение шинглов внахлест представлен на рисунке 1.
Рисунок 1. Выделение шинглов из текстов (разработано авторами)
На третьем этапе для каждого шингла находится его контрольная сумма (хэш-функции crc32, md5 и др.) [10].
Последний этап представляет собой сравнение контрольных сумм. Возможно сравнение каждой пары этих значений, однако для повышения производительности обычно сравнивают выборки значений контрольных сумм (например, только те, которые делятся на 25) [11].
Описанный алгоритм показывает достаточно низкую точность. Это напрямую связано с хэш-функциями. Достаточно изменить один символ в тексте, как контрольная сумма шингла полностью изменяется.
Для решения этой проблемы, а также для увеличения показателей точности и полноты отбора информации из различных источников, авторами был предложен алгоритм поиска схожих публикаций средств массовой информации, основанный на статистической мере TF X IDF. Функциональная модель предлагаемого алгоритма в нотации IDEF0 представлена на рисунке 2.
Рисунок 2. Контекстная диаграмма алгоритма анализа документов на схожесть
(разработано авторами)
В блоке 1 контекстной диаграммы производится канонизация текстов. Этот этап аналогичен этапу канонизации текстов в алгоритме шинглов, описанному выше.
В блоке 2 диаграммы производится вычисление численного значения TF X IDF для каждого слова, что является основным направлением, обеспечивающим повышение показателей точности и полноты отбора информации из различных источников. TF X IDF -статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью массива документов. Раскроем структуру формулы. TF - отношение числа вхождения некоторого слова к общему количеству слов документа:
TF (1)
где щ есть число вхождений слова в документ, пк - общее число слов в данном документе. IDF - инверсия частоты, с которой некоторое слово встречается в документах коллекции:
IDI
IDF = log-
(2)
где |D| - количество документов в массиве, l(di з ti)l - количество документов, в которых встречается ti. Большой вес в TF X IDF получают слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах, то есть слова, имеющие высокую смысловую нагрузку в рамках конкретного документа. Если же некоторое слово встречается в каждом документе массива, то его смысловая нагрузка минимальна, и оно получает малый вес, т.е. |D| = l(di з ti)l,IDF = logl = 0,TF X IDF = 0.
В третьем блоке происходит присвоение значения TF XIDF словам-синонимам, полученным из тезауруса. Этап является необязательным.
В четвертом блоке производится создание метрики документов на основе вычисленных значений TF X IDF.
В пятом блоке производится индексирование текстов по метрикам (например, тексты могут быть упорядочены по схожести). Для определения тематической близости двух документов используется простое скалярное произведение двух векторов (метрик) з1т(й1, й2), которое соответствует косинусу угла между векторами - образами документов й1и ё2. Очевидно, что з1т(й1,й2) принадлежит множеству [0, 1]. Чем больше значение з1т(й1, й2), тем более близки документы ё1и ё2. Аналогично мерой близости документа № и q является величина [9]:
Показатели полноты и точности существенно повышается в результате использования словаря тезауруса, что позволяет выявлять дубли, исходя из смысла текстов. В предлагаемом алгоритме отсутствует главный недостаток алгоритма шинглов, связанный с перестановкой или изменением символов текста.
Таким образом, на содержательном уровне задача поиска схожих публикаций средств массовой информации состоит в разработке алгоритма поиска схожих текстовых документов, позволяющего рассчитать значение коэффициента схожести двух текстов. На основе полученного значения возможно принятие решения об отсеивании конкретного документа как дубля. В отличие от существующих систем при поиске дублей применяется выделение ключевых слов документов и их статистический анализ с использованием метрики TF X IDF. Исходными данными являются массив текстовых документов и текст-эталон, отражающий требуемые пользователем результаты информационного поиска. Массив должен состоять минимум из одного текста.
На основе представленной выше модели авторами разработан алгоритм поиска схожих публикаций средств массовой информации, представленный на рисунке 3.
Рассмотрим работу алгоритма на примере нескольких сообщений СМИ, выгруженных из сети Интернет. В качестве текста-эталона выберем первый документ.
Первый текстовый документ:
Медведев - преемник: Это позитивный сигнал Западу.
10 декабря 2007 16:24.
Сегодня лидеры четырех партий - "Единой России", "Справедливой России", "Аграрной партии" и "Гражданской силы" предложили Путину кандидатуру Дмитрия Медведева в качестве претендента на пост Президента России. Путин выбор одобрил.
- Я думаю, что это очень сильный и честный ход президента, - говорит Александр РАР, директор программ России и СНГ Германского совета по внешней политике. - Он показывает, что рассуждения о закулисных играх, о будущем преемнике как марионетке Путина абсолютно беспочвенны.
Российский президент сделал очень рискованный ход для себя: он пошел вразрез с интересами силовиков, которые не поддерживали Медведева, предлагали другие кандидатуры, а то и настаивали на третьем сроке Путина. Но теперь фракция силовиков в российском истеблишменте оказывается весьма ослабленной.
Для Запада же был дан ясный сигнал, что Россия делает ставку на экономические реформы и будет проводить политику открытости, продолжать интегрироваться в мировое сообщество.
(3)
Второй текстовый документ:
Александр РАР, директор программ России и СНГ Германского совета по внешней политике:
- Я думаю, что это очень сильный и честный ход президента, - говорит - Он показывает, что рассуждения о закулисных играх, о будущем преемнике как марионетке Путина абсолютно беспочвенны.
Российский президент сделал очень рискованный ход для себя: он пошел вразрез с интересами силовиков, которые не поддерживали Медведева, предлагали другие кандидатуры, а то и настаивали на третьем сроке Путина. Но теперь фракция силовиков в российском истеблишменте оказывается весьма ослабленной.
Для Запада же был дан ясный сигнал, что Россия делает ставку на экономические реформы и будет проводить политику открытости, продолжать интегрироваться в мировое сообщество.
Начало
2 —
/Ввод текстовой информации
3
Разбиение текстов на слова
4
Приведение слов к нормальным формам
5
Удаление повторяющихся слов
6
Удаление служебных частей речи
7
Нахождение меры ТР X ЮГ
для
каждого слова
8
Создание метрики текстов
9
Сравнение текстов по метрике
Отсеивание дублей
11
Сохранение проанализированных текстов
-12-
Вывод результата
конец
1
Рисунок 3. Алгоритм поиска схожих публикаций средств массовой информации
(разработано авторами)
Третий текстовый документ:
Геннадий Гудков: поддержав Медведева, Путин открывает новую страницу российской власти.
По мнению Геннадия Гудкова, члена фракции "Справедливая Россия" Госдумы прошлого созыва, выбор кандидатуры первого вице-премьера в качестве политического преемника нынешнего президента страны может означать начало реформы политического курса в строну либерализации:
"В условиях выдвижения кандидатуры Дмитрия Медведева вполне возможно усиление роли политических партий и российского парламента в политической жизни общества. Следует отметить, что отказ президента Путина от третьего срока и изменения конституции является очень важным шагом для построения в России стабильного государства, в котором смена власти не грозит политическими катастрофами, а является рутинным и понятным обществу действом", - указал Гудков.
Политик подчеркнул, - "Если в ближайшее время действительно произойдет ротация в Кремле, тогда мы стабилизируем путь к цивилизованной смене власти в России. Ибо самый большой крест, который несет наша страна уже много столетий, - несменяемость единоличной власти".
"Ни для кого не секрет, что сегодня силовики обладают всеми рычагами для продвижения своего кандидата. Своим же решением Владимир Путин отходит от традиционной силовой линии и открывает новую страницу в истории российской власти", -отметил Геннадий Гудков.
Четвертый текстовый документ:
Политолог: Путин поддержал Медведева, чтобы было время еще подумать.
Выдвижение первого вице-премьера Дмитрия Медведева на пост президента РФ дает возможность Владимиру Путину поразмыслить, по какому сценарию дальше действовать. Медведев удобен тем что, он пригоден для обоих основных сценариев", - отметил политолог Борис Макаренко.
Один сценарий, считает политолог, таков: Путин рассматривает ситуацию после 2008 года, как интерлюдию между своим вторым сроком и следующим сроком. "Тогда надо было бы подбирать кандидата по возможности более "бесцветного", (ну это условно, сценарий Зубкова) ", - пояснил Макаренко.
Согласно второму сценарию, считает политолог, "Путин передает власть и постепенно сокращает объем своего влияния в политике, и тогда надо было брать Иванова".
"А Медведев, это что-то среднее. С ним возможно годик-другой посмотреть, подумать", - подытожил Макаренко. По сообщению РИА-Новости.
Во втором блоке введенные сообщения разбиваются на слова. В третьем блоке слова приводятся к нормальным формам (например, для существительного это именительный падеж единственное число, для глагола - неопределенная форма и др.). Четвертый блок представляет процесс удаление повторяющихся слов. Количество таких слов существенно возрастает после приведения слов к нормальным формам. В блоке 5 производится удаление служебных частей речи (союзов, междометий и др.), а так же стоп-слов. В седьмом блоке производится вычисление значений TF X IDF для каждого слова. В восьмом блоке создаются метрики документов. В девятом блоке производится сравнение текстов по найденным метрикам. В блоках 10 и 11 производится индексирование текстов.
Проанализировав результаты работы алгоритма можно рассчитать коэффициенты схожести текстов по формуле (3).
Результаты поиска схожих текстов средств массовой информации предложенным и существующим алгоритмами представлены в таблице 1. В левой половине таблицы 1 отражено сравнение представленных выше текстов алгоритмом шинглов без хэш-функции и длиной шингла 4 слова.
Таблица 1
Результаты поиска схожих публикаций (разработано авторами)
Алгоритм шинглов Разработанный алгоритм
тексты 1 2 3 4 тексты 1 2 3 4
1 1 0,5667 0,0000 0,0000 1 1 0,69504 0,04154 0,01418
2 0,9153 1 0,0000 0,0000 2 0,69504 1 0,02198 0,01214
3 0,0000 0,0000 1 0,0000 3 0,04154 0,02198 1 0,04032
4 0,0000 0,0000 0,0000 1 4 0,01418 0,01214 0,04032 1
Полученные результаты можно интерпретировать следующим образом: второй текст несет схожую с первым текстом информацию, третий и четвертый тексты существенно отличаются от первого, но имеются некоторый повторяющиеся слова. Анализ таблицы показывает, что значение сравнения двух текстов между собой алгоритмом шинглов является несимметричным, т.е. зависит от того, какой текст взять за эталон. Например, результатом сравнения второго текста с первым алгоритмом шинглов является 0,9153, т.е. почти весь второй текст содержится в первом, а первого со вторым 0,5667, т.е. чуть больше половины первого текста содержится во втором. При использовании разработанного алгоритма получается симметричное значение, т.е. результат сравнения первого текста со вторым равен результату сравнения второго текста с первым.
Экранная форма программного продукта, реализующего описанный алгоритм, представлена на рисунке 4.
Рисунок 4. Экранная форма пользовательского интерфейса (разработано авторами)
Заключение
Таким образом, авторами предложен алгоритм поиска схожих публикаций средств массовой информации устойчивый к различным воздействиям на тексты документов для «обмана» алгоритма шинглов, а именно: перестановкам слов в тексте, заменам слов на синонимы, перефразированию. Использование разработанного алгоритма позволяет повысить полноту и точность выделения схожей информации из массива документов. Конкретные значения изменения полноты и точности зависят от конкретного массива документов. Например, для массива абсолютно разных сообщений средств массовой информации по различным темам, изменения полноты и точности определения схожей информации может и не быть, а для массива, состоящего из схожих сообщений из разных источников по одному событию, полнота и точность выделения схожей информации приближается к 1.
ЛИТЕРАТУРА
1. Беляев К.В., Босов А.В., Краюшкин Д.В. Обзор и сравнительный анализ информационно аналитических систем. М.: ИПИ РАН, 2008. 135 с.
2. Бородащенко А.Ю., Глотов Д.В., Бочков С.М. Алгоритм контент-анализа новостного потока RSS-каналов // Информационные технологии. 2010. №9. С. 25-28.
3. Бочков М.В., Бородащенко А.Ю. Перспективы развития методов семантической фильтрации текстовых документов // Информационные технологии. 2012. №4. С. 2-7.
4. Бородащенко А.Ю. Анализ текстов на семантическое сходство на основе аппарата теории графов // Информационные системы и технологии. 2008. №1-2. С. 46-52.
5. Бочков М.В., Бородащенко А.Ю., Потемкин А.В. Алгоритм оценки ангажированности публикаций средств массовой информации на основе комплексного использования методов интеллектуального анализа данных // Вестник компьютерных и информационных технологий. 2009. №1. С. 36-40.
6. Бородащенко А.Ю., Яковлев В.А. Алгоритм фильтрации текстовой информации на основе марковской модели // Информационные технологии. 2011. №5. С. 2-5.
7. Потемкин А.В. Распознавание информационных операций средств массовой информации сети Интернет // Интернет-журнал «Науковедение», 2015. №3 [Электронный ресурс]-М.: Науковедение, 2015. - Режим доступа: http://naukovedenie.ru/PDF/139TVN315.pdf, свободный. - Загл. с экрана. - Яз. рус., англ.
8. Бородащенко А.Ю., Гончаров Д.С. Алгоритм выявления новых событий // Информационные технологии. 2013. №7. С. 26-31.
9. Ландэ Д.В., Снарский А.А., Безсуднов А.В. Интернетика. Навигация в сложных сетях. Модели и алгоритмы. М.: Либроком, 2009. 264 с.
10. Национальный открытый университет ИНТУИТ [Электронный ресурс]. Хэш-функции и аутентификация сообщений. Часть 1 - Режим доступа: http://www.intuit.ru/studies/courses/28/28/lecture/458, свободный. Яз. рус.
11. Broder A. Identifying and Filtering Near-Duplicate Documents, C0M'00 // Proceedings of the 11th Annual Symphosium on Combinatorial Pattern Matching. 2000. P. 1-10.
Рецензент: Толкунов Александр Александрович, сотрудник, кандидат
технических наук, ГКОУ ВПО «Академия Федеральной службы охраны Российской
Федерации».
Borodaschenco Anton Yur'evich
The Academy of the Federal Guard Service of the Russian Federation
Russia, Orel E-mail: [email protected]
Potemkin Alexey Vladimirovich
The Academy of the Federal Guard Service of the Russian Federation
Russia, Orel E-mail: [email protected]
Sazonova Elena Aleksandrovna
The Academy of the Federal Guard Service of the Russian Federation
Russia, Orel E-mail: [email protected]
Shekshuev Sergey Vasil'evich
Russia, Orel E-mail: [email protected]
The mass media similar publication finding algorithm
Abstract. This article describes the algorithm of similar publications search of the mass media, based on a statistical measure TF-IDF. It grounds actuality of algorithm building. The maintenance phases of algorithm construction are disclosed in detail. The practical results of testing the effectiveness are given.
The article analyzes the existing approaches to determining the similarity of text messages. It has been shown that they do not provide high precision, because of the use of hash functions, since changing one character in the string of words leads to incorrect determination of the similarity of messages. To solve this problem, as well as to increase the precision and recall of information selection from various sources, the authors proposed a algorithm of similar publications search of the mass media, based on the statistical measure TF-IDF. The functional model of the algorithm in IDEF0 notation is described. On the basis of the functional model the flowchart of similar publications search is designed.
To assess the effectiveness of the proposed algorithm a full-scale experiment to determine the similarity of the publications of the mass media was carried out. Examples of such publications are given. Based on the proposed algorithm the software tool was developed. The article presents a screen form of the user interface of the program. The results of the determination of similar publications of the developed algorithm and shingles algorithm are given.
Keywords: publishing; mass media; text; duplicate; word processing; shingles algorithm; the similarity of texts; hash function; precision; recall.
REFERENCES
1. Belyaev K.V., Bosov A.V., Krayushkin D.V. Obzor i sravnitel'nyy analiz informatsionno analiticheskikh sistem. M.: IPI RAN, 2008. 135 s.
2. Borodashchenko A.Yu., Glotov D.V., Bochkov S.M. Algoritm kontent-analiza novostnogo potoka RSS-kanalov // Informatsionnye tekhnologii. 2010. №9. S. 25-28.
3. Bochkov M.V., Borodashchenko A.Yu. Perspektivy razvitiya metodov semanticheskoy fil'tratsii tekstovykh dokumentov // Informatsionnye tekhnologii. 2012. №4. S. 2-7.
4. Borodashchenko A.Yu. Analiz tekstov na semanticheskoe skhodstvo na osnove apparata teorii grafov // Informatsionnye sistemy i tekhnologii. 2008. №1-2. S. 46-52.
5. Bochkov M.V., Borodashchenko A.Yu., Potemkin A.V. Algoritm otsenki angazhirovannosti publikatsiy sredstv massovoy informatsii na osnove kompleksnogo ispol'zovaniya metodov intellektual'nogo analiza dannykh // Vestnik komp'yuternykh i informatsionnykh tekhnologiy. 2009. №1. S. 36-40.
6. Bopodashchenko A.Yu., Yakovlev V.A. Algoritm fil'tratsii tekstovoy informatsii na osnove mapkovskoy modeli // Informatsionnye tekhnologii. 2011. №5. S. 2-5.
7. Potemkin A.V. Raspoznavanie informatsionnykh operatsiy sredstv massovoy informatsii seti Internet // Internet-zhurnal «Naukovedenie», 2015. №3 [Elektronnyy resurs]-M.: Naukovedenie, 2015. - Rezhim dostupa: http://naukovedenie.ru/PDF/139TVN315.pdf, svobodnyy. - Zagl. s ekrana. - Yaz. rus., angl.
8. Borodashchenko A.Yu., Goncharov D.S. Algoritm vyyavleniya novykh sobytiy // Informatsionnye tekhnologii. 2013. №7. S. 26-31.
9. Lande D.V., Snarskiy A.A., Bezsudnov A.V. Internetika. Navigatsiya v slozhnykh setyakh. Modeli i algoritmy. M.: Librokom, 2009. 264 s.
10. Natsional'nyy otkrytyy universitet INTUIT [Elektronnyy resurs]. Khesh-funktsii i autentifikatsiya soobshcheniy. Chast' 1 - Rezhim dostupa: http://www.intuit.ru/studies/courses/28/28/lecture/458, svobodnyy. Yaz. rus.
11. Broder A. Identifying and Filtering Near-Duplicate Documents, C0M'00 // Proceedings of the 11th Annual Symphosium on Combinatorial Pattern Matching. 2000. P. 1-10.