Штейнфельдт Э.А. Частотный словарь современного русского литературного языка. — Таллин: Изд-во НИИ педагогики Эстон. ССР, 1963.
ACCENTUATED TEXT CORPUS OF LITERARY RUSSIAN AS A SOURCE OF NEW DICTIONARIES (THE DICTIONARY OF RUSSIAN HOMOGRAPHS AND THE FREQUENCY WORD BOOK OF RUSSIAN WORD FORMS)
A.V. Ventsov, E.V. Grudeva
The paper is devoted to two new dictionaries of Russian. The dictionary of homographs contains more than four thousand homographic pairs that refute the traditional assumption about a peripheral role of homographs in Russian. The frequency word form book is also unique in its own way as it is the first to employ accentuated word forms as units of word description.
© 2009
К.Р.Галиуллин
ИНТЕРНЕТ-ЛИНГВОГРАФИЯ: РУССКИЕ ТЕКСТООПИСЫВАЮЩИЕ СЛОВАРИ
Словари останутся навсегда насущной потребностью нашей науки.
И.А. Бодуэн де Куртенэ
Анализ тенденций развития словарного дела и информационного потенциала языковых справочников показывает, что наиболее перспективной формой существования словаря является интернет-версия, среди «плюсов» которой:
1) широкий круг пользователей; благодаря обогащению компьютерных технологий интернет-технологиями, что представляет собой очередную информационную революцию, достигается глобальная обобществленность языковых справочников;
2) удобство эксплуатации;
3) многовходовость, возможность многопризнакового поиска;
4) возможности поддержки словаря в актуальном состоянии, постоянного развития, совершенствования (оперативная корректировка текста словаря, внесение необходимых дополнений и т.д.);
5) снятие многих ограничений на объем включаемого в словарь материала;
6) широкие возможности установления связи со сходными сетевыми справочниками и формирования лингвографических интернет-комплексов на основе ресурсов, размещенных как на одном, так и на разных порталах (сайтах).
Некоторые из указанных «плюсов», обеспечивающиеся электронной формой существования словаря, присущи и другим (несетевым) языковым справочникам, напр., СБ-словарям, а ряд параметров (напр., 1-й и 6-й) характерны только для интернет-словарей.
Значительный информационный потенциал интернет-лингвографии1 в немалой степени предопределил развитие в Казанском университете направления, связанного с созданием сетевых словарей. Среди этих языковых справочников особое место занимают текстоописывающие словари.
Данные чрезвычайно большого количества русскоязычных текстов еще не введены в научный оборот, именно поэтому очень остро стоит проблема скорейшей инвентаризации этих материалов. Безусловно, важную роль в оперативном разрешении этой проблемы призваны сыграть текстоописывающие языковые справочники.
В рамках указанного направления разрабатывается несколько проектов, связанных с русским языком, часть из которых реализуется в рамках различных программ, федеральных и республиканских, грантовых проектов2 и др. В их числе:
• фонд и словари памятников Казанского края XVI-XVII вв. — опубликованы словари, описывающие материалы текстов первой половины XVI в. [Исла-мова, Галиуллин 2000] и первой четверти XVII в. [Галиуллин, Гизатуллина 2008 (см. также интернет-компонент)]; сдан в печать справочник, посвященный языку документов третьей четверти XVII в.;
• фонд и словари памятников, связанных с русско-восточными отношениями Х^-ХУП в. — подготовлен к печати словарь языка документов, отражающих русско-индийские взаимосвязи XVII в.; ведется работа над источниками, описывающими контакты России с другими государствами Востока (Китай, Монголия, Ногайская Орда, Турция, Крымское ханство, Персия, среднеазиатские и кавказские государства и др.);
• фонд и словарь языка русских пословиц и поговорок конца XVII — первой половины XVIII в. — первый выпуск словаря вышел из печати [Галиуллин, Мартьянов 2006], в настоящее время готовится к печати второй том, а также формируется интернет-версия словаря;
• фонд и словарь языка писем М.В. Ломоносова — опубликован словарь словоформ (текстотека объемом более 19800 словоупотреблений) [Язык писем 2007 (см. также интернет-компонент)]; завершается подготовка к печати словаря слов;
• фонд и словарь языка Г.Р. Державина — готовится к печати том, посвященный языку писем (текстотека объемом более 158000 словоупотреблений); ведется работа над словарями языка прозы и поэзии;
• фонд и словари русской поэзии XIX в. ([Галиуллин 2004; Галиуллин и др. 2008]) — завершается работа над несколькими выпусками, посвященными описанию языка отдельных поэтов, а также над интернет-версиями.
Макроструктура большинства указанных словарей (в соответствии с разработанными и апробированными принципами создания текстоописывающих справочников) включает конкорданс, обратный слово- и словоформоуказатель, частотные словоуказатель и словоформоуказатель; значительное место занима-
ют также квантитативные данные. Важной частью словарных статей является справочная зона, включающая в себя поясняющие, семантизирующие материалы из источников различного типа: сведения из справочников (лингвистических, энциклопедических) и специальных исследований, сравнительные материалы из других текстов и т.п.
Компьютерные языковые справочники функционируют не только как аккумулятор информации, не только как источник материалов для последующих изысканий, но также как инструмент обработки данных, инструмент научного исследования. Это одна из отличительных особенностей современной лингвографии.
В настоящее время интернет-версия текстоописывающих словарей, названных выше, предоставляет пользователю возможность отбора единиц (с получением соответствующих квантитативных данных):
• по условному образцу (в том числе и поиск с учетом позиции элемента в слове; напр., поиск определенной финали, корневой части и др.);
• с учетом количества букв, знаков, слогов, а также частотных характеристик описываемых единиц.
Пользователь имеет возможность определять объем обрабатываемой компьютерной текстотеки, при этом заказываемый текстовый массив может состоять из одного документа, группы документов или всей совокупности источников.
Информационные технологии позволяют эффективно решать важную для характеристики языка текста проблему (на которую неоднократно указывали различные исследователи, составители авторских словарей) — исчерпывающая полнота представления текстовых материалов.
Интернет-компонент предоставляет возможность ознакомиться со всеми контекстами, содержащими запрашиваемую единицу; при этом пользователь может получить контекст разного объема — в виде одной строки, одной страницы или полного текста документа.
Значительно увеличивается информационный потенциал интернет-словаря при сопряжении его с различными базами, которые содержат сходные, сопоставимые или дополняющие материалы; см., напр., в словаре языка писем М. Ломоносова подключение ссылок на интернет-ресурсы, где представлены сведения об адресатах М. Ломоносова.
Уменьшению затрат, оптимизации работ при проведении языковедческих исследований в рамках лингвографической деятельности могут способствовать и формируемые в Казанском университете информационно-справочные интернет-фонды, среди которых: а) сводный фонд (СФ) исторических словарей русского языка (общих и региональных); б) СФ словарей русского языка XVIII в. [Галиуллин, Каримуллина 2005]; в) СФ академических толковых словарей; г) СФ словарей русских писателей XIX в. и др.
Анализ показывает усиление и расширение процесса «интернетизации» практической лингвографии и свидетельствует о перспективности и высокой информативности интернет-словарей.
ПРИМЕЧАНИЯ
1. Лингвография — междисциплинарная область языкознания, теория и практика создания языковых справочников, словарей (о лингвографии см.: [Компьютерная лингвография 1995]; подразделами лингвографии являются лексикография, фразеография, морфемография, паремиография и др.
2. Работы по формированию компьютерных фондов, подготовке словарей, изданию и размещению языковых справочников в Интернете поддержаны, в частности, Федеральной программой «Исследования и разработки по приоритетным направлениям развития науки и техники» на 2002-2006 гг.; Российским гуманитарным научным фондом (проекты «Компьютерная поддержка русской лексикографии XVIII века»; «Большой корпус русского языка XVIII века», 07-04-12147в; «Комплексный фонд русскоязычных памятников Казанского края XVI-XVII веков: текстовый и словарный подфонды», проект 08-04-12146в); Российским фондом фундаментальных исследований (в рамках проектов 05-07-90376, 02-07-90230 и др.); Культурным центром имени Дж. Неру при Посольстве Индии в Российской Федерации; Федеральной целевой программой «Русский язык» (проект «Компьютерный лингвографический фонд русского языка», Республиканской целевой программой «Русский язык в Татарстане», Аналитической ведомственной целевой программой «Развитие научного потенциала высшей школы (2009-2010 гг.)» (рег. номер 2.2.1.1/6944) и др.
ЛИТЕРАТУРА
Галиуллин К.Р. Язык русских писателей XIX века: компьютерный словарный фонд/ К.Р. Галиуллин // III Jordanas Andaluzas de Eslavística. — Granada, 2004.— С. 63-64.
Галиуллин К.Р., Гизатуллина А.Р. Казанский край: словарь языка памятников первой четверти XVII века. — Казань: Изд-во Казан. ун-та, 2008 (Интернет-компонент: httр://www.klf.ksu.ru/kazan).
Галиуллин К.Р., Каримуллина Р.Н., Ню О.А., Хуснуллин А.А. Язык Г.Р. Державина в словарном описании / Г.Р. Державин в новом тысячелетии: матер. Междунар. науч. конф. (Казань, 10-12 нояб. 2003 г.). — Казань: Изд-во Казан. гос. ун-та, 2003. — С. 59—62.
Галиуллин К.Р., Каримуллина Р.Н., Лерман И.В., Сагитов И.С., Садриева Л.И., Федоров Е.В. Авторские языковые справочники // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам: матер. Междунар. науч. конф. (Казань, 26—30 авг. 2008 г.). — Казань : Изд-во Казан. гос. ун-та, 2008. — С. 83—84.
Галиуллин К.Р., Каримуллина Р.Н. Сводный фонд словарей русского языка XVIII века // Актуальные вопросы исторической лексикографии и лексикологии: матер. Все-рос. Академической школы-семинара. — СПб.: Наука, 2005. — С. 314—317.
Галиуллин К.Р., Мартьянов Д.А. Словарь языка русских пословиц и поговорок конца XVII — первой половины XVIII века: сборник пословиц Петровской галереи. — Казань: Изд-во Казан. гос. ун-та, 2006.
Исламова Э.А., Галиуллин К.Р. Казанский край: словарь памятников XVI века. — Казань: Изд-во Казан. ун-та, 2000.
Компьютерная лингвография / науч. ред. Н.К. Замов, К.Р. Галиуллин. — Казань: Изд-во Казан. гос. ун-та, 1995 (Интернет-версия: http://www.ksu.ru /f10/ publications/ 1995/comp_ling.php).
Язык писем М.В. Ломоносова: материалы для словаря / К.Р. Галиуллин, Г.Н. Кари-муллина, Р.Н. Каримуллина, А.Р. Гизатуллина, А.Н. Каримуллина, Д.А. Мартьянов. — Казань: Изд-во Казан. гос. ун-та, 2007 (Интернет-компонент: Ьйр^/^^^ЫГ.кзи.ги/ 10т0П080у).
THE INTERNET LINGUOGRAPHY: RUSSIAN TEXT-DESCRIPTION
DICTIONARIES
K.R. Galiullin
Lexicographic tendencies and the analysis of information potential of modern linguistic reference books show that one of the most challenging dictionary forms is the Internet-dictionary whose advantages lie in a vast group of users, great opportunities for poly-aspect descriptions and multiattribute information retrieval, formation of linguistic complexes on the basis of vast Internet resources. The paper is based on the dictionaries placed at the website of the Kazan State University (www.klf.ksu.ru).