- Артикул:00805320
- Автор: Н.В. Лукашевич
- ISBN: 978-5-211-05926-9
- Тираж: 800 экз.
- Обложка: Твердая обложка
- Издательство: МГУ (все книги издательства)
- Город: Москва
- Страниц: 512
- Формат: 70x100/16 (~170x240 мм)
- Год: 2011
- Вес: 1429 г
Книга посвящена описанию опыта автора по созданию сверхбольших лингвистических ресурсов для автоматической обработки текстов в рамках современных информационно-поисковых и информационно-аналитических систем.
Предложенные методы представления знаний и обработки информации подробно сопоставляются с подобными проектами, развиваемыми в мире.
В книге содержится большое количество экспериментальных данных по достигнутым в настоящее время уровням качества различных технологий автоматической обработки текстов и информационного поиска.
Книга предназначена для специалистов, научных работников, аспирантов и студентов, интересующихся вопросами автоматической обработки текстов, применения в информационном поиске лингвистических ресурсов, а также информационным поиском в целом, практическими вопросами применения онтологических ресурсов.
Содержание
Введение
Часть 1 Тезаурусы
Глава 1 Информационно-поисковые тезаурусы
1.1. Единицы информационно-поисковых тезаурусов
1.2. Отношения в информационно-поисковых тезаурусах
1.3. Основные принципы разработки тезаурусов
1.4. Конкретные тезаурусы
1.5. Правила индексирования документов дескрипторами информационно-поискового тезауруса
1.6. Информационно-поисковые тезаурусы в приложениях автоматической обработки документов
1.7. Использование информационно-поисковых тезаурусов в автоматической обработке текстов
1.8. Тезаурусы и рубрикаторы в информационно-поисковых системах
Заключение к главе 1
Глава 2 Тезаурус английского языка WordNet
2.1. WordNet: основные принципы
2.2. Существительные в WordNet
2.3. Описание прилагательных в WordNet
2.4. Описание глаголов в WordNet
2.5. Проблемы представления лексической информации в WordNet
Заключение к главе 2
Глава 3 EuroWordNet и тезаурусы типа WordNet для разных языков
3.1. Общие принципы организации EuroWordNet
3.2. Отношения в EuroWordNet
3.3. Ворднеты для других языков
3.4. Модели представления знаний в информационно-поисковых тезаурусах и тезаурусах типа WordNet
Заключение к главе 3
Часть 2 Формальные и лингвистические онтологии
Глава 4 Онтологии как ресурсы для представления знаний о мире
4.1. Определения онтологии
4.2. Виды онтологии
4.3. Два основных подхода к построению онтологии
4.4. Принцип независимости онтологии от естественного языка. Лингвистические онтологии
4.5. Онтологии и автоматическая обработка текстов
Заключение к главе 4
Глава 5 Единицы онтологии: понятия
5.1. Понятия как единицы мышления и понятия в онтологиях
5.2. Критерии для ввода нового понятия
5.3. Понятие и значение в лингвистических онтологиях
5.4. Смешение понятия и его имени в Принстонском WordNet и других ворднетах
5.5. Квазисинонимы в Принстонском WordNet
5.6. Понятие и значение в онтологии MicroKosmos
5.7. Понятия и значения в ресурсе FrameNet
5.8. Понятия и значения в информационно-поисковых тезаурусах
Заключение к главе 5
Глава 6 Установление отношений в онтологиях. Отношение класс-подкласс
6.1. Проблемы установления отношения класс-подкласс
6.2. Возможные критерии проверки правильности установления отношения класс-подкласс
6.3. Смешение типов и ролей
6.4. Смешение отношений класс-подкласс и класс-экземпляр
6.5. Смешение отношений класс-подкласс и часть-целое
6.6. Смешение отношений класс-подкласс и отношений происхождения
6.7. Смешение описания сущности и знака
Заключение к главе 6
Глава 7 Описание ролей в компьютерных ресурсах
7.1. Концепция роли в онтологических исследованиях
7.2. Критерии распознавания ролей
7.3. Типы понятий-ролей
7.4. Роли как части контекста
7.5. Представление ролей в компьютерных ресурсах
7.6. Роли в тезаурусах
Заключение к главе 7
Глава 8 Отношения часть-целое
8.1. Определение отношения часть-целое в философии и лингвистике
8.2. Разнообразие отношений часть-целое
8.3. Классификация отношений часть-целое
8.4. Проблема транзитивности отношения часть-целое
8.5. "Вертикальные" отношения между частью и целым
8.6. Отношение часть-целое в компьютерных ресурсах и подходах
Заключение к главе 8
Глава 9 Отношения онтологической зависимости
9.1. Определение и свойства отношения онтологической зависимости
9.2. Виды отношения онтологической зависимости
9.3. Онтологическая зависимость в онтологиях верхнего уровня
9.4. Нетаксономические отношения в информационно-поисковых тезаурусах и отношение онтологической зависимости
9.5. Анализ отношений ассоциации в тезаурусе EUROVOC
Заключение к главе 9
Часть 3 Применение тезаурусов в приложениях информационного поиска
Глава 10 Автоматическое разрешение многозначности
10.1. Тестирование разрешения многозначности на конференции Senseval
10.2. Подходы к разрешению лексической многозначности на основе тезаурусных знаний
Заключение к главе 10
Глава 11 Тезаурусы в информационном поиске
11.1. Модели информационного поиска
11.2. Оценка качества информационного поиска
11.3. Тезаурусы типа WordNet в информационном поиске
Заключение к главе 11
Глава 12 Тезаурусы в вопросно-ответных системах
12.1. Основные этапы обработки вопросов в вопросно-ответных системах
12.2. Роль лексических ресурсов в работе вопросно-ответных систем
12.3. Предметные области вопросно-ответных систем
12.4. Поиск ответов на вопрос в вопросно-ответных сервисах
Заключение к главе 12
Глава 13 Тезаурусы в системах автоматической рубрикации текстов
13.1. Методы автоматической рубрикации и оценка их качества
13.2. Результаты автоматического рубрицирования на исследовательских коллекциях
13.3. Проблемы методов классификации текстов
13.4. Системы автоматического рубрицирования при работе с реальными коллекциями
13.5. Использование тезаурусов в автоматической рубрикации текстов
Заключение к главе 13
Глава 14 Моделирование связности текста
14.1. Типы связности в связном тексте и их моделирование
14.2. Моделирование лексической связности на основе тезаурусов
Заключение к главе 14
Часть 4 Тезаурус РуТез
Глава 15 Тезаурус РуТез
15.1. Основные принципы разработки лингвистических ресурсов для приложений информационного поиска
15.2. Тезаурус РуТез: общая структура
15.3. Соотношение лексики и терминологии. Общественно-политическая область
15.4. Общественно-политический тезаурус в сравнении с традиционными информационно-поисковыми тезаурусами
Заключение к главе 15
Глава 16 Единицы: понятия и их текстовые входы
16.1. Понятия vs. синсеты как единицы тезауруса
16.2. Имя понятия и толкование
16.3. Ввод понятий для группы близких по смыслу слов
16.4. Ввод понятий для группы близких значений одного слова
16.5. Словосочетания как источники понятий в лингвистической онтологии
16.6. Языковые выражения как текстовые входы понятий
Заключение к главе 16
Глава 17 Отношения между понятиями в тезаурусе РуТез
17.1. Принципы описания отношений
17.2. Описание родовидовых отношений в тезаурусе РуТез
17.3. Отношение часть-целое
17.4. Отношение онтологической зависимости в тезаурусе РуТез
17.5. Симметричные ассоциации в тезаурусе РуТез
17.6. Модификаторы отношений: нарушение условий надежности
17.7. Примеры описания отношений
17.8. Тезаурус РуТез как структура
Заключение к главе 17
Заключение к части 4
Часть 5 Тезаурус РуТез в компьютерных приложениях
Глава 18 Построение тезаурусного индекса, автоматическое разрешение лексической многозначности
18.1. Построение тезаурусного индекса и тезаурусной проекции
18.2. Автоматическое разрешение многозначности
18.3. Организация тестирования алгоритмов разрешения многозначности
Заключение к главе 18
Глава 19 Общественно-политический тезаурус как средство построения тематического представления текста
19.1. Проблемы автоматического построения лексических цепочек
19.2. Автоматическое построение тематического представления текста
Заключение к главе 19
Глава 20 Информационный поиск с учетом тезаурусных знаний
20.1. Концептуальный индекс, веса понятий и отношений
20.2. Общественно-политический тезаурус как поисковое средство в Университетской информационной системе РОССИЯ
20.3. Тестирование эффективности информационного поиска на основе Общественно-политического тезауруса
20.4. Тезаурус и векторная модель в задаче поиска по коллекции нормативно-правовых актов РОМИП
20.5. Поиск документов по запросам типа "формулировка проблемы" в правовой области
Заключение к главе 20
Глава 21 Общественно-политический тезаурус как ресурс для автоматической рубрикации текстов
21.1. Технология автоматического рубрицирования на основе тезауруса
21.2. Описание смысла рубрики понятиями тезауруса
21.3. Автоматическое рубрицирование на тематическом представлении
21.4. Использование информеров для составления описаний рубрик при инженерном подходе рубрикации
21.5. Эксперимент по автоматической рубрикации текстов в рамках семинара РОМИП 2007
21.6. Тезаурус как база для методов машинного обучения в рубрикации
Заключение к главе 21
Глава 22 Общественно-политический тезаурус и автоматическое аннотирование
22.1. Автоматическое аннотирование одного текста на основе тематического представления
22.2. Построение структурной тематической аннотации текста
22.3. Построение аннотации для новостного кластера на основе тематического представления текстов кластера
Заключение к главе 22
Часть 6 Развитие тезауруса РуТез и другие лингвистические онтологии
Глава 23 Развитие и пополнение тезауруса РуТез
23.1. Этапы развития тезауруса РуТез
23.2. Первичное наполнение Общественно-политического тезауруса
23.3. Пополнение тезауруса в результате работы в компьютерных приложениях
23.4. Пополнение тезауруса на основе анализа списка русскоязычных лемм
23.5. Пополнение Общественно-политического тезауруса за счет проникновения в профессиональные области
23.6. Тезаурус РуТез: создание двуязычной онтологии
Заключение к главе 23
Глава 24 Онтология по естественным наукам и технологиям
24.1. Проблемы разработки онтологии в сфере естественных наук
24.2. Этапы создания онтологии ОЕНТ
24.3. Текущее состояние проекта
24.4. Изменения в описаниях понятий, полученных из тезауруса РуТез
24.5. Будущее развитие онтологии ОЕНТ
Заключение к главе 24
Заключение
Литература