Комбинирование признаков для автоматического извлечения терминов
Авторы
-
Н.В. Лукашевич
-
Ю.М. Логачев
Ключевые слова:
извлечение знаний из текстов
извлечение терминов
тезаурус
машинное обучение
поисковая система
Интернет
Аннотация
В статье описывается эксперимент по извлечению двухсловных терминологических словосочетаний на основе комбинирования различных признаков этих словосочетаний. Признаки вычисляются на основе трех источников: статистики употребления слов в текстовой коллекции предметной области, выдачи глобальных поисковых машин и тезауруса предметной области. Для оценки качества извлечения терминов используется терминологические словосочетания из онтологии по естественным наукам и технологиям ОЕНТ. Показано, что использование совокупности признаков словосочетаний значительно улучшает извлечение терминов.
Раздел
Раздел 2. Программирование
Библиографические ссылки
- Агеев М.С., Кураленок И.Е. Официальные метрики РОМИП’2004 // Российский семинар по оценке методов информационного поиска. Пущино, 2004. 142-150.
- Большакова Е.И., Васильева Н.Э. Терминологическая вариантность и ее учет при автоматической обработке текстов // Одиннадцатая национальная конференция по искусственному интеллекту с международным участием. 2. М.: ЛЕНАНД, 2008. 174-182.
- Браславский П.И., Соколов Е.А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии. Тр. Международной конференции «Диалог 2006». М.: Изд-во РГГУ, 2006. 88-94.
- Браславский П.И., Соколов Е.А. Автоматическое извлечение терминологии с использованием поисковых машин Интернета // Компьютерная лингвистика и интеллектуальные технологии. Тр. Международной конференции «Диалог 2007». М.: Изд-во РГГУ, 2007. 89-94.
- Воронцов К.В. Лекции по логическим алгоритмам классификации. 2007 // (http://www.ccas.ru/voron/download/LogicAlgs.pdf).
- ГОСТ 7.25.-2001 Тезаурус информационно-поисковый одноязычный: Правила разработки: структура, состав и форма представления: Межгосударственный стандарт. Минск: Межгосударственный совет по стандартизации, метрологии и сертификации, 2001.
- Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических словосочетаний по текстам предметной области // Тр. 5-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2003). СПб, 2003. 201-210.
- Добров Б.В., Лукашевич Н.В., Синицын М.Н., Шапкин В.Н. Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска // Тр. 7-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2005). Ярославль, 2005. 70-79.
- Лингвистический энциклопедический словарь / Под ред. В. Н. Ярцевой. М.: Советская энциклопедия, 1990.
- Лукашевич Н.В. Автоматизированное формирование информационно-поискового тезауруса по общественно-политической жизни России // НТИ. Сер. 2. 1995. № 3. 21-24.
- Лукашевич Н.В., Добров Б.В. Отношения в онтологиях для решения задач информационного поиска в больших разнородных текстовых коллекциях // Девятая национальная конференция по искусственному интеллекту с международным участием (КИИ 2004). Т 2. М.: Физматлит, 2004. 544-551.
- Лукашевич Н.В., Добров Б.В., Чуйко Д.С. Отбор словосочетаний для словаря системы автоматической обработки текстов // Компьютерная лингвистика и интеллектуальные технологии. Тр. Международной конференции «Диалог 2008». М.: Изд-во РГГУ, 2007. 339-344.
- Никитина С.Е. Семантический анализ языка науки. М.: Наука, 1987.
- Ahmad K., Gillam L., Tostevin L. University of Surrey participation in Trec8: Weirdness indexing for logical documents extrapolation and retrieval // Proc. of Eighth Text Retrieval Conference (Trec-8). Gaithersburg, 1999. 717-724.
- Daille B., Gaussier E., Lang J.M. An evaluation of statistics scores for word association // Proc. of the Tbilisi Symposium on Logic, Language and Computation. Chicago: CSLI Publications. 1998. 177-188.
- Pecina P., Schlesinger P. Combining association measures for collocation extraction // Annual Meeting of the Association for Computational Linguistics (ACL 2006). Sydney: ACM, 2006. 651-658.
- Pearce D. Synonymy in collocation extraction // Proc. of the NAACL’01 Workshop on WordNet and Other Lexical Resources: Applications, Extensions and Customizations. Pittsburgh, 2001. 41-46.
- RapidMiner (www.rapidminer.com).
- Zhang Z., Iria J., Brewster Ch., Ciravegna F. A Comparative Evaluation of Term Recognition Algorithms // Proc. of the Sixth International Language Resources and Evaluation (LREC’08). Marrakech, 2008.