Комбинирование признаков для автоматического извлечения терминов

Авторы

  • Н.В. Лукашевич
  • Ю.М. Логачев

Ключевые слова:

извлечение знаний из текстов
извлечение терминов
тезаурус
машинное обучение
поисковая система
Интернет

Аннотация

В статье описывается эксперимент по извлечению двухсловных терминологических словосочетаний на основе комбинирования различных признаков этих словосочетаний. Признаки вычисляются на основе трех источников: статистики употребления слов в текстовой коллекции предметной области, выдачи глобальных поисковых машин и тезауруса предметной области. Для оценки качества извлечения терминов используется терминологические словосочетания из онтологии по естественным наукам и технологиям ОЕНТ. Показано, что использование совокупности признаков словосочетаний значительно улучшает извлечение терминов.


Загрузки

Опубликован

2010-10-26

Выпуск

Раздел

Раздел 2. Программирование

Авторы

Н.В. Лукашевич

Ю.М. Логачев


Библиографические ссылки

  1. Агеев М.С., Кураленок И.Е. Официальные метрики РОМИП’2004 // Российский семинар по оценке методов информационного поиска. Пущино, 2004. 142-150.
  2. Большакова Е.И., Васильева Н.Э. Терминологическая вариантность и ее учет при автоматической обработке текстов // Одиннадцатая национальная конференция по искусственному интеллекту с международным участием. 2. М.: ЛЕНАНД, 2008. 174-182.
  3. Браславский П.И., Соколов Е.А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии. Тр. Международной конференции «Диалог 2006». М.: Изд-во РГГУ, 2006. 88-94.
  4. Браславский П.И., Соколов Е.А. Автоматическое извлечение терминологии с использованием поисковых машин Интернета // Компьютерная лингвистика и интеллектуальные технологии. Тр. Международной конференции «Диалог 2007». М.: Изд-во РГГУ, 2007. 89-94.
  5. Воронцов К.В. Лекции по логическим алгоритмам классификации. 2007 // (http://www.ccas.ru/voron/download/LogicAlgs.pdf).
  6. ГОСТ 7.25.-2001 Тезаурус информационно-поисковый одноязычный: Правила разработки: структура, состав и форма представления: Межгосударственный стандарт. Минск: Межгосударственный совет по стандартизации, метрологии и сертификации, 2001.
  7. Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических словосочетаний по текстам предметной области // Тр. 5-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2003). СПб, 2003. 201-210.
  8. Добров Б.В., Лукашевич Н.В., Синицын М.Н., Шапкин В.Н. Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска // Тр. 7-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2005). Ярославль, 2005. 70-79.
  9. Лингвистический энциклопедический словарь / Под ред. В. Н. Ярцевой. М.: Советская энциклопедия, 1990.
  10. Лукашевич Н.В. Автоматизированное формирование информационно-поискового тезауруса по общественно-политической жизни России // НТИ. Сер. 2. 1995. № 3. 21-24.
  11. Лукашевич Н.В., Добров Б.В. Отношения в онтологиях для решения задач информационного поиска в больших разнородных текстовых коллекциях // Девятая национальная конференция по искусственному интеллекту с международным участием (КИИ 2004). Т 2. М.: Физматлит, 2004. 544-551.
  12. Лукашевич Н.В., Добров Б.В., Чуйко Д.С. Отбор словосочетаний для словаря системы автоматической обработки текстов // Компьютерная лингвистика и интеллектуальные технологии. Тр. Международной конференции «Диалог 2008». М.: Изд-во РГГУ, 2007. 339-344.
  13. Никитина С.Е. Семантический анализ языка науки. М.: Наука, 1987.
  14. Ahmad K., Gillam L., Tostevin L. University of Surrey participation in Trec8: Weirdness indexing for logical documents extrapolation and retrieval // Proc. of Eighth Text Retrieval Conference (Trec-8). Gaithersburg, 1999. 717-724.
  15. Daille B., Gaussier E., Lang J.M. An evaluation of statistics scores for word association // Proc. of the Tbilisi Symposium on Logic, Language and Computation. Chicago: CSLI Publications. 1998. 177-188.
  16. Pecina P., Schlesinger P. Combining association measures for collocation extraction // Annual Meeting of the Association for Computational Linguistics (ACL 2006). Sydney: ACM, 2006. 651-658.
  17. Pearce D. Synonymy in collocation extraction // Proc. of the NAACL’01 Workshop on WordNet and Other Lexical Resources: Applications, Extensions and Customizations. Pittsburgh, 2001. 41-46.
  18. RapidMiner (www.rapidminer.com).
  19. Zhang Z., Iria J., Brewster Ch., Ciravegna F. A Comparative Evaluation of Term Recognition Algorithms // Proc. of the Sixth International Language Resources and Evaluation (LREC’08). Marrakech, 2008.