Страница публикации
Технология извлечения табличной информации из электронных документов разных форматов
Авторы: Шигаров А.О.
Журнал: Современные технологии. Системный анализ. Моделирование
Том:
Номер: 3 (23)
Год: 2009
Отчётный год: 2009
Издательство:
Местоположение издательства:
URL:
Проекты:
DOI:
Аннотация: В данной работе предлагается технология извлечения табличной информации из электронных документов, в которой в качестве входных данных используются метафайлы. Это позволяет применять данную технологию к документам таких широко используемых форматов, как DOC, XLS, PDF, HTML, ASCII-текст. Данная технология включает в себя методы обнаружения, сегментации, функционального и структурного анализа таблиц, а также основанную на них программную систему. Предлагаемая технология показала высокую эффективность при извлечении табличной информации из научно-технических изданий, государственных, медицинских и финансовых статистических отчетов.
Индексируется WOS: Нет
Индексируется Scopus: Нет
Индексируется УБС: Нет
Индексируется РИНЦ: Да
Индексируется ВАК: Нет
Индексируется CORE: Нет
Публикация в печати: 0