Страница публикации

Технология извлечения табличной информации из электронных документов разных форматов

Авторы: Шигаров А.О.

Журнал: Современные технологии. Системный анализ. Моделирование

Том:

Номер: 3 (23)

Год: 2009

Отчётный год: 2009

Издательство:

Местоположение издательства:

URL:

Проекты:

DOI:

Аннотация: В данной работе предлагается технология извлечения табличной информации из электронных документов, в которой в качестве входных данных используются метафайлы. Это позволяет применять данную технологию к документам таких широко используемых форматов, как DOC, XLS, PDF, HTML, ASCII-текст. Данная технология включает в себя методы обнаружения, сегментации, функционального и структурного анализа таблиц, а также основанную на них программную систему. Предлагаемая технология показала высокую эффективность при извлечении табличной информации из научно-технических изданий, государственных, медицинских и финансовых статистических отчетов.

Индексируется WOS: Нет

Индексируется Scopus: Нет

Индексируется УБС: Нет

Индексируется РИНЦ: Да

Индексируется ВАК: Нет

Индексируется CORE: Нет

Публикация в печати: 0