Страница публикации

Технология извлечения табличной информации из электронных документов разных форматов

Тип публикации: Статья в журнале

Тип материала: Текст

Авторы: Шигаров А.О.

Журнал: Современные технологии. Системный анализ. Моделирование

Язык публикации: russian

Номера страниц: 97-102

Количество страниц: 6

Номер: 3 (23)

Год публикации: 2009

Отчетный год: 2009

Аннотация: В данной работе предлагается технология извлечения табличной информации из электронных документов, в которой в качестве входных данных используются метафайлы. Это позволяет применять данную технологию к документам таких широко используемых форматов, как DOC, XLS, PDF, HTML, ASCII-текст. Данная технология включает в себя методы обнаружения, сегментации, функционального и структурного анализа таблиц, а также основанную на них программную систему. Предлагаемая технология показала высокую эффективность при извлечении табличной информации из научно-технических изданий, государственных, медицинских и финансовых статистических отчетов.

Индексируется WOS: Нет

Индексируется Scopus: Нет

Индексируется УБС: Нет

Индексируется РИНЦ: Да

Индексируется ВАК: Нет

Индексируется CORE: Нет