Страница публикации
Технология извлечения табличной информации из электронных документов разных форматов
Тип публикации: Статья в журнале
Тип материала: Текст
Авторы: Шигаров А.О.
Журнал: Современные технологии. Системный анализ. Моделирование
Язык публикации: russian
Номера страниц: 97-102
Количество страниц: 6
Номер: 3 (23)
Год публикации: 2009
Отчетный год: 2009
Аннотация: В данной работе предлагается технология извлечения табличной информации из электронных документов, в которой в качестве входных данных используются метафайлы. Это позволяет применять данную технологию к документам таких широко используемых форматов, как DOC, XLS, PDF, HTML, ASCII-текст. Данная технология включает в себя методы обнаружения, сегментации, функционального и структурного анализа таблиц, а также основанную на них программную систему. Предлагаемая технология показала высокую эффективность при извлечении табличной информации из научно-технических изданий, государственных, медицинских и финансовых статистических отчетов.
Индексируется WOS: Нет
Индексируется Scopus: Нет
Индексируется УБС: Нет
Индексируется РИНЦ: Да
Индексируется ВАК: Нет
Индексируется CORE: Нет