Страница публикации

Сегментация текста неразмеченных pdf-документов

Авторы: Шигаров А.О., Парамонов В.В.

Журнал: Вычислительные технологии

Том: 27

Номер: 5

Год: 2022

Отчётный год: 2022

Издательство:

Местоположение издательства:

URL:

Проекты:

Фундаментальные основы, методы и технологии цифрового мониторинга и прогнозирования экологической обстановки Байкальской природной территории

DOI: 10.25743/ICT.2022.27.5.007

Аннотация: Большой объем нередактируемых документов публикуется и распространяется в формате PDF. Часто они являются “неразмеченными”, т. е. не сопровождаются аннотацией о собственной структуре, в них нет метаданных о месторасположении заголовков, параграфов, абзацев, таблиц, списков, рисунков, колонтитулов и пр. Анализ компоновки документов состоит в распознавании перечисленных элементов структуры. Базовой частью этого процесса является сегментация текста внутри страниц на блоки, которые затем можно классифицировать как заголовки, абзацы, ячейки таблиц и пр. Известные алгоритмы сегментации страниц в основном предназначены для работы либо с растровыми изображениями документов, либо с печатно-ориентированным ASCII-текстом. По сравнению с этими форматами данных PDF предоставляет дополнительную информацию (порядок рендеринга, шрифтовые метрики, линейки и пр.), которая может улучшить качество анализа компоновки документов. В работе излагается опыт адаптации некоторых существующих алгоритмов сегментации текста внутри страниц изображений документов и ASCII-текста, для того чтобы сделать их применимыми напрямую к формату PDF - неразмеченным случаям.

Индексируется WOS: Q6

Индексируется Scopus: Нет

Индексируется УБС: Нет

Индексируется РИНЦ: Да

Индексируется ВАК: Нет

Индексируется CORE: Нет

Публикация в печати: 0