Страница публикации

Трансформация физической структуры заголовков Excel-таблиц

Авторы: Парамонов В.В., Шигаров А.О., Ветрова В.В.

Журнал: В сб. Россия и Монголия: результаты и перспективы научного сотрудничества: Труды Междунар. конф. (Иркутск, 6–8 апреля 2022 г.)

Том:

Номер:

Год: 2022

Отчётный год: 2022

Издательство: Институт географии им. В.Б. Сочавы СО РАН

Местоположение издательства: Иркутск

URL:

Проекты:

Методы и технологии облачной сервис-ориентированной цифровой платформы сбора, хранения и обработки больших объёмов разноформатных междисциплинарных данных и знаний, основанные на применении искусственного интеллекта, модельно-управляемого подхода и машинн

DOI:

Аннотация: Электронные таблицы Excel являются одним из наиболее популярных форматов представления наборов данных. Они обеспечивают значительную гибкость в организации данных и удобны для восприятия человеком. В результате можно наблюдать таблицы со сложной компоновкой, например, объединенными ячейками, иерархической структурой заголовков, объединением нескольких таблиц в одну и пр. Это делает автоматическое извлечение данных из таких таблиц нетривиальной задачей. Одним из факторов, снижающих эффективность методов анализа и интерпретации электронных таблиц, является то, что физическая (машиночитаемая) структура ячеек может отличаться от визуальной (человеко-читаемой). В работе рассматривается эвристический метод коррекции машиночитаемой структуры заголовков таблиц в соответствии с их визуальным представлением. Работоспособность и оценка эффективности реализации метода проверялась на реальных данных государственной статистики. Показано, что предлагаемое решение позволяет значительно снизить количество ячеек, разделенных на физическом уровне некорректно.

Индексируется WOS: Нет

Индексируется Scopus: Нет

Индексируется УБС: Нет

Индексируется РИНЦ: Да

Индексируется ВАК: Нет

Индексируется CORE: Нет

Публикация в печати: 0