Страница публикации
Трансформация физической структуры заголовков Excel-таблиц
Авторы: Парамонов В.В., Шигаров А.О., Ветрова В.В.
Журнал: В сб. Россия и Монголия: результаты и перспективы научного сотрудничества: Труды Междунар. конф. (Иркутск, 6–8 апреля 2022 г.)
Том:
Номер:
Год: 2022
Отчётный год: 2022
Издательство: Институт географии им. В.Б. Сочавы СО РАН
Местоположение издательства: Иркутск
URL:
Проекты:
DOI:
Аннотация: Электронные таблицы Excel являются одним из наиболее популярных форматов представления наборов данных. Они обеспечивают значительную гибкость в организации данных и удобны для восприятия человеком. В результате можно наблюдать таблицы со сложной компоновкой, например, объединенными ячейками, иерархической структурой заголовков, объединением нескольких таблиц в одну и пр. Это делает автоматическое извлечение данных из таких таблиц нетривиальной задачей. Одним из факторов, снижающих эффективность методов анализа и интерпретации электронных таблиц, является то, что физическая (машиночитаемая) структура ячеек может отличаться от визуальной (человеко-читаемой). В работе рассматривается эвристический метод коррекции машиночитаемой структуры заголовков таблиц в соответствии с их визуальным представлением. Работоспособность и оценка эффективности реализации метода проверялась на реальных данных государственной статистики. Показано, что предлагаемое решение позволяет значительно снизить количество ячеек, разделенных на физическом уровне некорректно.
Индексируется WOS: Нет
Индексируется Scopus: Нет
Индексируется УБС: Нет
Индексируется РИНЦ: Да
Индексируется ВАК: Нет
Индексируется CORE: Нет
Публикация в печати: 0