Skip to content

pagesmith

Разбиение HTML на страницы с сохранением HTML-тегов и соблюдением исходной структуры документа и целостности текста.

Используется чрезвычайно быстрый парсер lxml.

Как это работает

Класс HtmlPageSplitter интеллектуально разбивает HTML-содержимое на страницы соответствующего размера, обеспечивая при этом правильное закрытие и валидность всех HTML-тегов. Это сохраняет как структуру документа, так и его стиль.

Для очистки HTML можно использовать refine_html.

Также содержит класс для разделение на страницы и извлечение оглавления из чистого текста.

Как это работает

Класс ChapterDetector анализирует текст для поиска стандартных форматов заголовков глав. Он автоматически определяет позицию каждой главы и извлекает заголовок.

Установка

pip install pagesmith

Использование