Название: RTF/PDF -> HTML Отправлено: Антон Серго от 04 Октября 2004, 18:12:52 Коллеги, помогите "разрулить" такой вопрос...
Есть книга (да, Вы правы "Интернет и Право") в формате RTF/PDF и пр. Вопрос: как сохранить ее в html c сохранением разбивки на страницы (т.е. типа на файты 1.htm, 2.htm, 3 htm и т.д. в соответствии с нумерацией книги). Помнится, когда-то видел какую-то утилиту для этого... Но где и когда... :( Название: Re:RTF/PDF -> HTML Отправлено: zas_exp от 04 Октября 2004, 22:01:26 Коллеги, помогите "разрулить" такой вопрос... Есть книга (да, Вы правы "Интернет и Право") в формате RTF/PDF и пр. Вопрос: как сохранить ее в html c сохранением разбивки на страницы (т.е. типа на файты 1.htm, 2.htm, 3 htm и т.д. в соответствии с нумерацией книги). Помнится, когда-то видел какую-то утилиту для этого... Но где и когда... :( Вариант 1 1. RTF в HTML достаточно просто в Word-е нажать "сохранить как..." и выбрать формат. 2. PDF чуть сложнее: нужно запустить FineReader или Microsoft Office Document Imaging импортировать в текстовый формат и приходим к нальным условиям для первого ответа. Вариант 2, если не пройдет первый расскажу про второй. Название: Re:RTF/PDF -> HTML Отправлено: Антон Серго от 04 Октября 2004, 23:28:51 Понял, но условия задачки были несколько сложнее...
Конвертировать с сохранением/созданнием постраничной структуры. Название: Re:RTF/PDF -> HTML Отправлено: Grad от 05 Октября 2004, 09:38:09 Разруливать придется ручками, все эти автоматические переводы тянут за собой кучу мусора (тем паче в книжке есть сносочки, выделение разными шрифтами) и в инет такую бяку после конвертации (а я как понял к этому и идет подготовка) вряд-ли засунешь - по весу приблизится к вордовскому тексту. а уж тем более с сохранением разметки. Проще дробить на странички в rtf или pdf. И подгружать по одной - тем более что вполне можно уложиться в 20 Кб страницу
В подтверждение этих слов проведи эксперемент возьми одну страничку и сохрани ее как вордовский и как ВЕБ-страницу и сравни размер. Название: Re:RTF/PDF -> HTML Отправлено: zas_exp от 05 Октября 2004, 11:15:13 Разруливать придется ручками... Совершенно верно, после перевода нужно взять текст между первыми тегами <body> и </body> и его разруливать. При этом нужно помнить, что HTML - текст это не прото текст тут свои требования. Проще, переведенный текст в HTML подредактировать редактором, например, HtmlPad есть встроенная справка, и возможность просмотра. Скачать бесплатно можно http://www.softbox.ru/ Там же поискать конвекторы. Название: Re:RTF/PDF -> HTML Отправлено: Dimon от 05 Октября 2004, 11:52:14 Есть XPDF (PDFTOTEXT) конвертер. Я уж не помню, где я его тогда нашел, но ссылка в документации ведет на http://www.foolabs.com/xpdf/
Из множества конвертеров, с которыми приходилось сталкиваться, это единственный, связанный с PDF, который решил сохранить на винте. Може также: -htmlmeta Generate a simple HTML file, including the meta information. This simply wraps the text in <pre> and </pre> and prepends the meta headers. Проблема в том, что в любом случае, придется пользоваться руками. По крайней мере, я так сейчас и делаю, если мне нужно взять какой-то текст из PDF для научной или еще какой работы. Поэтому ссылку даю на всякий случай, может поможет... Название: Re:RTF/PDF -> HTML Отправлено: Dimon от 05 Октября 2004, 12:17:09 Добавлю.
Для постраничной конвертации работает что-то типа pdftotext.exe -f 2 -l 2 pravo.pdf 2.html Где 2 - это номер конвертируемой страницы. Или pdftotext.exe -f 2 -l 2 -htmlmeta pravo.pdf 2.html Если нужен html-документ. |