Форум ''Интернет и Право''

Основной раздел => Беседка (внеправовые беседы) => Тема начата: Антон Серго от 04 Октября 2004, 18:12:52



Название: RTF/PDF -> HTML
Отправлено: Антон Серго от 04 Октября 2004, 18:12:52
Коллеги, помогите "разрулить" такой вопрос...
Есть книга (да, Вы правы "Интернет и Право") в формате RTF/PDF и пр.
Вопрос: как сохранить ее в html c сохранением разбивки на страницы (т.е. типа на файты 1.htm, 2.htm, 3 htm и т.д. в соответствии с нумерацией книги).
Помнится, когда-то видел какую-то утилиту для этого... Но где и когда... :(


Название: Re:RTF/PDF -> HTML
Отправлено: zas_exp от 04 Октября 2004, 22:01:26
Коллеги, помогите "разрулить" такой вопрос...
Есть книга (да, Вы правы "Интернет и Право") в формате RTF/PDF и пр.
Вопрос: как сохранить ее в html c сохранением разбивки на страницы (т.е. типа на файты 1.htm, 2.htm, 3 htm и т.д. в соответствии с нумерацией книги).
Помнится, когда-то видел какую-то утилиту для этого... Но где и когда... :(

Вариант 1

1. RTF в HTML достаточно просто в Word-е нажать "сохранить как..." и выбрать формат.

2. PDF чуть сложнее: нужно запустить  FineReader  или Microsoft Office Document Imaging импортировать в текстовый формат и приходим к нальным условиям для первого ответа.

Вариант 2, если не пройдет первый расскажу про второй.


Название: Re:RTF/PDF -> HTML
Отправлено: Антон Серго от 04 Октября 2004, 23:28:51
Понял, но условия задачки были несколько сложнее...
Конвертировать с сохранением/созданнием постраничной структуры.


Название: Re:RTF/PDF -> HTML
Отправлено: Grad от 05 Октября 2004, 09:38:09
Разруливать придется ручками, все эти автоматические переводы тянут за собой кучу мусора (тем паче в книжке  есть сносочки, выделение разными шрифтами) и в инет такую бяку после конвертации (а я как понял к этому и идет подготовка) вряд-ли засунешь - по весу приблизится к вордовскому тексту.  а уж тем более с сохранением разметки. Проще дробить на странички в rtf или pdf.  И подгружать по одной - тем более что вполне можно уложиться в 20 Кб страницу

В подтверждение этих слов проведи эксперемент возьми одну страничку и сохрани ее как вордовский и как ВЕБ-страницу и сравни размер.


Название: Re:RTF/PDF -> HTML
Отправлено: zas_exp от 05 Октября 2004, 11:15:13
Разруливать придется ручками...

Совершенно верно, после перевода нужно взять текст между первыми тегами <body> и </body> и его разруливать.
При этом нужно помнить, что HTML - текст это не прото текст тут свои требования. Проще, переведенный текст в HTML подредактировать редактором, например, HtmlPad есть встроенная справка, и возможность просмотра. Скачать бесплатно можно  
http://www.softbox.ru/
Там же поискать конвекторы.



Название: Re:RTF/PDF -> HTML
Отправлено: Dimon от 05 Октября 2004, 11:52:14
Есть  XPDF (PDFTOTEXT) конвертер. Я уж не помню, где я его тогда нашел, но ссылка в документации ведет на     http://www.foolabs.com/xpdf/

Из множества конвертеров,  с которыми приходилось сталкиваться, это единственный, связанный с PDF, который решил сохранить на винте.


Може также:

       -htmlmeta
              Generate a simple HTML  file,  including  the  meta
              information.   This  simply wraps the text in <pre>
              and </pre> and prepends the meta headers.



Проблема в том, что в любом случае, придется пользоваться руками. По крайней мере, я так сейчас и делаю, если мне нужно взять какой-то текст из PDF для научной или еще какой работы. Поэтому ссылку даю на всякий случай, может поможет...


Название: Re:RTF/PDF -> HTML
Отправлено: Dimon от 05 Октября 2004, 12:17:09
Добавлю.
Для постраничной конвертации работает что-то типа

pdftotext.exe -f 2 -l 2 pravo.pdf 2.html

Где 2 - это номер конвертируемой страницы.
Или

pdftotext.exe -f 2 -l 2 -htmlmeta pravo.pdf 2.html
Если нужен html-документ.