Сегодня я сделал два новых сайта – очередной сайт с тематической подборкой видео-роликов (как показала практика – такие сайты с уникальными мини-описаниями отлично входят в индекс) и второй на автомобильную тематику (контент – скан). Для обработки скана в формате HTML получаемого из Word’а я сделал небольшой скриптик, который чистит HTML от мусора, нормально оформляет заголовки и разбивает длинные разделы на подразделы. Получаемый на выходе файл отлично «кушается» TextKit’ом.
Посмотреть скрипт можно тут. В коде всё более-менее подробно откомментировано. Если возникнут какие-либо вопросы – прошу в комментарии.
А какими инструментами для работы со сканированным контентом пользуетесь вы?
Фев 28
