Але! Що робити якщо таких статей кілька десятків, сотень або навіть тисяч?
Як видно з вище описану схему ручного перенесення, даний процес вкрай витратний за часом, стомлює і практично не реальний для нормальної людини. Мало хто зможе сидіти кілька діб поспіль і вручну переносити пару тисяч статей з html документів в базу даних CMS.
Варіант вирішення даного завдання
Найперше хочу обмовиться, можливо цей варіант вже описувався десь раніше, або існують більш оптимальні та зручні способи для вирішення поставленого завдання, мені вони на жаль на очі не попадалися, з цього я поступив по своєму і прийшов до власним рішенням (може це і велосипед , але вкрай ефективний).
Для вирішення поставленого завдання, я на конкретному прикладі, сайті пацієнта, випробував свій PHP скрипт, призначений конвертувати всі HTML сторінки сайту в запису БД, для потрібної мені CMS.
Скрипт можна назвати розумним парсером контенту, з подальшою обробкою, підготовкою і записом даних в БД.
Дана методика була випробувана мною на декількох html сайтах складаються з декількох сотень сторінок до кількох тисяч. Причому в процесі роботи траплялися HTML сторінки з різним оформленням, стилями і дизайном в цілому. Але завдяки роботі скрипта через PHP xPath розбір DOM дерева, серйозної перенастроювання парсинга даних не було потрібно.
Замітка. Для досягнення найкращого результату конвертації html сайту в сайт працює на CMS, рекомендується вести збір даних не в автоматичному режимі, а напівавтоматичному, це коли всю основну роботу робить скрипт, але при цьому ви переглядаєте зібрані ним дані перед моментом записи даних в базу даних. З метою додаткової модерації та виявлення можливих помилок при зборі даних з html сторінок, а також можливої потреби в додатковому форматуванні та оформленні статті.
Тепер про недоліки (якщо це можна назвати так)
Даний скрипт я не викладаю в публічний доступ для скачування і подальшої роботи з ним. Справа в тому, що працює цей скрипт індивідуально з кожним html сайтом, тобто перед початком його роботи потрібно зробити настройки: xpath для збору даних з DOM дерева, каталоги які потрібно обійти, роботу з ЧПУ, роботу з картинками та інше. Виходить, що працювати з ним може тільки фахівець розуміє ряд тонкощів в парсінгу. А також розуміє структуру БД звичайно CMS (таблиць і полів в БД).
Якщо у вас є потреба в рішенні даного завдання, то ви можете звернутися до мене, за помірну плату (щодо всім іншим варіантам) я буду виконувати для вас дані роботи по перенесенню контенту на CMS.