[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

wayback machine - Git&httrack?



Приветствую.

Появилась необходимость в сабже - качать и сохранять некие сайты, с отслеживанием изменений. (все ниже написанное - пока в проекте, не реализовано)
Для закачки - httrack
Для отслеживания изменений смотрю в сторону Git.

Как примерно вижу схему на данный момент:
а) основной репозиторий - на отдельном сервере.
б) httrack - запущен на другой машине. Там же делается локальный репозиторий (вероятно, для каждого сайта отдельно.... или?), который периодически по ssh мержится в основной, после (вероятно?) пересоздаваясь заново (ибо полная копия основного репо там точно не нужна), или (скорее всего) удаляя устаревшие "срезы" (напр. оставляя 2-3 последних).

Возникают вопросы касательно:
а) правильного выбора системы версий - Git или другое?
б) как целесообразнее организовывать репозиторий для свежих данных - один репо на все сайты или для каждого httrack-проекта отдельно? т.к. - нет желания всегда создавать заново и перекачивать весь сайт полностью, - httrack может проверять наличие измененного файла и лишь тогда закачивать снова. + как понимаю, в "свежем" репозитории можно хранить лишь два последних "среза", удаляя старые. в) при такой системе хранения - в основном репо будет видна история изменений каждого файла (исходя из его хеша), или все завязано на время добавления очередного обновления (т.е. по датам мержа из "свежего" репозитория, соотв. возможно наличие разных версий файла с идентичным содержимым? что было бы странно...)?

Все вышенаписанное - пока в проекте и не реализовано, хочется предв. разобраться в верности подхода и реализации. Жду тапков от уважаемого сообщества. Критика, предложения, замечания, поправки?

!!! вариант парсинга и забивания в некую бд не рассматривается и не обсуждается. Вообще.

--
С уважением,
Константин Шувалов


Reply to: