Признаки движка Drupal

Posted by: 3pc   
сентября 1,
2013

Бывает возникает необходимость массово напарсить сайтов работающих на определенной CMS или массово проверить сайты на предмет того, на каком движке они работают. Буду понемногу собирать признаки разных движков, сегодня это будет Друпал.

Если спарсить базу друпал не представляет особой сложности (можно использовать футпринты для поиска). Например при помощи запросов:

“powered by drupal”
inurl:”node/1″

То с массовым определением принадлежности к движку несколько сложнее оказалось. Можно среди базы сайтов искать следующие признаки:
а) в дефолтном шаблоне используются характерные названия классов стилей. например

<body class="front not-logged-in page-front no-sidebars home-page">

б) проверить страницы, которые обязательно присутствуют в данной CMS. Например

http://drupal.org/?q=user

http://drupal.org/?q=node

http://drupal.org/tracker

http://drupal.org/admin

в) проверить robots.txt, у друпала он весьма характерный

#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these “robots” where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used: http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt

з.ы. Если вам необходимо собрать базу сайтов на определенном движке или проверить базу сайтов и выбрать работающие на том или ином движке, пиши в комменты, договоримся.

Похожие записи:

  1. Как перехватить аккаунт livejournal с тИЦ Ко мне в блог начали приходить по запросам “как перехватить аккаунт жж“, “свободные аккаунты livejournal” и “аккаунт livejournal с тИЦ“....
  2. CentOS, установка LAMP LAMP, это аббревиатура, обозначающая набор программного обеспечения, обычно используемый для созданий веб-сервера. LAMP расшифровывается как: Linux, Apache, MySQL, PHP. И...
  3. Что такое SEO? Что такое SEO? SEO – продвижение сайтов в поисковых системах. Совокупность действий, направленных на поднятия сайта в выдаче по определенным...
  4. Импорт RSS к себе на сайт Один из моих сайтов, это городская доска объявлений. Контент на ней хоть и уникальный, но тексты объявлений достаточно короткие, поэтому...
  5. Как проверить и при необходимости восстановить все базы MySQL Иногда возникает ситуация, когда необходимо проверить все имеющиеся на сервере базы на наличие ошибок и исправить ошибки. Или просто провести...
Эта запись опубликована в Воскресенье, 1 сентября, 2013 в 14:29.
Вы можете следить за этой записью через RSS 2.0.
Так же вы можете добавить комментарий, или trackback со своего сайта.

Добавить комментарий

Имя (обязательно)
Mail (обязательно)
URL
Текст комментария