Парсер заголовков страниц (title)

Написал программу, которая будет полезна в первую очередь веб-мастерам, seo-шникам и веб-разработчикам. С помощью программы можно спарсить содержимое тегов title, description, keywords, заголовки H (h1-h5).
QIP Shot - Screen 176

Программа принимает на вход список URL’ов (которые при делании можно загрузить из текстового файла) и парсит содержимое, выбранных в настройках, тегов. Для тайтлов существует 4 формата вывода :

– <a href=”URL”>TITLE</a>;
– [URL=URL]TITLE[/URL];
– URL TITLE;
– TITLE;

В зависимости от количества выбранных тегов для парсинга результат выводится в таблицу (при парсинге более одного тега) или текстовый редактор (при парсинге одного тега). Полученные данные можно сохранить в текстовый файл или экспортировать в Excel.

В программе реализована многопоточность, что положительно влияет на скорость работы и отклика. Для удобства пользователей реализованы кнопки стоп, пауза/продолжить.

QIP Shot - Screen 178QIP Shot - Screen 179

Скачать парсер заголовков страниц >>


UPDATE (08.02.2015)

  • Улучшен интерфейс программы;
  • Многопоточность (влияет на скорость работы программы и отклик);
  • Экспорт в Excel и сохранение в текстовый файл;
  • Загрузка URL’ов из текстового файла;
  • Парсинг мета-тегов (description и keywords), заголовков h (h1-h5);
  • Оптимизирована работа;

UPDATE (31.08.2014)

  • Изменен интерфейс программы;
  • Добавлена кнопка “Cтоп” и “Приостановить/Продолжить”;
  • Оптимизирована работа;

UPDATE (09.2013)

  • Исправлены баги, оптимизирована работа;
  • Добавлены новые настройки;
Категория: Delphi, Программы
Понравилась статья? Поделись в социальных сетях:

  • uastream

    Исходник можно? Пожалуйста! Суть страница парсинга возвращает 302 ошибку редиректа, например url: mysite.ru/94b8432e90f4c70b6095f81475c2d2de перекидывает на mysite.ru/shop/1255?param=11&22.. и так далее при этом title страницы получить никак невозможно

    • http://programmict.ru/ Дмитрий

      Да исходники могу дать без проблем, только оставьте мне почту на которую выслать, ибо на сайтах не очень люблю светить свой код.
      Для случаев с редериктом нужно ставить свойство IdHTTP HandleRedirects True

      • uastream

        adwork.ppc@gmail.com, хотел написать в обратной связи но сколько не вводил проверочную каптчу она не работает :)

        • http://programmict.ru/ Дмитрий

          Отправил ан почту, если хотите можете удалить email из комментария (чтобы не светить).
          На счет формы обратной связи хочу сказать вам большое спасибо, поставил капчу, а она плохо работает, скоро исправлю.

          • Николай

            Здравствуйте! Если можно сбросьте парсер на почту – 0007678@gmail.com а то ссылка битая:(

          • http://programmict.ru/ Дмитрий

            Перезалил и обновил ссылку, скачивайте.

          • Владимир Самаркин

            Судя по постам это очень нужная мне программа. Не могли бы Вы скинуть ее на почту vvsamkin@gmail.com а то ссылка не работает. Спасибо!

          • http://programmict.ru/ Дмитрий

            Ссылку обновил, на почту отправил.

          • Владимир Самаркин

            Начал тестировать программу, но после обработки списка из 250 адресов сайтов процесс останавливается, и новые попытки запустить парсер ни к чему не приводят – процесс стоит! С чем это может быть связано?

          • http://programmict.ru/ Дмитрий

            Какой-то баг в программе возможно, но к сожалению не могу сейчас посмотреть, времени совсем нет. Может быть сайт какой-то попался кривой и программа повалилась.

          • Владимир Самаркин

            Дмитрий, а может быть найдете время разобраться? Ваша программа меня устраивает, но хотелось бы запускать процесс парсинга, и не сидеть над ней – приходится перезапускать задание или саму программу – на ночь, например. На 1000 сайтов уходит почти час времени… Мне нужно обработать 240 тыс сайтов – только тайтлы на главной. Если подправите программу, чтобы на “затыках” она не останавливалась, а переходила к следующей записи, то можем за работу заплатить, назовите цену. Только нужен тест и гарантия. Могу прислать таблицу с 1000 сайтов для тестирования, если понадобится.

          • http://programmict.ru/ Дмитрий

            Ближе к выходным постараюсь посмотреть, в пятницу вечером можете напомнить через форму обратной связи.

          • Владимир Самаркин

            Дмитрий, напоминаю о своей просьбе подправить программу (если это возможно). Буду признателен за внимание и ответ.

      • http://kremenchug-nails.skynell.biz/ Золотые Ручки

        Здравствуйте! Очень интересная программа, не могли бы вы дать исходники? Моя почта: mr.eagauss(at)gmail.com Заранее благодарен.

  • Егор

    Сделайте пожалуйста 4 формат – просто Title

    • http://programmict.ru/ Дмитрий

      Сделал, ссылку на скачивание и скриншот заменил, пользуйтесь на здоровье!

      • Егор

        Большое спасибо!))

  • http://www.anyphone-anytime.com/ natfree

    Спасибо, очень полезная оказалась прога.

    • http://programmict.ru/ Дмитрий

      Пожалуйста!

  • Yaroslav Vital’evich Polulyasc

    Архиполезная программа! Зря думали что программа не будет пользоваться популярностью. Только если вставить много (около 900 шт.) url слева, то зависает почему-то.

    • http://programmict.ru/ Дмитрий

      Спасибо, в ближайшее время посмотрю в чем дело.

      • http://programmict.ru/ Дмитрий

        Программу обновил, ссылку на скачивание тоже.

  • Сергей

    Вопрос такой Дмитрий, какой сайт не указываю не получаю ни каких результатов.
    для примера попробуйте http://ifun.ru

    • http://programmict.ru/ Дмитрий

      Скачал программу по ссылке, которая находиться в статье, проверил, все работает. Вряд ли в программе проблема.

      • Сергей

        Спасибо за ответ Дмитрий. Да надо будет попробовать дома, возможно на работе прокси что то режет.

  • Василий

    Спасибо, очень полезная и актуальная прога. Можете добавить в нее
    парсинг Description и H1 + экспорт в Excel? Ей бы цены не было.

    • http://programmict.ru/ Дмитрий

      Ок, в принципе не трудно, мне главное свободное время найти. В ближайшее время постараюсь реализовать.

      • Рамазан Миндубаев

        Поддерживаю, очень не хватает парсинга H1

  • Stas

    Спасибо за полезную прогу)

  • Dukakis

    хорошая программа, не хватает только режима обхода страниц. есть главная страница сайта, а остальные чтобы программа сама собрала.

    • http://programmict.ru/ Дмитрий

      Хорошо, возможно реализую, но в платной версии.

      • Dukakis

        Платной?) stgrabber умеет на порядок больше и то бесплатен, не торопитесь с платной, сделайте что-то функциональнее скрипта в одно действие

        • http://programmict.ru/ Дмитрий

          Возможно вы правы, еще подумаю. Ясное дело, что в расширенной версии, которую я уже доделал, больше функций, многопоточность, экспорт в Excel, загрузка URL’ов из файла.

  • Виталий

    А если у меня в страницах сайта title вводится через ЗАГОЛОВО, то программа ничего не выдаст? У меня по всем адресам выдает – ошибка, при всех настройках

  • eugene miro4ek

    Программа просто отличная – делает то, что надо! Раньше видел эту программу уже, но не допер, как ей пользоваться. Сегодня запустил, хорошо выдирает h1-h5!!!! Спасибо!!!

  • Eugene Yudin

    Спасибо за софт!
    Есть правда проблема при работе через прокси:

    Вот если бы можно было указать IP сервера и порт…
    Или добавить возможность в настроках выбора между прямым подключением и прокси…

  • http://aliall.ru/ So1omon

    Блин, голову ломал как сделать. А тут программа была даже. Спасибо за софт!

  • Alexey Koryagin

    А что то не экспортируются результаты в иксель! Да и банально копирование результатов не работает. Посмотреть можно, а забрать нет ((

  • Alexey Koryagin

    Вернее не так. Работает экспорт, когда парсишь что то одно – например тайтлы. Как только парсится 2 и более параметра, то экспорт не работает

  • Димон

    не работает больше прога

  • Антон Першин

    Все отлично работает и экспортируется! Создателям большое-пребольшое спасибо!

  • habere

    Дмитрий, мира и добра вам! Отличная рабочая программа!

  • AAA A1

    Что то не работает программа