Парсер что это и как его сделать

парсингСегодня хотелось бы поговорить о парсинге сайтов, некоторые называют парсинг граббером, но особых различий между этими определениями я не вижу.

Парсер сайтов служит для автоматизированного наполнения вашей базы данных с чужих сайтов специально написанным скриптом сделать для конкретного сайта.

В настоящий момент создание сайта и наполнением его информацией с других сайтов методом парсинга не очень хороший вариант, ведь поисковые системы уже давно научились распознавать уникальность контента и его правообладателя, а сайты с чужим контентом просто напросто банятся или загоняются под фильтр поисковых систем.

Парсер сайтов служит не только для того, что бы напарсить огромную базу контента для публикации себе на сайт, но и для парсинга нужной для пользователей информации, пример того курсы валют.

Я расскажу лишь то, как спарсить небольшой участок контента, в нашем случае это будет статья с сайта cy-pr, в дальнейшем буду выкладывать свои наработки более профессионального парсера, которым можно будет автоматизировать весь процесс.

Сразу предоставляю исходный код парсера новостей с сайта cy-pr.

Урок по написанию парсера не является для новичков в PHP, описывать всё подробно нет смысла, ведь зная начальные функции, которые вы и так изучите в начале изучения PHP, вы легко сможете прочитать код парсера и понять алгоритм который используется при парсинге страниц.

Для облегчения читабельности кода, все строки прокомментированы.

<?php //Настройки парсера //URL для парсинга контента $url = 'http://www.cy-pr.com/news/2583/'; //Стартовый тег для парсинга контента //тег который стоит перед началом нужного участка кода для парсинга //и используется 1 раз $start = '<div class="l-content">'; //Конечный тег участка кода для парсинга //Тег который стоит после нужного участка который будем парсить $finish = '<br class="clear"/>'; //Создаём функцию парсера function parser($url,$start,$finish) { //Получаем весь код страницы $content = file_get_contents($url); //Ищем позицию с которой мы будем вырезать код для дальнейшего использования $position = strpos($content, $start); //Вырезаем нужный блок $content = substr($content, $position); $position = strpos($content, $finish); //Вырезаем код $content = substr($content, 0, $position); //Вырезаем HTML теги //Для добавления\удаления используемых тегов допишите\удалите теги $content = strip_tags($content, '<p><a>'); //Debug (Проверка того, что выводит парсер) //echo nl2br($content); //Открываем файл для чтения и перезаписи $fp = fopen('article.txt', 'write'); //Записываем код в файл fwrite($fp, nl2br($content)); //Закрываем файл fclose($fp); //Возвращаем напарсеный контент return $content; } //Вызываем функцию парсинга parser($url, $start, $finish);?>

После чего у вас в корневой папке используемого скрипта создастся файл article.txt, в котором будет код напарсеной статьи.

Поделитесь ссылкой если мы вам помогли!

Читайте также:

Комментарии:

Добавить комментарий:


Источник: http://world-networks.ru/view_post.php?id=46



Рекомендуем посмотреть ещё:


Закрыть ... [X]

Что такое парсер, как его написать и как его использовать? Форум Прочитать сценарий сериала

Парсер что это и как его сделать Как правильно парсить и чем парсить по моим запросам Форум
Парсер что это и как его сделать Что такое парсер (граббер)? Как работают парсеры (грабберы)
Парсер что это и как его сделать Что такое парсер (граббер)? примеры PHP-парсеров
Парсер что это и как его сделать Парсер на PHP это просто / Песочница / Хабрахабр
Парсер что это и как его сделать Парсинг - что это значит и как парсить сайты?
Парсеры сайтов - обзор парсеров контента Ответы Что такое "парсер" 4. Развод. 'Идда Ислам в Дагестане Знаменитые бренды: Логотип. / фото 2017 Как переоформить автомобиль на жену без снятия с учета в Как улучшить отношения с родителями. Секреты Маричка

Похожие новости