Парсинг без границ
Этот пост написан в рамках третьего конкурса статей организатор которого
Botmaster.
В этой статье хочу рассказать об одном из методов парсинга баз для XRumer’а,
ScrapeBox, A-Poster и других.
Парсить мы будем http://blogsearch.google.com/changes.xml?last=120 Это прямой
эфир гугла, который показывает ссылки страниц с которых пинганули гугл о
появившемся или изменившемся контенте и прочие обращения к разным сервисам.
Иначе говоря, перед вами ссылки страниц которых еще нет в индексе Гугла, но в
которые вы уже можете слать спам еще до прихода бота индексатора Отходя от
темы, скажу лишь что таким образом можно парсить достаточно уникальный
контент, если это не ссылка на автоблог или просто попался копипаст. Тогда уже
нужно дополнительно чекать на уникальность в выдаче.
Возвращаясь к парсингу баз, с акцентом на базы для Xrumer. Рассмотрим что нам
дает выжать http://blogsearch.google.com/changes.xml?last=120.
В качестве примера для разбора я сохранил листинг который на скрине выше, его
мы сейчас и разберем по полочкам.
Зная параметры ссылок различных блоговых движков и форумов, можно собирать
уникальные и свежие базы, с одной оговоркой на то, что если вы парсите базу
форумов, то в большинстве своем, (~90%) это будут профили и спамные топики
коллег по цеху которые уже обрабатывают этот форум. Может быть и такое, что
спамят уже по свежей или достаточно безабузной базе. Во всяком случае, у вас в
руках прямой эфир всех Хрумеров которые сейчас в онлайне.
Что на скрине мы сразу можем выделить из параметров:
name=»www.almohamady.com/forum» -
url=»http://www.almohamady.com/forum/index.php?
action=profile;u=322955;sa=summary«
sourceIp=»76.186.150.51″
Пояснять что есть что думаю будет излишним, и так понятно. Нас интересует
параметр url= который и содержит ссылки которые мы будем парсить по нужным
нам признакам.
Примеры на наглядности.
Пример 1
Без признаков. Просто спарсит все ссылки как есть и сохранит в файл. Далее уже
можете другими средствами отбирать нужные вам ссылки по вашим критериям.
Результат выполнения этого скрипта.
<?php
$url = ‘http://blogsearch.google.com/changes.xml?last=120′;
$m= file_get_contents ($url);
preg_match_all (‘/url=”(.*?)”/’,$m,$match );print implode(“<br>”,$match[1]);
?>
Пример 2
Парсим ссылки на пользовательские профили форумов по вхождению «profile» в
ссылке. Результат выполнения
<?php
$keyword = “profile”;
$ch=curl_init();
curl_setopt($ch,CURLOPT_URL,”http://blogsearch.google.com/chang
curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
$get=curl_exec($ch);
preg_match_all(‘/url\=\”\S+\”/i’,$get,$urls);
echo “Results => $keyword:<br>”;
foreach($urls[0] as $blog) {
$blog=preg_replace(‘/url\=\”/i’,”",$blog);$blog=str_replace(“\”
if(!preg_match(“/$keyword/i”,$blog)) {unset($blog);} else {
echo $blog.”<br>”;
}
}
?>
Пример 3
Как и в примере 2, вбиваем ключевик + сохраняем в файл. Поставив такой скрипт на
крон, за сутки можно собрать приличную базу. Главное не забыть про него
Результат выполнения за 10с работы скрипта (5 раз запустили скрипт)
<?php
$keyword = “profile”;
$ch=curl_init();
curl_setopt($ch,CURLOPT_URL,”http://blogsearch.google.com/chang
curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
$get=curl_exec($ch);
preg_match_all(‘/url\=\”\S+\”/i’,$get,$urls);
echo “Results => $keyword:<br>”;
foreach($urls[0] as $blog) {
$blog=preg_replace(‘/url\=\”/i’,”",$blog);$blog=str_replace(“\”
if(!preg_match(“/$keyword/i”,$blog)) {unset($blog);} else {
echo $blog.”<br>”;
$file=fopen(“example3.txt”,”a+”);
fwrite($file,”$blog\r\n”);
fclose($file);
}
}
?>
Думаю этих набросков будет достаточно чтобы прикинуть обьемы вашей будущей
базы.
Преимущества этого метода парсинга:
1. Вам не нужно покупать спец софт для парсинга
2. Вам не нужны базы признаков и сложные запросы для парсинга ПС
3. Вам не нужны прокси
4. Вы не встретите капчи
5. Такая база имеет 100% пробив, потому как парсим то что уже пробил Хрумер
6. Поставили на крон и забыли. Только успевай снимать базы.
7. При наличи Hrefer’а, его средствами вы можете проверить базу на
заспамленность и выделить достаточно чистые форумы.
Все выше перечисленные примеры скриптов являются показательными. Если вы
готовы выложить сотню-две баксов на кодера или сами имеете навыки кодинга, вы
без проблем напишите хорошую систему под это дело, при этом расширив ее под
себя.
Подскажу пару моментов.
Можно парсить двумя подходами:
1. Кустарно, именно он описан выше.
2. Написать расширенный двиг под это дело.
Парсить все ссылки в базу. Записывать все три параметра: name=,url= и
sourceIp= Потом отдельно написать обработчик для базы. Подключив базу GeoIP
мы сможем выбирать ресурсы для спама по нужной нам стране. По параметру
name= отбирать ресурсы с нужным нам вхождением ключевика в тайтл сайта. Как
следствие, на выходе тематические базы. Ну и собрать базу признаков структуры
url= нужных нам движков или других критериев. Это могут быть и .EDU блоги
На этом все. Удачи в бизе.
Ставим Хрумер на бесконечный постинг
День добрый, господа нынешние и
будущие хрумоводы. Сегодня в
рамках конкурса от Bosmaster
Labs я расскажу Вам как
оптимизировать Хрумер для
работы в режиме 24х7х365, то
есть снизить к минимуму ручную
работу и превратить его в вечный
двигатель спамер сабмиттер.
Целься
Откроем окно создания нового
проекта Хрумера, нажмем
“Автозаполнение” и посмотрим
какие же поля мешают нам
повторно пройтись по базе и
зарегать нам нового
юзера. Вполне очевидно, что это
поля “Ник” (он же логин для
форума) и “адрес почты”, а кто не
верит – попробуйте сами регнуть
двух юзеров с одинаковыми
логинами или мыльницами и
убедитесь.
Итак посмотрим, как же можно
обойти эти ограничения.
По умолчанию Хрумер вставляет в
поле “Имя” макрос #gennick, суть
которого такая
#gennick[идентификатор]
или
#gennick[идентификатор,
мин_длина, макс_длина] –
генерация случайного
никнейма с привязкой к
имени домена +
идентификатору.
Идентификатор – любой
случайный набор
символов, задаваемый
пользователем. ВАЖНО:
при каждой новой
рассылке следует
обязательно менять
идентификатор на новый.
В случае задания
параметров “мин_длина”
и “макс_длина” длина
никнейма будет
генерироваться в
заданном пределе. Данный
макрос рекомендуется
использовать в поле
“Никнейм” (с) Хрумер
Хелп.
Заметьте, что разработчик
рекомендует каждый раз менять
идентификатор макроса, но мы
поступим по другому, немного
почитав хелп (оказывается
полезная штука все-таки) в
разделе “макросы” мы увидим, что
есть другой макрос #random[a..Z],
который генерит значение из
заданного диапазона, им
и воспользуемся, заполнив поле
“ник” например так
Warrior#random[a..z]#random[a..z]#random[a..z],
что в результате даст нам дофига
вариаций вида Warriorjip,
Warriorvsl и т.д. На ум сразу
приходит сделать цифровой ник
через #random[1..999] , однако
существует мнение, что некоторые
форумы не позволяют регится
таким юзерам, потому оставим
этот момент для ваших
экспериментов.
Итак ник мы победили, остался Email,
на самом деле вариантов
обхода тут не один, а целых два и
оба они частично описаны на
(форум поддержки
хрумера)/index.php?
showtopic=787&st=0 но я довел их
до внятной подробной пошаговой
инструкции.
Первый вариант заключается в
использовании то ли фичи, то ли
бага Gmail, который знает
наверное весь блек сео интернет,
связанный с точками в имени
ящика Gmail:
aaa@gmail.com/a.aa@gmail.com/aa.a@gmail.com
это один и тот же ящик для Gmail,
но разные ящики для форумов.
Скачав любую программу для
простановки точек в ящики (я
например юзаю gmailS generator),
придумываем и регаем ящик на
Gmail (название стоит выбрать
подлиннее, чтобы вышло
побольше вариантов), причем это
можно сделать и самим Хрумером,
выбрав нужный нам почтовый
сервер (в данном случае gmail) и
использовав кнопку “Регистрация
аккаунта” в разделе почта на
верхнем скрине. Это поле
используется ТОЛЬКО для
регистрации ящика, на процесс
рассылки оно никак не влияет,
потому нажав кнопку регистрации
и получив положительный
результат – просто больше не
обращайте на него внимания.
Итак ящик получен, суем его в
прогу и получаем список ящиков,
например для моего
blackhawkdown61@gmail.com
вышло более 16000 вариантов
вида
blackhawkdown.61@gmail.com
blackhawkdown.6.1@gmail.com
blackhawkdow.n61@gmail.com
и т.д.
Далее отключаем спам фильтр на
Gmail, – созданием фильтра:
Настройка -> Фильтры -> Создать
фильтр
Совпадения: from:(@) <- Поле
Отправителя содержит @
Действия: Никогда не
отправлять в спам
и заполняем проект хрумера таким
образом
В поле “Адрес почты” вставляем
макрос #filelinks, который умеет
построчно вставлять строки из
файла, но обратите внимание на
имя файла на скрине, Хрумер
смотрит наличие в этом поле
символа собаки @, и если он его
там не найдет, то не даст
сохранить проект, поэтому просто
дописываем к собаку к имени
файла и он успокаивается.
Альтернативно, можно сохранить
проект, закрыть программу,
открыть папку где лежит Хрумер,
затем Projects (это где проекты
лежат), найти файл <свой
проект>.XML , открыть его для
редактирования и вставить туда
между <EmailAddress>
… </EmailAddress> все что угодно,
например, список адресов через
конструкцию {|||}
сделав ее, например, Акельпадом
использовав такую автозамену
читайте далее тут
XRumer 5.0 Elite скачать + ключ
XRumer – программа, в автоматическом режиме размещающая Ваши обьявления на форумах, гостевых книгах, досках обьявлений и каталогах ссылок (а также блогах и wiki). Одним словом – автосабмиттер. На данный момент доступна версия XRumer 7.0 Elite
Вот основные технические характеристики и возможности программы:
Возможность работы в многопоточном режиме
Программа способна при необходимости регистрироваться на форуме (если это нужно для создания нового сообщения) и заполнять при этом все нужные поля. После регистрации программа автоматически производит логин на сайт и размещает Ваш текст и/или ссылку
Встроена мощная система поиска и проверки прокси-серверов. Это обеспечивает Вашу анонимность и исключает бан на форумах по IP. Возможно использование как HTTP- так и SOCKS-прокси.
Программа умеет работать с огромным количеством различных типов форумов и гостевых: phpBB и PHP-Nuke любых модификаций, yaBB, VBulletin, Invision Power Board, IconBoard, UltimateBB, exBB, phorum.org, wiki, livejournal.com, AkoBook, разнообразными видами досок обьявлений а также “самописными” движками
ВНИМАНИЕ: эксклюзивная возможность – программа обходит ЛЮБЫЕ виды защиты от автоматической регистрации и автосабмита! Такие, как:
- Защита при помощи пиктокода (тикетов) типа “Введите число, которое видите”. Подробнее…
- Защита при помощи активации по e-mail. Подробнее…
- Защита при помощи некоторых Java-скриптов. Подробнее…
- возможность распознавания защиты в виде арифметических операций и логических вопросов
В процессе рассылки автоматически создаётся подробный отчёт с точными ссылками на размещенные обьявления и можно проверить на наличие каждую ссылку.
Встроена система “Вопрос-ответ”
Есть система вариаций, с помощью которой можно сделать так, чтобы из 10000 размещенных обьявлений не было ни одного похожего, но смысл оставался одним и тем же. Это помогает сделать значительный разброс по ключевым запросам (для поисковой оптимизации) и исключить фильтрацию поисковиками одинаковых вариантов
Если на форуме несколько разделов, программа выбирает наиболее подходящий по теме, а если такого нет – то в оффтопик, флейм и т.п, если и таковых нет то в наиболее посещаемый раздел.
Есть возможность использования и редактирования BB-кода
Включены инструменты для обработки баз форумов: удаление повторных ссылок, сортировка по убыванию посещаемости, удаление по блэк-листу, различные фильтры
Программа сама сообщает о появлении новых версий
Есть возможность использования подключаемых модулей (плагинов). На данный момент в комплект входят плагины AutoDating (Mamba + Loveplanet) и SocPlugin (Odnoklassniki + VKontakte)
Встроена система расписаний, система самообучения, пост-редактирования, Масс-ПМ, и многое, многое другое
Уникальная система “Антиспам” позволяет производить тематические “человечные” рассылки по форумам, в соответствии с их тематикой
Система полностью автономна и требует минимальных навыков: достаточно просто выбрать нужную базу ссылок (анголоязычную или русскоязычную), набрать текст объявления со ссылкой или ссылками и ВСЁ.
В состав программного комплекса входит Hrefer и базы ссылок на форумы, гостевые и блоги: более 400.000 проверенных, уникальных ссылок, обновляемых ежемесячно.
Минимальные технические требования:
Windows 98 / 2000 / 2003 / XP / Vista / Win7 (как 32-бит, так и 64-бит), процессор от 1ГГц, ОЗУ 512Мб; желательно наличие высокоскоростного интернет-соединения без ограничений по трафику
Программа продаётся за WebMoney, возможны альтернативные виды оплаты. Стоимость программного комплекса XRumer – $590 + абон.плата $10 / мес. (в комплекс входит парсер поисковых систем Hrefer).
XRumer 6.0 Elite скачать + ключ
XRumer – программа, в автоматическом режиме размещающая Ваши обьявления на форумах, гостевых книгах, досках обьявлений и каталогах ссылок (а также блогах и wiki). Одним словом – автосабмиттер. На данный момент доступна версия XRumer 7.0 Elite
Вот основные технические характеристики и возможности программы:
Возможность работы в многопоточном режиме
Программа способна при необходимости регистрироваться на форуме (если это нужно для создания нового сообщения) и заполнять при этом все нужные поля. После регистрации программа автоматически производит логин на сайт и размещает Ваш текст и/или ссылку
Встроена мощная система поиска и проверки прокси-серверов. Это обеспечивает Вашу анонимность и исключает бан на форумах по IP. Возможно использование как HTTP- так и SOCKS-прокси.
Программа умеет работать с огромным количеством различных типов форумов и гостевых: phpBB и PHP-Nuke любых модификаций, yaBB, VBulletin, Invision Power Board, IconBoard, UltimateBB, exBB, phorum.org, wiki, livejournal.com, AkoBook, разнообразными видами досок обьявлений а также “самописными” движками
ВНИМАНИЕ: эксклюзивная возможность – программа обходит ЛЮБЫЕ виды защиты от автоматической регистрации и автосабмита! Такие, как:
- Защита при помощи пиктокода (тикетов) типа “Введите число, которое видите”. Подробнее…
- Защита при помощи активации по e-mail. Подробнее…
- Защита при помощи некоторых Java-скриптов. Подробнее…
- возможность распознавания защиты в виде арифметических операций и логических вопросов
В процессе рассылки автоматически создаётся подробный отчёт с точными ссылками на размещенные обьявления и можно проверить на наличие каждую ссылку.
Встроена система “Вопрос-ответ”
Есть система вариаций, с помощью которой можно сделать так, чтобы из 10000 размещенных обьявлений не было ни одного похожего, но смысл оставался одним и тем же. Это помогает сделать значительный разброс по ключевым запросам (для поисковой оптимизации) и исключить фильтрацию поисковиками одинаковых вариантов
Если на форуме несколько разделов, программа выбирает наиболее подходящий по теме, а если такого нет – то в оффтопик, флейм и т.п, если и таковых нет то в наиболее посещаемый раздел.
Есть возможность использования и редактирования BB-кода
Включены инструменты для обработки баз форумов: удаление повторных ссылок, сортировка по убыванию посещаемости, удаление по блэк-листу, различные фильтры
Программа сама сообщает о появлении новых версий
Есть возможность использования подключаемых модулей (плагинов). На данный момент в комплект входят плагины AutoDating (Mamba + Loveplanet) и SocPlugin (Odnoklassniki + VKontakte)
Встроена система расписаний, система самообучения, пост-редактирования, Масс-ПМ, и многое, многое другое
Уникальная система “Антиспам” позволяет производить тематические “человечные” рассылки по форумам, в соответствии с их тематикой
Система полностью автономна и требует минимальных навыков: достаточно просто выбрать нужную базу ссылок (анголоязычную или русскоязычную), набрать текст объявления со ссылкой или ссылками и ВСЁ.
В состав программного комплекса входит Hrefer и базы ссылок на форумы, гостевые и блоги: более 400.000 проверенных, уникальных ссылок, обновляемых ежемесячно.
Минимальные технические требования:
Windows 98 / 2000 / 2003 / XP / Vista / Win7 (как 32-бит, так и 64-бит), процессор от 1ГГц, ОЗУ 512Мб; желательно наличие высокоскоростного интернет-соединения без ограничений по трафику
Программа продаётся за WebMoney, возможны альтернативные виды оплаты. Стоимость программного комплекса XRumer – $590 + абон.плата $10 / мес. (в комплекс входит парсер поисковых систем Hrefer)