четверг, 24 ноября 2016 г.

Легкий способ по добыче контента

Здравствуйте! Нередко для пользователей Зеброида (E2A85B01D0AE2A62 - 17,5% скидка) стоит вопрос о больших объемах контента. Предлагаю один из способов решения. Мы будем вытаскивать полные статьи из rss-фида с помощью данного продукта. Для этого вводим в строке поиска Google запрос типа: "Full-Text RSS 3.6: Compatibility Test".
Пробегаемся по выдаче. Важно, чтобы требуемые разработчиком технические характеристики совпадали с возможностями серверов, на которых установлен данный скрипт. К примеру, на этом сайте все требования соблюдены. Переходим на главную страницу скрипта и настраиваем его:

  • Напротив "Max items" вводим 30 (используем предоставленный нам лимит). Скрипт будет выдергивать 30 полных статей.
  • Напротив "Links" выбираем "remove". Скрипт будет удалять ссылки из статей.
  • Напротив "If extraction fails" выбираем "remove item from feed". Скрипт будет пропускать статьи, где не удалось выдернуть контент полностью.
С поиском RSS-фида заморачиваться также не будем и воспользуемся сервисом google Alerts.

Ну тут, я думаю, пояснять не нужно. Наверное уже все сталкивались с этим сервисом. После создания RSS-фида копируем ссылку на него. И скармливаем эту ссылку нашему скрипту. Вот что в итоге получается:

Из адресной строки копируем ссылку. Мы ее будем в дальнейшем использовать в зеброиде. Открываем Зеброид. Выбираем "Проект - Импорт - RSS Импорт".
Вводим наш URL-ленты и запускаем процесс. Затем нам надо сделать небольшие правки. Для этого выбираем "Обработка текстов - Замена". И создаем 3 правила:
Применяем эти три правила. Теперь нам нужно удалить ненужные тэги. Выбираем "Плагины - Работа с текстом - HTML Cleaner".
Указываем тэги, которые мы хотим оставить и запускаем процесс. Также неплохо было бы немного уникализировать добытый контент. Для этого выбираем "Обработка текстов - Синонимайзер".

Указываем процент и запускаем процесс. Ну вот вроде бы и все!
Ну а дальше используйте этот контент по своему усмотрению. Надеюсь, что кому-то помог. Спасибо за внимание!

четверг, 3 марта 2016 г.

Registered Accounts для Xrumer и Accound Data для GSA Search Engine Ranker

Продам одному человеку собственные зарегистрированные аккаунты для Хрумера и GSA Search Engine Ranker. За подробностями обращайтесь через форму связи. Цена договорная. Торг уместен. Принимаю только WMZ или Paypal.

воскресенье, 20 декабря 2015 г.

База Joomla-сайтов с установленным компонентом k2

Здравствуйте! Я думаю, что данная база будет интересна обладателям Article Monster, GSA Search Engine Ranker, шаблона k2 для ZennoPoster, модификации k2 для Хрумера, а также трудягам, которым не лень осуществлять прогон вручную.
Благодаря установленному компоненту k2 любой желающий может зарегистрироваться на сайте и оставить статью с ссылками на свой ресурс.
В базе 66404 сайта. По традиции база мультиязычная. Почищена на дубли. Донорами были следующие поисковики: Google, Yandex, Bing, Yahoo, Rambler, Baidu и другие. Заказ через форму связи. В честь Новогодних и Рождественских праздников цена базы 5$. Принимаю Webmoney и Paypal. Продам только 10-ю покупателям.
Парсил по запросу: "com_k2" (с кавычками).
Фильтровал по признакам:

  • option=com_k2
  • option,com_k2

вторник, 1 декабря 2015 г.

Свежая база Drupal-сайтов + Бонусы

Приветствую! 12 октября Ботмастер выпустил новую версию Хрумера - 12.0.12. Одним из изменений новой версии было - улучшение пробиваемости ресурсов, работающих на движке Drupal. Поэтому было бы грешно не собрать свежую базу Drupal-сайтов.
Парсил мультиязычную базу. Использовал ряд поисковиков: Google, Yandex, Yahoo, Rambler, Baidu и Bing.
Т.к. далеко не все drupal-сайты имеют вид: "/node/", то пришлось парсить без фильтра.
Приведу пару примеров запросов, которые использовал для сбора:
  • "login or register to post comments" "powered by drupal"
  • "Poster un nouveau commentaire" "page personnelle"
Затем через анализатор (один из инструментов Хрумера) база была отфильтрована. В качестве фильтра использовал признаки присущие только сайтам, работающим на движке Drupal, а именно:
  • /misc/drupal.js
  • Drupal.settings
  • drupal.css
В итоге после использование анализатора на выходе получилось 250864 живых (200 OK) Drupal-сайтов.
Продам базу первым 10-ти покупателям. Стоимость базы 10$. Как обычно для покупки обращаться через форму связи. Принимаю Paypal и Webmoney.
Т.к. Ботмастер советует использовать при работе с движком Drupal встроенную в Хрумер систему распознания капчи в связке с капча-сервисами, то в качестве бонуса к базе первому покупателю подарю ключ со 100 рублями на счету в rucaptcha.
И еще один бонус. Это дополнительная база Ucoz-сайтов.
В базе 16238 сайтов. Это выборка из моих прогонов в августе-сентябре. В этой базе содержатся сайты, которые Хрумеру удалось пробить.
В итоге первый покупатель получает 2 базы и ключ от rucaptcha. Каждый последующий покупатель получит только 2 базы.

суббота, 21 марта 2015 г.

Свежая мультиязычная база форумов

Всем привет! На днях запускал парсинг новой свежей базы форумов. Парсил новой версией Hrefer 4.6. В фильтре использовал признаки всех движков, которые пробивает Xrumer 12.0.9. Язык базы: мультиязычный. База почищена на дубли. Пост-обработку не делал, поэтому можно видеть прямые пути на топики и профили форумов.

В базе 364207 форумов. База сырая. Продам базу за символические 10$. Продам только 10 пользователям. Принимаю webmoney и paypal. Заказать можно через форму связи.

Бесплатно бонусом вы получите мою старую базу форумов, которую я собирал в прошлом году.

В базе 668044 форумов. База почищена от дублей и приведена к индексу, т.е. сделана пост-обработка.

вторник, 31 декабря 2013 г.

Праздничный подарок для пользователей Хрумера

Добрый день! Накануне Нового года и Рождества решил сделать подарок пользователям Хрумера. Была собрана миллионная сырая база сайтов новым Хрефером и потом пробита новым Хрумером. Результат этого прогона и является праздничным подарком. В архиве 2 файла: база с успешно-созданными профилями и база, где Хрумеру удалось на 100% зарегистрироваться. К сожалению, полность мне не удалось прогнать базу к этому моменту. Хотя раньше за такой же промежуток времени собирал базу и прогонял по этой базе. По-видимому новые версии Хрумера и Хрефера помедленнее будут, чем предыдущие, но зато радует, что пробив вырос. В файле Profiles_Xrumer12.txt 36885 успешно созданных профилей. Собственно и сам архивчик. Всех с Наступающими Праздниками!

четверг, 21 ноября 2013 г.

Новый Xrumer 12.0! Пробив увеличен - цены снижены!

Здравствуйте! Сегодня вышла 12-ая версия Хрумера, а также в ближайшие 15 дней будут обновлены Хрефер и СоцПлагин.


Нововведения и улучшения в XRumer 12.0

+ обучен следующим видам графических каптч:
+ благодаря проведённому конкурсу по коллективному обучению тексткапчам, программа обучена более чем 70.000 новым тексткапчам
+ кроме того, программа обучена более чем 5.000 новым Select-капчам
+ обновлена авторегистрация почтовых ящиков на Hotmail.com, Mail.ru, Yandex.ru
+ в несколько раз улучшена распознаваемость упрощённого вида РеКапчи
+ оптимизированы базовые процедуры распознавания некоторых графических капч
+ оптмизирована обработка редиректов
+ улучшено логирование отладочной информации в дебаг-режиме
+ добавлена возможность включения дебаг-режима для многопоточной рассылки, для этого следует
включить MassDebug=1 в секции [AdvOptions] файла xuser.ini
+ восстановлена возможность выбора метода просмотра отчётов, через "Настройки отчётов"
+ оптимизировано переключение языка интерфейса
+ внедрена новая панель управления в главном окне программы
+ упрощена процедура авторизации - более не требуется обязательно открывать порт "7777",
кроме того система авторизации теперь не зависит от настроек Internet Explorer-а
+ оптимизирован режим Масс-ПМ
+ в xmessages.txt добавлен признак "PM_CANTGET", сигнализирующий о том, что пользователь, кому отсылается сообщение, не может его получить т.к. его папка "Входящие" переполнена.
+ реализовано отображение программы в трее
+ увеличен размер стека ссылок активации
+ программа обучена самой последней версии DLE-капчи
+ оптимизирована работа программы под многоядерные и многопроцессорные системы
+ добавлена возможность генерации багрепорта, через меню "Информация"
+ дополнен xpop.txt
+ добавлены макросы #rnd_topic и #rnd_user, вставляющие в отсылаемый текст заголовок случайного топика и случайного профиля с текущего форума
+ в редакторе проектов добавлены доп.проверки, защищающие от ошибки пользователя
+ улучшено логирование в отчёт POP_Logs.txt для более удобного поиска доп.масок для xpop.txt
+ реализован обход JavaSript-защиты типа DDoS Guard, ddn_intercept и т.п.
+ исправлена обработка РеКапчи через HTTPS
+ исправлена обработка макроса #random[a..z,0..9] (раньше он генерировал только цифры)
+ реализован умный алгоритм распознавания множественных тексткапч
+ также реализован новый алгоритм распознавания select-капч, благодаря чему существенно повышена пробиваемость phpBB
+ улучшен обход Рекапча-защиты на входе некоторых сайтов - "Please complete the security check to access" (CloudFlare)
+ дополнен textcaptcha_multinames.txt
+ устранена ошибка "Range Check Error", возникающая в редких случаях в системе авторизации
+ добавлен алгоритм обхода тексткапч при создании топиков на SMF (обработка полей post_vv[q][...])
+ проверка прокси/сокс через наш сервис теперь разбита на 2 сервера
+ скорректирован xurl.txt
+ скорректировано отображение проекта
+ устранён баг в Анализаторе баз, из-за которого некорректно обрабатывались домены с цифрами
+ повышена пробиваемость ресурсов *.myforum.ro и *.altervista.org
+ скорректированы процедуры ресайза главного окна
+ добавлено автосохранение последнего выбранного почтового сервиса в проекте
+ повышена пробиваемость движка Datsogallery

Теперь у Хрумера существует 3 типа лицензии:

  1. Лайт - в этой версии отсутствует распознавание РеКапчи, VBulletin-капчи, отсутствует авторегистрация почты, нет отладочного режима, нет доступа к форуму тех.поддержки. Но не смотря на эти ограничения пробив остается высоким, т.к. Хрумер пробивает и множество других форумах, не только одним движком "Vbulletin" богат интернет. Еще в комплект входит Хрефер, чтобы собрать базы для Хрумера. Хрумер можно установить на 1 компьютер. А самое вкусное в этой версии - это цена! Всего 290$. А если купите через мою партнерскую ссылку, то получите скидку 20$.
  2. Стандарт - самая оптимальная версия программы. У этой лицензии нету ограничений в функционале программы. В комплекте идут Хрефер и СоцПлагин. Программу можно установить на 2 компьютера. Также эта версия не привязывается к одному постоянному IP. Стоимость этой лицензии - 650$. Покупая софт через меня, вы получаете скидку в размере 40$.
  3. Бизнес - в этой версии, все также как и в стандартной версии, но программу можно установить на 5 компьютеров, а еще эта версия привязывается к одному постоянному IP. Стоимость этой лицензии составляет 900$. Через меня скидка в 60$.

понедельник, 7 октября 2013 г.

Результаты новой версии Хрефера

Добрый день! Недавно вышла новая версия Хрефера. У 4-ой версии появилось множество небольших плюшек для новичков, которые помогут им быстрее освоить парсер. Но главным нововведением является автораспознание каптчи Яндекса. Теперь можно не переживать о бане при парсинге яндекса, его сервисов и рамблера. Я это уже протестировал. Собрал базу форумов, которые поддерживает Хрумер. Парсил яндекс и рамблер! Конечно в выдаче присутствовали и иностранные форумы, но преимущественно были собраны ру-форумы. В базе 230571 сайт. Базу почистил на дубли и сделал пост-обработку. Еще прочекал базу на 200 OK. Ссылка на архив с базой.
P.S. Если нужно собрать базу форумов илии блогов с рунета, то обращайтесь через форму связи. Неизвестно сколько времени Яндекс будет это терпеть, поэтому надо пользоваться моментом :))

суббота, 31 августа 2013 г.

Небольшой файл Registered Accounts.txt

Здравствуйте! Завершаю лето статьей о файле Registered Accounts.txt. Это файл с сайтами, где хрумеру 100% удалось зарегистрироваться. Конечно же логинов и паролей в файле нету :-)) Я сделал пост-обработку и почистил от дубликатов. В файле 94654 форума! Ссылка на архив.

среда, 17 июля 2013 г.

Бесплатная база топиков форумов

Здравствуйте! Сейчас пару часиков тестировал одну схему парсинга. Вот вообщем база, которая собралась за это время. Парсил топики форумов! Парсил стандартные хрумеровские движки: phpbb, ipb, smf, vbulletin, mybb, kunena, xenforo и т.д. База почищена от дублей. Пост-обработку ссылок делать не стал. На блэк-лист также не чистил. База мультиязычная! В базе 191101 форум.