Ведешь index php topic powered by smf. Урок третий
Организованном Ботмастер Лабс, не планировал. Время нету, видео нужно для конкурса, как новомодное веяние, хоть легче все хорошими скринами можно объяснить (моё ИМХО), да и палить особо не хочется ничего. Тем уж очень мало осталось прибыльных, тупой спам уже совсем не рулит, тут нужно думать и темы никто палить не будет, если только отжившие попытаться в красивую обвёрку засунуть и припудрить немного. :) Но это не про нас. Вобщем, эти 3 "не", думаю, в основном и стали барьерами для участия в конкурсе для большинства потенциальных участников. Тут как с ремонтом машины из трех: дешево, качественно, быстро - в сервисе могут только 2 условия одновременно выполнить. сиди и выбирай, что тебе ближе. :) С конкурсом тоже самое: есть время, умею делать видео, но нету темы, или умею делать видео, есть тема, но нету совсем времени, или же и время свободное появилось и темка небольшая есть, но видео пугает. Но это хорошо,если одновременно 2 условия выполняются. Ну, да ладно, отбросим лирику. Я про себя продолжу. Не планировал, значит, я в конкурсе участвовать, даже выбрал за какую статью голосовать буду. Что ни говори, а Доз очень хорошо софт знает и очень толково его применять умеет. Но сегодня узнал, что в конкурсе интрига появилась. Оказывается я голосовать не смогу, а смогут это делать только новички, кто приобрел софт в 2011 году и конкурс рассчитан на них. Удивился немного, но хозяин - барин. Конкурс - это рекламная компания и Александру виднее, как ее проводить. Вобщем, решил тогда выложить статью, несколько легче писать, когда ясно для кого, для всего колхоза на самом деле это сделать невозможно.
Длинное вступление закончилось, теперь к сути.
Что нужно новичку, когда он приобрел такой супер-комбайн, которым является комплекс Xrumer +Hrefer ? Правильно, научиться на нем работать и отбросить иллюзии, что, начав спамить простынями, можно заработать деньги. Если вы так думаете, лучше сразу пожертвуйте ваши деньги на благотворительность. Вам нужно научиться использовать инструменты комплекса, желательно затачивая его под себя. Время "бери больше - кидай дальше" ушло. Количество уступает место качеству. Значит будем собирать базу под себя, не научитесь это делать - отстанете от поезда. В этом нам поможет, естественно, Хрефер. Если вы планируете продвигать свои ресурсы в Гугле, то и искать сайты-доноры нам нужно также через Гугл. Думаю, это понятно и логично. Но Гугл, как хозяйка медной горы, всем подряд свои богатства не отдает. К нему подход нужен. Сразу хотел бы сказать, что не надейтесь, что по признакам, которые вы найдете в паблике вы что-то сможете собрать. Они оттого и доступны в паблике, что грош им цена. Дальше тему развивать не буду. Лучше расскажу, как правильно собирать, чтобы вы увидели результат, остальное сами доработаете, главное понять принцип. Собирать по правильному нужно по признакам конкретных, нужных нам движков, а не признакам форумов вообще. Это главная ошибка новичков - не сконцентрироваться на конкретном, а пытаться охватить все целиком. И еще, если хотите напарсить более-менее нормальную базу, откажитесь от использования в запросах операторов. Никаких "inurl:", "site:", "title" и т.д. Гугл таких как вы искателей забанит моментально. Поэтому тщательно изучаем движки, с которыми в настоящий момент работает Хрумер:
Powered by php-Fusion
В версии Хрумер 7,07 программа обучена нескольким новым движкам:
forumi.biz, forumb.biz, 1forum.biz, 7forum.biz и т.п.
phpBB-fr.com, Solaris phpBB theme
И процесс обучения новому идет непрерывно.
Вобщем, нам нужно готовить правильные запросы для парсинга Хрефером. Возьмем для примера форумный дижок SMF Forums
. И начнем разбирать его на запчасти для парсинга. В этом нам поможет наш любимый Гугл. Вводим в Гугл запрос SMF Forums
- много мусора в выдаче, отматываем на какую-нибудь 13-ю страницу и выбираем любую ссылку. Мне попалась на глаза вот такая: http://www.volcanohost.com/forum/index.php?topic=11.0 . Открываем ее и изучем. Нам нужно найти на странице что-то характерное, что можно применить к поиску других страниц на данном движке. В футере замечаем следующую надпись Powered by SMF 1.1.14
, кавычим её и вводим в Гугл, он нам показывает, что по данному запросу он знает около 59 млн вариантов. Бегло просматриваем ссылки, добавляем к данному ключевику еще парочку-другую вариантов, например, "Powered by SMF 1.1.14" тополь
либо "Powered by SMF 1.1.14" viagra
. Убеждаемся, что запрос шикарный, в выдаче только форумы и почти никакого тебе мусора.
Нам же кроме того, не количество интересно, а качество, как я говорил выше. Идем дальше. Из того же форума берем еще одну фразу из футера: , также ее кавычим и скармливаем Гуглу. В ответ он показывает, что ему известно более 13 млн результатов. Снова бегло просматриваем выдачу, добавляем допслова и проверяем выдачу с ними. Убеждаемся, что запрос отличный и также почти нету мусора. Вобщем, уже есть 2 железных запроса. Я предлагаю, первый форум пока оставить в покое и продолжить собирать запросы уже по другим форумам. Благо Гугл у нас открыт по запросу 2006-2008, Simple Machines LLC
. Берем из выдачи, например, эти форумы: http://www.snowlinks.ru/forum/index.php?topic=1062.0 и http://litputnik.ru/forum/index.php?action=printpage;topic=380.0 в футерах у них берем следующие запросы: "Powered by SMF 1.1.7" и "Powered by SMF 1.1.10" (вбивать для Хрефера запросы всегда советую закавыченными, ведь нам качество нужно в первую очередь). Думаю, понятно, что мы делаем, в конце концов у нас соберется некая база запросов для поиска форумов на движке СМФ (он выбран для примера, с остальными движками аналогично).
Выглядеть это будет примерно так:
"Powered by SMF 1.1.2"
"Powered by SMF 1.1.3"
"Powered by SMF 1.1 RC2"
"Powered by SMF 1.1.4"
"Powered by SMF 1.1.8"
"Powered by SMF 1.1.7"
"2006-2008, Simple Machines LLC"
Причем и это еще не всё. Собирая версии движков мы на некоторых форумах СМФ в футере обнаруживаем надвись "2001-2006, Lewis Media". Проверяем этот запрос, он тоже нас полностью удовлетворяет. Находим похожий запрос: "2001-2005, Lewis Media". Пробегая футеры далее находим следующий запрос: "SMFone design by A.M.A, ported to SMF 1.1". Проверяем - отлично. И так далее. Полчаса работы и у вас замечательная база запросов по движку, причем за данные запросы Гугл будет банить значительно реже, чем, если вы будете использовать в них операторы. И в то же время база у вас будет значительно чище, чем, если вы будете использовать запросы, типа "index.php?topic=", потому как тут Гугл будет отдавать не только нужные нам форумы, но и много левых ресурсов, где удалось оставить ссылку на топик форума. Вы можете возразить, мол, а что в этом плохого? Другие же оставили ссылку, значит и мы можем. Но! Ссылки может оставлять не только Хрумер, но и другие программы. причем они могут быть специально заточены для оставления комментариев в определенный ресурс, так называемый узкоспециальный софт, плюс такие ссылки могли быть оставлены руками. Опять повторюсь, нам не количество мусорное важно, а качество, базу правильными запросами мы и так соберем. Плюс данного метода еще и в том, что вам практически не нужно будет в Хрефере настраивать sieve
-filter
, его можно будет попросту отключить, ведь Гугл вам практически не будет отдавать мусора.
Считаю, что научиться на начальном этапе грамотно пользоваться Хрефером очень важно, ведь научившись этому можно всегда найти применение Хрумеру, как бы не менялась ситуация. Защиты усложняются, и если на каких-то типах движков усилили защиту и с ней не справляется в данный момент Хрумер, то нет смысла тратить ресурсы на сбор данных линков, а потом на работу по ним Хрумером, лучше сосредоточить силы на том, что даёт результат. И в то же время, если команда Ботмастер Лабс обучила Хрумер чему-то новому, можно оперативно препарировать нового пациента и подготовить базу Хрумеру, пока пациент еще тепленький. Время - деньги, ресурс может быть уже не актуальный, когда вы купите базу. собранную кем-то. Кроме того правильное собирание баз под себя значительно расширяет "белое" применение Хрумера. А это именно то, куда все и движется, хотим мы того или нет, а процесс беления или серения идет. Черные простыни по чему только можно уходят в прошлое.
Все остальные, уже технические моменты работы с Хрефером можно посмотреть в хелпе и останавливаться на них не имеет смысла, все голы-очки-секунды выставляются опытным путём для каждой машины индивидуально.
В качестве бонуса выложу здесь шаблон для парсинга китайского поисковика Baidu, на днях у меня про него спрашивали, вот сделал между делом, извините за каламбур. :)
Hostname=http://www.baidu.com
Query=s?wd=
LinksMask=
TotalPages=100
NextPage=
NextPage2=
CaptchaURL=
CaptchaImage=
CaptchaField=
Пробовал им тестово попарсить, бана не было, ресурсы Хрефер собирал живо, все запросы для парсинга аналогичные Гугловским, но ресурсов китайских - море, причем с высоким ПР, а кроме того, много куда там не ступала нога европейца. Парсить лучше китайскими запросами. В этом поможет Гугл-транслейт, набираете список ключевиков по-русски и переводите это на китайский. Правда в "вордс " Хрефера слова нельзя складывать на китайском, нужно перекодировать.
Вместо китайских:
伟哥 - виагра
吉他 - гитара
其他 - отдых
保险公司 - страховка
Положить в файл вордс вот эти коды их замещающие:
%E4%BC%9F%E5%93%A5
%E5%90%89%E4%BB%96
%E5%85%B6%E4%BB%96
%E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8
Если вы продвигаете сайт по страховкам, то разместив ссылку в профиле на тематичном (!) даже китайском форуме найденному по запросу "форум СМФ" 保险公司
будет очень неплохо.
В заключение хотел бы сказать, что никогда не понимал людей, которые жаловались на то, что Хреферы плохо либо не то парсят, на это всегда хотелось сказать, вы просто не умеете их готовить. Лучше хрефера ни один парсер не умеет собирать выдачу, просто запросы должны быть правильные. Хрефер - машина: хорошая, добротная, сделанная по-немецки, но управляет ей человек и все зависит от того, на сколько толково ей управляют, нельзя одновременно заставлять ехать машину и направо и налево.
Отдельная тема - чистка баз, я когда-то 3 года назад для предыдущего конкурса . С большего там по прежнему все актуально, но от проверки на 200 ОК теперь можно отказаться, мне правда этот процесс не особо и нравился, очень погрешности были большие, много лишнего отфильтровывалось. Теперь это можно делать практически на автомате в процессе работы Хрумера, хоть данный процесс и не является полным аналогом проверки на "200 ОК". Вобщем, к делу: не так давно в Хрумере появилась замечательная возможность - граббить информацию с ресурсов в момент прогона проекта. Выглядит это так. Вы вбиваете шаблон, который в процессе работы будет обрабатываться, и собранная по шаблону информация будет заноситься в файл xgrabbed.txt в папке Logs. Применять эту функцию можно для чего угодно, полет фантазии огромный. Я раз в неделю использую эту функцию для удаления из рабочей базы "экспиред" ссылок. Не секрет, что форумы отмирают каждый день, чтобы почистить от таких ресурсов базу нам и поможет в данном случае инструмент "Автограббинг".
Ведь согласитесь, частенько набирая, например, http://www.laptopace.com/index.php мы видим, что доменом этим уже, например, гоудядя барыжит, а форума там нету. Так вот чтобы выкинуть из базы этот шлак, будем граббить. :) Открываем исходный код страницы и видим там данную запись:
Теперь все "мертвецы" от гоудадди нам будут известны поимённо.
Вот небольшая подборка для инструмента "Автограббинг", если вы захотите почистить базу от разных "экспиред" доменов: