Пропустить фрагмент кода javascript для сканеров

Question

Пропустить фрагмент кода javascript для сканеров

0

У меня есть веб-сайт в php, который передает определенные переменные php в переменные javascript, google сканирует меня, что создает ошибки и дублирует контент. Есть ли способ заставить искателя Google игнорировать объявление этих переменных в javascript?

    echo '<script language="javascript">var '.$item['Nombre'].'="'.$descripcion.'";</script>';

Извините за мой английский,

Shoke 13 нояб. 2013, в 12:58

Источник

1

Не могли бы вы описать, как он «генерирует ошибки и дублирует контент»? Вы используете Инструменты для веб-мастеров? Дублированный контент обычно означает один и тот же контент на разных URL. Можете ли вы показать нам несколько примеров URL, где Google обнаружил дублированный контент? Эти параметры GET параметры за шанс? Я подозреваю, что вы неверно истолковали ошибку.
SoonDead 13 нояб. 2013, в 12:12
0

Это страница дистрибутивных брендов, каждый бренд загружается на страницу типа "/ firmas / 1.html", "/ fimas / 2.html" .. но все бренды загружаются с главной страницы в переменных javascript для отображения контента в div, чтобы сделать onmouseover, используя innerHTML выше названий брендов. Это «onmouseover» присутствует во всех брендах, так как оно является частью меню, поэтому, если вы введете «/ firmas / 1.html», загрузите все переменные, как в index.html, но отобразите только те, которые имеют идентификатор 1. Идеально используется один в пределах значения <noscript> для сканирования.
Shoke 13 нояб. 2013, в 16:23
0

Я использую инструменты для веб-мастеров. Но проблема в том, что Google не выдает ошибку, а Google не индексирует страницы, так как считается, что на каждой странице одинаковое содержание.
Shoke 13 нояб. 2013, в 16:23
0

Гугл не выдает ошибку? Тогда откуда вы знаете, что это «потому что считается, что на каждой странице одинаковое содержание»? После вашего описания я думаю, что проблема не в том же контенте, а в отсутствии контента. Google не будет читать ваш JavaScript. Также возможно, что я что-то неверно истолковал. Не могли бы вы отредактировать свой вопрос, объяснить свой сценарий (сколько там страниц, что содержит что именно) и включить соответствующие части вашего кода (например, что на самом деле происходит при наведении курсора мыши)? Ваше описание в вашем комментарии очень неоднозначно!
SoonDead 14 нояб. 2013, в 08:16
0

Я использовал "ява" = "JavaScript". Я изменил язык: «vulga» = «text / javascript», и теперь я все еще жду нового сканирования от Google. Я знаю это потому, что при поиске по описанию показывается имя переменной описания каждой переменной.
Shoke 14 нояб. 2013, в 10:21
0

@halfer Halfer Я знаю, Скоро Дед сказал мне это ниже. Потому что это я изменил.
Shoke 15 нояб. 2013, в 12:45

Показать ещё 4 комментария

Теги:

php

javascript

html

web-crawler

skip

4 ответа

0

Вы можете использовать следующий PHP-код:

$crawlers = array(
'Google'=>'Google',
'MSN' => 'msnbot',
'Rambler'=>'Rambler',
'Yahoo'=> 'Yahoo',
'AbachoBOT'=> 'AbachoBOT',
'accoona'=> 'Accoona',
'AcoiRobot'=> 'AcoiRobot',
'ASPSeek'=> 'ASPSeek',
'CrocCrawler'=> 'CrocCrawler',
'Dumbot'=> 'Dumbot',
'FAST-WebCrawler'=> 'FAST-WebCrawler',
'GeonaBot'=> 'GeonaBot',
'Gigabot'=> 'Gigabot',
'Lycos spider'=> 'Lycos',
'MSRBOT'=> 'MSRBOT',
'Altavista robot'=> 'Scooter',
'AltaVista robot'=> 'Altavista',
'ID-Search Bot'=> 'IDBot',
'eStyle Bot'=> 'eStyle',
'Scrubby robot'=> 'Scrubby',
);

function crawlerDetect($USER_AGENT)
{
// to get crawlers string used in function uncomment it
// it is better to save it in string than use implode every time
// global $crawlers
// $crawlers_agents = implode('|',$crawlers);
$crawlers_agents = 'Google|msnbot|Rambler|Yahoo|AbachoBOT|accoona|AcioRobot|ASPSeek|CocoCrawler|Dumbot|FAST-WebCrawler|GeonaBot|Gigabot|Lycos|MSRBOT|Scooter|AltaVista|IDBot|eStyle|Scrubby';

if ( strpos($crawlers_agents , $USER_AGENT) === false )
   return false;
// crawler detected
// you can use it to return its name
/*
else {
                                                                                                                                                        1,1           Top
 return array_search($USER_AGENT, $crawlers);
}
*/
}

Используя вышеописанный метод, вы можете проверить, что запрос поступает от искателя или нет.

purab 13 нояб. 2013, в 11:43

0

Важно: это плохая практика в большинстве случаев. Если google уведомляет вас о том, что вы обслуживаете для него другой контент, и считает это релевантным, ваш сайт может нести штрафные санкции.

Я рекомендую это php-решение:

в PHP используйте этот код:

if (!strpos($_SERVER[‘HTTP_USER_AGENT],"Googlebot")) {
  //echo the script
}
else{ //dont echo, does nothing. }

Но если это не сработает, вы можете попробовать добавить этот код javascript в свой тег скрипта:

    if (!navigator.userAgent.contains('Googlebot')) {
    //do the script
    } else {
    //does nothing
    }

Ps: Вот список User-агентов http://www.useragentstring.com/pages/Crawlerlist/

Paulo Roberto 13 нояб. 2013, в 09:43

1

Googlebot не является правильной строкой агента пользователя - см. Support.google.com/webmasters/answer/1061943?hl=ru.
broofa 13 нояб. 2013, в 11:57
2

Это плохая практика в большинстве случаев. Если Google замечает, что вы предоставляете другой контент для своего бота и считает его релевантным, ваш сайт может получить чрезмерные штрафы.
SoonDead 13 нояб. 2013, в 12:00
0

@broofa извините, я сделал небольшую ошибку в коде js, теперь он работает :) и теперь он действителен.
Paulo Roberto Rosa 13 нояб. 2013, в 12:01
0

@ Приятно вспомнить, я отредактировал свой пост.
Paulo Roberto Rosa 13 нояб. 2013, в 12:04
0

Вы уверены, что этот JS действительно будет работать? В частности, есть ли доказательства того, что Google использует среду выполнения JS, в которой указан обнаруживаемый пользовательский агент? Кажется, это противоречит тому, что я ожидаю, является их главной целью: индексировать контент, который посетитель увидит, когда посетит сайт.
broofa 13 нояб. 2013, в 12:04
0

@ broofa, возможно, вы правы, но я думаю, что бот действует как браузер в терминах «интерпретации», и, возможно, из-за ошибок, вызванных неправильной интерпретацией фрагмента кода. Но это просто мнение.
Paulo Roberto Rosa 13 нояб. 2013, в 12:06
0

@ Кстати, я вижу, как решение php лучше после прочтения того, что вы сказали. отредактировал ответ.
Paulo Roberto Rosa 13 нояб. 2013, в 12:08
0

Да, я тоже не уверен - но userAgent, представляемый ботом-пауком, когда он запрашивает страницу, не должен совпадать с тем, с чем работает движок JS. И, на самом деле, я держу пари, что у Google есть две отдельные системы: одна для сканирования статической разметки веб-страницы, а другая для оценки динамического содержимого [скрипта], которое может иметь страница. Я не уверен, что есть какой-либо способ определить поведение, кроме как спросить кого-то в Google. : - /
broofa 13 нояб. 2013, в 12:17

Показать ещё 6 комментариев

0

Другой (непроверенный, умозрительный) подход, требующий, чтобы вы могли написать собственный файл robots.txt:

Перенесите все свои коды JavaScript в другой URL и включите это как скрипт javascript на своей странице: <script type="text/javascript" src="/path/to/my/php/that/generates/js/variables.php"></script>
Добавьте этот URL в файл robots.txt (см. Ответ Google).

User-Agent: Googlebot

Disallow: /path/to/my/php/that/generates/js/variables.php

orique 13 нояб. 2013, в 09:18

0

Очень скептически, это сделает то, что вы утверждаете. Хотя это предотвратит отображение файла variables.php при поиске в Google, я готов поспорить, что это не помешает Google использовать его в качестве сценария при индексации другой веб-страницы [allow-by-robots.txt], которая импортирует этот скрипт.
broofa 13 нояб. 2013, в 12:22
0

@ broofa Если честно, я не пробовал.
orique 13 нояб. 2013, в 12:23
0

Да ... так ... есть это. Который меня соблазнил понизить. : - / Вероятно, лучше, если вы хотя бы заметите, что это спекулятивный подход с непроверенным поведением в вашем ответе.
broofa 13 нояб. 2013, в 12:30
0

@broofa согласен, готово. Спасибо за ваш отзыв!
orique 13 нояб. 2013, в 12:31

Показать ещё 2 комментария

Ещё вопросы

Не могли бы вы описать, как он «генерирует ошибки и дублирует контент»? Вы используете Инструменты для веб-мастеров? Дублированный контент обычно означает один и тот же контент на разных URL. Можете ли вы показать нам несколько примеров URL, где Google обнаружил дублированный контент? Эти параметры GET параметры за шанс? Я подозреваю, что вы неверно истолковали ошибку.
Это страница дистрибутивных брендов, каждый бренд загружается на страницу типа "/ firmas / 1.html", "/ fimas / 2.html" .. но все бренды загружаются с главной страницы в переменных javascript для отображения контента в div, чтобы сделать onmouseover, используя innerHTML выше названий брендов. Это «onmouseover» присутствует во всех брендах, так как оно является частью меню, поэтому, если вы введете «/ firmas / 1.html», загрузите все переменные, как в index.html, но отобразите только те, которые имеют идентификатор 1. Идеально используется один в пределах значения <noscript> для сканирования.
Я использую инструменты для веб-мастеров. Но проблема в том, что Google не выдает ошибку, а Google не индексирует страницы, так как считается, что на каждой странице одинаковое содержание.
Гугл не выдает ошибку? Тогда откуда вы знаете, что это «потому что считается, что на каждой странице одинаковое содержание»? После вашего описания я думаю, что проблема не в том же контенте, а в отсутствии контента. Google не будет читать ваш JavaScript. Также возможно, что я что-то неверно истолковал. Не могли бы вы отредактировать свой вопрос, объяснить свой сценарий (сколько там страниц, что содержит что именно) и включить соответствующие части вашего кода (например, что на самом деле происходит при наведении курсора мыши)? Ваше описание в вашем комментарии очень неоднозначно!
Я использовал "ява" = "JavaScript". Я изменил язык: «vulga» = «text / javascript», и теперь я все еще жду нового сканирования от Google. Я знаю это потому, что при поиске по описанию показывается имя переменной описания каждой переменной.
@halfer Halfer Я знаю, Скоро Дед сказал мне это ниже. Потому что это я изменил.
Googlebot не является правильной строкой агента пользователя - см. Support.google.com/webmasters/answer/1061943?hl=ru.
Это плохая практика в большинстве случаев. Если Google замечает, что вы предоставляете другой контент для своего бота и считает его релевантным, ваш сайт может получить чрезмерные штрафы.
@broofa извините, я сделал небольшую ошибку в коде js, теперь он работает :) и теперь он действителен.
@ Приятно вспомнить, я отредактировал свой пост.
Вы уверены, что этот JS действительно будет работать? В частности, есть ли доказательства того, что Google использует среду выполнения JS, в которой указан обнаруживаемый пользовательский агент? Кажется, это противоречит тому, что я ожидаю, является их главной целью: индексировать контент, который посетитель увидит, когда посетит сайт.
@ broofa, возможно, вы правы, но я думаю, что бот действует как браузер в терминах «интерпретации», и, возможно, из-за ошибок, вызванных неправильной интерпретацией фрагмента кода. Но это просто мнение.
@ Кстати, я вижу, как решение php лучше после прочтения того, что вы сказали. отредактировал ответ.
Да, я тоже не уверен - но userAgent, представляемый ботом-пауком, когда он запрашивает страницу, не должен совпадать с тем, с чем работает движок JS. И, на самом деле, я держу пари, что у Google есть две отдельные системы: одна для сканирования статической разметки веб-страницы, а другая для оценки динамического содержимого [скрипта], которое может иметь страница. Я не уверен, что есть какой-либо способ определить поведение, кроме как спросить кого-то в Google. : - /
Очень скептически, это сделает то, что вы утверждаете. Хотя это предотвратит отображение файла variables.php при поиске в Google, я готов поспорить, что это не помешает Google использовать его в качестве сценария при индексации другой веб-страницы [allow-by-robots.txt], которая импортирует этот скрипт.
Да ... так ... есть это. Который меня соблазнил понизить. : - / Вероятно, лучше, если вы хотя бы заметите, что это спекулятивный подход с непроверенным поведением в вашем ответе.
@broofa согласен, готово. Спасибо за ваш отзыв!

SoonDead · Accepted Answer · 2013-11-13T11-08-00.000Z

Google сканирует код javascript и рассматривает его дубликат? Раньше я никогда не слышал об этой проблеме. Некоторые из моих страниц имеют встроенный javascript (если контент мал), это означает тот же <script>...</script> на каждой странице.

Существуют также случаи, когда я выдаю переменные javascript более или менее так же, как и вы. Google никогда не отмечал его как "дублированный контент".

Описание отсюда:

Дублируемое содержимое обычно ссылается на существенные блоки контента внутри или между доменами, которые полностью соответствуют другому контенту или в значительной степени похожи. В основном это не обманчиво по происхождению. Примеры неназванного дублированного контента могут включать:

Дискуссионные форумы, которые могут создавать как обычные, так и усеченные страницы, предназначенные для мобильных устройств

Хранить предметы, показанные или связанные через несколько разных URL-адресов.

Версия для печати только на веб-страницах

Вы можете получить такие ошибки, если у вас один и тот же контент на нескольких страницах, но Google не анализирует javascript как контент. (Хотя вы не можете точно знать, что делает или не делает Google). Точно так же, как Google не будет отмечать тэг <head> как дубликат, или нет штрафа за то, что он имеет одинаковый макет (меню, нижний колонтитул и т.д.) На каждой странице.

Вы можете поместить этот <script> тег <aside> чтобы быть уверенным.

Элемент HTML представляет собой раздел страницы, состоящий из содержимого, касающегося касательно содержимого вокруг него, которое можно считать отдельным от этого содержимого. Такие разделы часто представлены как боковые панели или как вставки. Они часто содержат боковые объяснения, как определение глоссария; более слабо связанные вещи, такие как реклама; биография автора; или в веб-приложениях, информацию профиля или связанные ссылки блога.

Это означает, что контент будет более или менее игнорироваться Google при индексировании страницы. Он не будет отмечать его как дубликат, поскольку он может быть коммерческим.

Также language="javascript" атрибут language="javascript" из тегов скрипта. Я сомневаюсь, что это каким-то образом путает google, так как этот атрибут устарел (используйте type вместо этого), и ничто не учитывает его в настоящее время. Но если google бот делает, правильным значением будет text/javascript вместо простого javascript. Возможно, Google не распознает значение javascript и анализирует его как неизвестный тип текстового содержимого.

Тип скрипта по умолчанию text/javascript, поэтому безопасно опустить.

Прежде всего, я подозреваю, что проблема заключается не в существовании JS-переменных, а в других URL-адресах, таких как параметры GET. Параметры GET можно решить, правильно настроив параметры URL в Инструментах для веб-мастеров.

Хорошо, я использовал ява = "javascript", я изменю его, чтобы посмотреть, решит ли это мою проблему.