На этой странице мы затронем одну из тем связанную с написанием текста в интернете. Но для начала небольшая задача. Как Вы думаете слово "Привет" и "Привeт" одинаковые?
"Конечно!"- удивитесь Вы.
Хотелось бы Вас разочаровать но это не так. Вернее, это не так для компьютера. Да, для людей, что первое слово что второе одинаковое и несет абсолютно одну и туже суть. Но компьютер вещь сложная, а оттого и глупая :) И ему неподвластны такие понятия как эмоции и понимания сути текста.
Компьютер к Вашему удивлению скажет, что первое и второе слово совершенно разные и никакими коврижками Вы его не переубедите что это так.
"Хитрость" - которая мешает компьютеру поставить знак равенства между двумя словами состоит в том, что какая то буква не принадлежит русскому алфавиту.
Логично предположить, что таких букв может быть в слове всего два это русское р и английское p, русское е, и английское e. Заметили разницу в написании этих букв в предыдущем предложении? Я нет и компьютер тоже.
С такой хитростью связаны очень многие идеи, чаще всего не очень правильные, ставящие целью запутать компьютер или автоматические скрипты которые должны правильно интерпретировать тексты в интернете.
Самой простой идеей было создавать на сайте государственных закупок такие тендеры и с таким текстом, что бы автоматические боты, которые анализируют поступающие предложения для покупателей, не могли правильно распознать заявленный тендер.
Чиновники хотят устроить тендер на покупку автомобиля Мерседес. У них уже есть нужные люди, с нужными суммами и откатами, но закон обязывает выставит ь их запрос в интернет. Что бы не дать другим, не совсем нужным людям выиграть этот тендер, запрос пишут вот так "Купим aвтомoбиль Мeрседeс". Вы открыли сайт госзакупок и видите что да, на тендер выставлена заявка о покупке автомобиля. Но не все готовы сидеть в интернете круглосуточно, не все успевают отследить все площадки где объявляются тендеры, поэтому потенциальные покупатели ипользуют автоматические программы которые обрабатывают все новые тендеры, анализируют темы, ключевые слова в заявке и принимают решение, давать Вам информацию об этом тенедере или нет( не Ваш бизнес например).
Так вот в нашем примере, автоматический бот, не сможет Вам ( как владельцу автосалона) сказать что чиновники хотят купить мерседес, по той же самой причине с чего и началась наша тема.
Давайте определим а что не так с тендером чиновника?
проанализируем на заявку "Купим aвтомoбиль Мeрседeс"
Текст на русском языке. Ищем вхождения английских букв
Найдены чужеродные
(не принадлежат языку на котором написан текст) символы. Это:
Символ a на позиции 11
Символ o на позиции 20
Символ e на позиции 32
Символ e на позиции 41
Все чужеродные символы окамляются тегом #
Купим #a#втом#o#биль М#e#рсед#e#с
Какая прелесть! Теперь стало понятно почему нам компьютер не сообщил об этом тендере. В двух словах изменены 4 символа с русского на английский.
И в тенедере для компьютера не идет речь ни о автомобиле ни о тем более Мерседесе.. Результат для вас, как потенциального продавца плачевен - тендер прошел мимо...
Вот таким простым способом, совсем недавно чиновники проводили тендеры в пользу своих подконтрольных фирм.
Вторая хитрость который повсюду пользуются или будут пользоватся нехорошие вебмастера, оптимизаторы, администраторы и т.д.
Вы просите разместить какой либо рекламный текст с ключевым словом "Восход" ( это название вашей фирмы). Написан прекрасный текст, все хорошо, только отклика нет. Индексации ключа нет, а деньги потрачены. И Вы вдруг решаетесь проверить, а так ли все у нас отлично с точки зрения чужеродных символов в этой статье... Дальше можете сами додумать продолжение этой истории.
Данный бот, анализирует полученный текст и выдает все чужеродные символы, говорит на каких позициях они стоят и обрамляет этих "чужаков" в "решетки".
Анализ произвольного текста, не только на русском или английском языках, с показом частотного распределения букв в тексте возможен здесь: Частотный анализ произвольного текста онлайн