Нахождение иностранных символов в тексте

Нахождение иностранных символов в тексте

Исходный текст
Полученный анализ текста

Как выигрывают тендеры

На этой странице мы затронем одну из тем связанную с написанием текста в интернете. Но для начала небольшая задача. Как Вы думаете слово "Привет" и "Привeт" одинаковые? 

"Конечно!"- удивитесь Вы.

Хотелось бы Вас разочаровать но это не так. Вернее, это не так для компьютера. Да, для людей, что первое слово что второе одинаковое и несет абсолютно одну  и туже суть. Но компьютер вещь сложная,  а оттого и глупая :) И ему неподвластны  такие понятия как эмоции и понимания сути  текста.

Компьютер к Вашему удивлению скажет, что первое и второе слово совершенно разные и никакими коврижками Вы его не переубедите что это так.

"Хитрость" - которая мешает компьютеру поставить знак равенства между двумя словами состоит в том, что какая то буква  не принадлежит русскому алфавиту. 

Логично предположить, что таких букв может быть в слове всего два это русское р и английское p, русское е, и английское e.  Заметили разницу в написании этих  букв в предыдущем предложении? Я нет и компьютер тоже.

С такой хитростью связаны  очень многие идеи, чаще всего  не очень правильные, ставящие целью запутать компьютер или автоматические скрипты которые должны правильно интерпретировать тексты в интернете.

Самой простой идеей было создавать на сайте государственных закупок такие тендеры и с таким текстом, что бы  автоматические боты, которые анализируют поступающие предложения для покупателей, не могли правильно распознать  заявленный тендер.

Чиновники хотят устроить тендер на покупку автомобиля Мерседес. У них уже есть нужные люди, с нужными суммами и откатами, но закон обязывает  выставит ь их запрос в интернет. Что бы не дать другим, не совсем нужным людям выиграть этот тендер, запрос пишут вот так "Купим aвтомoбиль Мeрседeс".   Вы  открыли сайт госзакупок и видите что да, на тендер выставлена заявка о покупке автомобиля. Но не все готовы сидеть в интернете круглосуточно, не все успевают отследить все площадки где объявляются тендеры, поэтому потенциальные  покупатели ипользуют автоматические программы которые обрабатывают все новые тендеры, анализируют темы, ключевые слова в заявке и принимают решение, давать Вам информацию об этом тенедере или нет( не Ваш бизнес например).

Так вот в нашем примере, автоматический бот, не сможет Вам ( как владельцу автосалона) сказать  что чиновники хотят купить мерседес, по той же самой причине с чего и началась наша тема.

Давайте определим а что не так с тендером чиновника?

проанализируем на заявку "Купим aвтомoбиль Мeрседeс"

Текст на русском языке. Ищем вхождения английских букв
Найдены чужеродные
(не принадлежат языку на котором написан текст) символы. Это:
 
Символ a на позиции 11
Символ o на позиции 20
Символ e на позиции 32
Символ e на позиции 41
Все чужеродные символы окамляются тегом #
 
Купим #a#втом#o#биль М#e#рсед#e#с
 
Какая прелесть! Теперь стало понятно почему нам компьютер не сообщил об этом тендере. В двух словах изменены 4 символа с русского на английский.
И в тенедере для компьютера не идет речь ни о автомобиле ни о тем более Мерседесе..  Результат  для вас, как потенциального продавца плачевен - тендер прошел мимо...

Вот таким простым способом, совсем недавно чиновники проводили тендеры в пользу своих подконтрольных фирм.

Вторая хитрость который повсюду пользуются или будут пользоватся нехорошие вебмастера, оптимизаторы, администраторы и т.д.

Вы просите разместить  какой либо рекламный текст с ключевым словом "Восход" ( это название вашей фирмы). Написан прекрасный текст, все хорошо, только отклика нет. Индексации ключа нет, а деньги потрачены. И Вы вдруг решаетесь проверить, а так ли все у нас отлично с точки зрения чужеродных символов в этой статье... Дальше можете сами додумать продолжение этой истории.

Данный бот, анализирует полученный текст и выдает все чужеродные символы, говорит на каких позициях они стоят и обрамляет этих "чужаков" в "решетки".

Анализ произвольного текста, не только на русском или английском языках, с показом частотного распределения букв в тексте  возможен здесь: Частотный анализ произвольного текста онлайн

Синтаксис

Для пользоватлей XMPP клиентов 

s_w текст

 

Поиск по сайту