Результат частотного анализа введенного текста |
|
Частотный анализ – это один из методов криптоанализа, основывающийся на предположении о существовании нетривиального статистического распределения отдельных символов и их последовательностей как в открытом тексте, так и шифрованном тексте, которое с точностью до замены символов будет сохраняться в процессе шифрования и дешифрования.
Кратко говоря, частотный анализ предполагает, что частота появления заданной буквы алфавита в достаточно длинных текстах одна и та же для разных текстов одного языка. При этом в случае моно алфавитного шифрования, если в шифрованном тексте будет символ с аналогичной вероятностью появления, то можно предположить, что он и является указанной зашифрованной буквой. Аналогичные рассуждения применяются к биграммам (двухбуквенным последовательностям), триграммам в случае поли алфавитных шифров.
Метод частотного анализа известен с еще IX-го века и связан и именем Ал-Кинди. Но наиболее известным случаем применения такого анализа является дешифровка египетских иероглифов Ж.-Ф. Шампольоном в 1822 году.
Данный вид анализа основывается на том, что текст состоит из слов, а слова из букв. Количество различных букв в каждом языке ограничено и буквы могут быть просто перечислены. Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m-ок (m-грамм), сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие.
Идея состоит в подсчете чисел вхождений каждой nm возможных m-грамм в достаточно длинных открытых текстах T=t1t2…tl, составленных из букв алфавита {a1, a2, ..., an}. При этом просматриваются подряд идущие m-граммы текста:
t1t2...tm, t2t3... tm+1, ..., ti-m+1tl-m+2...tl.
Если – число появлений m-граммы ai1ai2...aim в тексте T, а L – общее число подсчитанных m-грамм, то опыт показывает, что при достаточно больших L частоты
для данной m-граммы мало отличаются друг от друга.
В силу этого, относительную частоту считают приближением вероятности P (ai1ai2...aim) появления данной m-граммы в случайно выбранном месте текста (такой подход принят при статистическом определении вероятности).
В представленной ниже таблице приводятся частоты встречаемости букв в русском языке (в процентах):
Буква алфавита | Показатель частоты встречаемости | Буква алфавита | Показатель частоты встречаемости |
А |
0,062 |
Р |
0,04 |
В |
0,038 |
Т |
0,053 |
Д |
0,025 |
Ф |
0,002 |
Ж |
0,007 |
Ц |
0,004 |
И |
0,062 |
Ш |
0,006 |
К |
0,028 |
Ъ, Ь |
0,014 |
М |
0,026 |
Э |
0,003 |
О |
0,09 |
Я |
0,018 |
Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы составляют слово СЕНОВАЛИТР.
Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов. Существуют специальные таблицы с указанием частоты биграмм некоторых алфавитов. По результатам исследований с помощью таких таблиц ученые определили наиболее часто встречаемые биграммы и триграммы для русского алфавита:
СТ, НО, ЕН, ТО, НА, ОВ, НИ, РА, ВО, КО, СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА.
Из таблиц биграмм можно также легко извлечь информацию о сочетаемости букв, т.е. о предпочтительных связях букв друг с другом.
Результатом таких исследований является таблица, в которой слева и справа от каждой буквы расположены наиболее предпочтительные «соседи» (в порядке убывания частоты соответствующих биграмм). В таких таблицах обычно указывается также доля гласных и согласных букв (в процентах), предшествующих (или следующих за) данной букве.
Г | С | Слева | | Справа | Г | С |
3 |
97 |
л, д, к, т, в, р, н |
А |
л, н, с, т, р, в, к, м |
12 |
88 |
80 |
20 |
я, е, у, и, а, о |
Б |
о, ы, е, а, р, у |
81 |
19 |
68 |
32 |
я, т, а, е, и, о |
В |
о, а, и, ы, с, н, л, р |
60 |
40 |
78 |
22 |
р, у, а, и, е, о |
Г |
о, а, р, л, и, в |
69 |
31 |
72 |
28 |
р, я, у, а, и, е, о |
Д |
е, а, и, о, н, у, р, в |
68 |
32 |
19 |
81 |
м, и, л, д, т, р, н |
Е |
н, т, р, с, л, в, м, и |
12 |
88 |
83 |
17 |
р, е, и, а, у, о |
Ж |
е, и, д, а, н |
71 |
29 |
89 |
11 |
о, е, а, и |
З |
а, н, в, о, м, д |
51 |
49 |
27 |
73 |
р, т, м, и, о, л, н |
И |
с, н, в, и, е, м, к, з |
25 |
75 |
55 |
45 |
ь, в, е, о, а, и, с |
К |
о, а, и, р, у, т, л, е |
73 |
27 |
77 |
23 |
г, в, ы, и, е, о, а |
Л |
и, е, о, а, ь, я, ю, у |
75 |
25 |
80 |
20 |
я, ы, а, и, е, о |
М |
и, е, о, у, а, н, п, ы |
73 |
27 |
55 |
45 |
д, ь, н, о |
Н |
о, а, и, е, ы, н, у |
80 |
20 |
11 |
89 |
р, п, к, в, т, н |
О |
в, с, т, р, и, д, н, м |
15 |
85 |
65 |
35 |
в, с, у, а, и, е, о |
П |
о, р, е, а, у, и, л |
68 |
32 |
55 |
45 |
и, к, т, а, п, о, е |
Р |
а, е, о, и, у, я, ы, н |
80 |
20 |
69 |
31 |
с, т, в, а, е, и, о |
С |
т, к, о, я, е, ь, с, н |
32 |
68 |
57 |
43 |
ч, у, и, а, е, о, с |
Т |
о, а, е, и, ь, в, р, с |
63 |
37 |
15 |
85 |
п, т, к, д, н, м, р |
У |
т, п, с, д, н, ю, ж |
16 |
84 |
70 |
30 |
н, а, е, о, и |
Ф |
и, е, о, а, е, о, а |
81 |
19 |
90 |
10 |
у, е, о, а, ы, и |
Х |
о, и, с, н, в, п, р |
43 |
57 |
69 |
31 |
е, ю, н, а, и |
Ц |
и, е, а, ы |
93 |
7 |
82 |
18 |
е, а, у, и, о |
Ч |
е, и, т, н |
66 |
34 |
67 |
33 |
ь, у, ы, е, о, а, и, в |
Ш |
е, и, н, а, о, л |
68 |
32 |
84 |
16 |
е, б, а, я, ю |
Щ |
е, и, а |
97 |
3 |
0 |
100 |
м, р, т, с, б, в, н |
Ы |
л, х, е, м, и, в, с, н |
56 |
44 |
0 |
100 |
н, с, т, л |
Ь |
н, к, в, п, с, е, о, и |
24 |
76 |
14 |
86 |
с, ы, м, л, д, т,, р, н |
Э |
н, т, р, с, к |
0 |
100 |
58 |
42 |
ь, о, а, и, л, у |
Ю |
д, т, щ, ц, н, п |
11 |
89 |
43 |
57 |
о, н, р, л, а, и, с |
Я |
в, с, т, п, д, к, м, л |
16 |
84 |
Пример: Проведем анализ текста следующего содержания
"СОКРАТ из Афин (469–399 до н.э.) – знаменитый античный философ, учитель Платона, воплощенный идеал истинного мудреца в исторической памяти человечества. С именем Сократа связано первое фундаментальное деление истории античной философии на до- и после-Сократовскую («Досократики»), отражающее интерес ранних философов VI–V вв. к натурфилософии, а последующего поколения софистов V в. – к этико-политическим темам, главная из которых – воспитание добродетельного человека и гражданина. Сократу был близок софистическому движению. Учение Сократа было устным; все свободное время он проводил в беседах с приезжими софистами и местными гражданами, политиками и обывателями, друзьями и незнакомыми на темы, ставшими традиционными для софистической практики: что есть добро и что – зло, что прекрасно, а что безобразно, что добродетель и что порок, можно ли научиться быть хорошим и как приобретается знание. Об этих беседах мы знаем в основном благодаря ученикам Сократа – Ксенофонту и Платону. Кроме их сочинений, имеются также фрагменты и свидетельства о содержании «сократических диалогов» других сократиков, пародийное изображение Сократа в комедии Аристофана Облака и ряд замечаний о Сократе у Аристотеля. Проблема достоверности изображения личности Сократа в сохранившихся произведениях – ключевой вопрос всех исследований о нем."
Пишем
в поле ввода этот текст и получаем ответ
Проведен анализ текста
Количество символов в тексте 1329
Количество пробелов 179
Количество цифр 6
Количество точек и запятых 25
Количество английских букв 4
Количество русских букв 1094
Посимвольная статистика и частотный анализ
Символ встречается 179 раз. Частота 13.47%
Символ о встречается 130 раз. Частота 9.78%
Символ и встречается 117 раз. Частота 8.80%
Символ а встречается 88 раз. Частота 6.62%
Символ е встречается 86 раз. Частота 6.47%
Символ с встречается 70 раз. Частота 5.27%
Символ н встречается 70 раз. Частота 5.27%
Символ т встречается 70 раз. Частота 5.27%
Символ р встречается 55 раз. Частота 4.14%
Символ к встречается 42 раз. Частота 3.16%
Символ л встречается 38 раз. Частота 2.86%
Символ в встречается 38 раз. Частота 2.86%
Символ м встречается 38 раз. Частота 2.86%
Символ д встречается 34 раз. Частота 2.56%
Символ ч встречается 24 раз. Частота 1.81%
Символ п встречается 21 раз. Частота 1.58%
Символ б встречается 20 раз. Частота 1.50%
Символ з встречается 17 раз. Частота 1.28%
Символ ф встречается 17 раз. Частота 1.28%
Символ я встречается 17 раз. Частота 1.28%
Символ у встречается 17 раз. Частота 1.28%
Символ ы встречается 15 раз. Частота 1.13%
Символ , встречается 14 раз. Частота 1.05%
Символ х встречается 13 раз. Частота 0.98%
Символ . встречается 11 раз. Частота 0.83%
Символ й встречается 11 раз. Частота 0.83%
Символ ж встречается 10 раз. Частота 0.75%
Символ г встречается 10 раз. Частота 0.75%
Символ ь встречается 9 раз. Частота 0.68%
Символ – встречается 8 раз. Частота 0.60%
Символ ю встречается 6 раз. Частота 0.45%
Символ v встречается 3 раз. Частота 0.23%
Символ - встречается 3 раз. Частота 0.23%
Символ 9 встречается 3 раз. Частота 0.23%
Символ щ встречается 3 раз. Частота 0.23%
Символ э встречается 3 раз. Частота 0.23%
Символ ш встречается 3 раз. Частота 0.23%
Символ » встречается 2 раз. Частота 0.15%
Символ ( встречается 2 раз. Частота 0.15%
Символ ц встречается 2 раз. Частота 0.15%
Символ « встречается 2 раз. Частота 0.15%
Символ ) встречается 2 раз. Частота 0.15%
Символ 3 встречается 1 раз. Частота 0.08%
Символ : встречается 1 раз. Частота 0.08%
Символ ; встречается 1 раз. Частота 0.08%
Символ i встречается 1 раз. Частота 0.08%
Символ 4 встречается 1 раз. Частота 0.08%
Символ 6 встречается 1 раз. Частота 0.08%
Частотный анализ текста онлайн |
2013-05-16 07:24:49 |
Варламов Дмитрий |
Текст |
Онлайн частотный анализ произвольного текста на любом языке |
частотный, анализ, текст, количество, букв, цифр, пробелов
|