Закон ципфа онлайн
Анализ и оценка удобочитаемости и естественности текста
Описание
Сервис позволяет определить такие качественные показатели текста как удобочитаемость и естественность.
Удобочитаемость текста
Данный параметр раскрывается через два индекса: фог-индекс и индекс Флеша.
Фог-индекс (Индекс туманности Ганнинга)
Фог-индекс обычно используется для подтверждения легкости чтения предполагаемой аудиторией. Тексты для широкой аудитории, как правило, требуют индекса туманности менее 12, тексты для детей нуждаются в индексе менее 8. Научные публикации имеют индекс 20 и выше, такие тексты очень трудно понять без специальной подготовки.
В нашем сервисе данный коэффициент рассчитывается с некоторыми особенностями:
Для расчета используются все слова, а не выборка из 100 слов.
Учитываются сложносочинённые предложения, они считаются за два предложения.
Используется поправочный коэффициент 0,78 для русских текстов.
При подсчете сложных слов не учитываются составные слова и имена собственные, а глаголы ставятся в начальную форму. Сложные слова — это слова из трёх или более слогов.
Индекс Флеша
Еще один индекс для определения сложности восприятия текста. Изначальная формула применяется для английского языка, в нашем сервисе используется адаптированная версия для русского языка.
Индексы удобочитаемости имеют ограничения, так как на трудность восприятия сильнее всего оказывают влияние семантика и абстрактность текста.
Естественность текста
Следующая группа показателей позволяет сделать оценку текста с точки зрения злоупотреблений ключевыми словами и фразами, которые могут повлиять на признание текстов поисковым спамом.
Общая естественность текста по Ципфу
Данный показатель рассчитывается по закону Ципфа. Частотность слов в тексте распределяется по статистическому закону — то есть обратно пропорционально рангу в тексте (ранг — это порядковый номер слова в списке, который составлен по убыванию частотности слов в тексте).
Общая естественность расшифровывается подробной таблицей, где показывается ранг слов в тексте, их частотность и отклонения от нормы. Даны рекомендации о необходимых изменениях в тексте для увеличения его естественности. Если данный показатель больше 50, то текст вполне естественный. Желательно поднимать данный показатель до 80 или выше.
Академическая тошнота
Данный показатель рассчитывается по всем часто повторяющимся словам, показывает общую загруженность текста повторами слов. При написании текстов, не рекомендуется превышать данный показатель выше 40%.
Классическая тошнота
В отличие от предыдущего показателя, данный рассчитывается по одному, самому часто повторяемому слову. Желательно писать тексты с показателем ниже 7, а лучше ниже 3.
Также в сервисе «Анализ и оценка удобочитаемости и естественности текста» приводятся общие статистические показатели текста, которые используются при расчетах.
Как закон Ципфа влияет на место страницы в выдаче
Студентка курса «Основы копирайтинга» Юлия Хлебко рассказала, что такое закон Ципфа, проверила тексты из выдачи и объяснила, стоит ли применять правило на практике.
Что такое закон Ципфа
Сложно. Закономерность распределения частоты слов естественного языка. Если все слова языка или длинного текста упорядочить по убыванию частоты использования, частота n-го слова в списке окажется обратно пропорциональной его порядковому номеру n.
Просто. Самое распространенное слово в тексте встречается:
- в два раза чаще, чем второе по частоте слово;
- в три раза чаще, чем следующее слово;
- и далее до наименее частого.
Зачем применяют закон Ципфа
В лингвистике. Закон использовали для описания разных данных, например, доходов населения и распределения роста городов. Джозеф Ципф применил его, чтобы проанализировать распространенность слов в английском языке.
В SEO. Правило используют, чтобы проверить естественность SEO-текстов. Предполагается, что в естественной речи частота слов соответствует закону Ципфа. Если повторы слов в тексте для продвижения не соответствуют пропорции, статья неестественная. Поисковой робот может расценить ее как заспамленную и понизить в выдаче.
Работает ли закон Ципфа на практике
Дано:
- первый текст из поисковой выдачи;
- 39 текст в поиске;
- контрольный текст Максима Ильяхова.
Инструменты:
Результаты
Первый текст из выдачи
miratext.ru — 67%
pr-сy.ru/zypfa — 83%
seоlik.ru/zipfa — 61%
39-й текст из выдачи
miratext.ru — 56%
pr-сy.ru/zypfa — 84%
seоlik.ru/zipfa — 53%
Контрольный текст Максима Ильяхова
miratext.ru — 52%
pr-сy.ru/zypfa — 85%
seоlik.ru/zipfa — 54%
Нужно ли подгонять тексты по закону Ципфа
Показатели первого, 39-го текста и статьи Максима Ильяхова при проверке в одном сервисе отличаются несущественно. Зато результаты разных инструментов отличаются почти в два раза. Ни один сервис не дает объяснения проверки, алгоритмы подсчета тоже остаются неизвестными.
Поэтому закон Ципфа не стоит рассматривать как панацею, которая поможет вывести текст в топ. Инструмент можно использовать для проверки, но бездумно подгонять под него статью неэффективно. Вместо этого целесообразнее уделить внимание качеству текста в целом:
- убрать словесный мусор — воду, повторы, отклонения от темы, штампы, канцеляризмы;
- проработать структуру — написать текст так, чтобы читателю было легко в нем ориентироваться и понимать;
- заменить общие рассуждения фактами, статистикой;
- добавить скриншоты, иллюстрации ваших слов, схемы и другую графику, которая сделает текст нагляднее;
- написать текст с пользой — подробно раскрыть тему, чтобы у читателя не осталось вопросов.
Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.
SEO-анализ текста:
Подсчет слов в тексте и количество знаков.
Счетчик символов: подсчет количества знаков и слов в тексте онлайн.
Счетчик позволяет, без дополнительных действий, посчитать число слов в тексте, а также количество символов с пробелами и без них.
Семантический анализ онлайн позволяет провести расширенное исследование текста.
На Семантический анализ принимается текст длиной от 100 слов до 10 000 символов не содержащий HTML код.
Данный сервис является частью инструмента SEO Анализа страницы сайта и не имеет возможности по обработки HTML кода.
Определение заспаммености «Водности» текста:
Процентное определение от общего количества слов и слов отфильтрованных по нашей базе стоп-слов которые не несут смысловой нагрузки в статье.
Определение «Тошноты» Заспамленность текста:
Классическая тошнота: . Стоит придерживаться рамок от 3 до 7
Академическая тошнота: Оптимальным показателем будет от 4 до 7
Заспамленность текста: превышение ключевых слов к общему текста
Анализ текста по закону Ципфа
Качество естественности текста рассчитывается по количеству частых повторов слов или групы слов упорядоченные по уменьшению частоты их использования.
Закон Ципфа («ранг—частота») — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. ( Материал из Википедии ).
- Слово — слово или словоформы
- Повторов — количество найденное в тексте
- По Ципфу — величина согласно Ципфу
- Соответствие — процентное отношение количества повторов и норме по Ципфу
- Плотность — процентное отношение к общему количеству слов ( без стоп-слов )
- Рекомендации — добавить или убавить количество вхождений
Сводная таблица статистики текста.
СТАТИСТИКА ТЕКСТА: Всего символов, Без пробелов, Количество слов, Естественность текста, Заспамленность, Вода, Уникальных слов, Ключевых слов, Стоп-слов.
ПОДСВЕТКА: Выделение воды и заспаменности в тексте — визуально помогает определить вхождение частоты слов в статье и делает интерактивным и понятным для анализа.
Сервис носит исключительно информационный и ознакомительный характер.
Закон Ципфа
Среди критериев оценки качества текста основным считается его естественность. Проверку этого показателя можно провести с помощью математического метода, который обнаружил американский лингвист Джордж Ципф.
Проверка по закону Ципфа — это метод оценки естественности текста, определяющие закономерность расположения слов, где частота слова обратно пропорциональна его месту в тексте.
Первый закон Ципфа «ранг — частота»
Второй закон Ципфа «количество — частота»
Проверить SEO-текст на естественность нужно обязательно, если при написании использовались ключевые слова, чтобы он был интересным и понятным для большой аудитории читателей. Также этот показатель имеет значение при ранжировании сайтов поисковыми системами, которые определяют соответствие текста ключевым запросам, распределяя слова по группам важных, случайных и вспомогательных.
- Зависимость между частотой встречаемости слова в тексте f, и его местом в частотном словаре (рангом) r, обратно пропорциональная. Чем больше ранг слова (чем дальше оно находится от начала словаря), тем меньше частота его встречаемости в тексте.
- График такой зависимости — гипербола, которая при небольших значениях рангов очень резко спадает, а затем, в области малых значений частоты встречаемости, f, тянется очень далеко, постепенно, но очень незаметно, уменьшаясь по мере роста ранга, r.
- Если частота встречаемости одного слова 4 на миллион, а частота другого — 3 на миллион, не имеет значения, что ранги этих слов различаются в тысячу раз. Эти слова употребляются настолько редко, что многие носители языка их даже не слышали.
- Однако эта дальняя область примечательна тем, что слово, находящееся здесь, может очень легко многократно уменьшить значение своего ранга. Даже самое маленькое увеличение частоты встречаемости слова резко сдвигает его положение к началу частотного словаря.
- В терминах этого закона мерой популярности слова является его положение в частотном словаре языка. Более популярное слово находится ближе к началу словаря, чем менее популярное.
- Он отражает зависимость частоты использования слова в языке от его места в частотном словаре. Популярные слова языка употребляются чаще. С математической точки зрения, график этой зависимости является гиперболой с резким подъемом по мере приближения к началу координат и длинным, пологим, почти горизонтальным, «хвостом». БОльшая часть слов языка размещается именно в этом «хвосте». Здесь место слова в частотном словаре, если и изменяет частоту использования этого слова в языке, то совсем не на много.
- Но как только положение слова в частотном словаре достигает того места на гиперболе, где по мере приближения к началу координат начинается существенный подъем кривой, ситуация изменяется. Теперь небольшое изменение частоты встречаемости слова уже не приводит к значительным изменениям его ранга, то есть положение слова в частотном словаре перестает изменяться. Значит, рост популярности слова затормозился. Для того, чтобы он продолжался, следует предпринять специальные меры для того, чтобы повысить частоту встречаемости слова. Например, если слово – название товара, необходимо потратить средства на рекламную компанию (источник: http://www.proza.ru/2016/11/05/859)
Провести проверку естественности текста Вы сможете в нашем приложении «Анализ текста».
Рекомендуем посмотреть видео по теме.
Увеличиваем естественность текста по закону Ципфа
Всем привет! В последнее время все чаще от коллег слышу о требовании в ТЗ оценивать качество текста по закону Ципфа. И далеко не все понимают, как нужно редактировать текст под этот закон. В сегодняшней статье попробую рассказать, как наиболее простым способом улучшить параметр, а также уточню почему хорошим авторам на самом деле это не нужно.
Определить качество текста по закону Ципфа можно по нескольким сервисам. Но, наиболее адекватным я считаю PR-CY, тут сочетается правильная формула с простым и понятным интерфейсом. Именно его я и использовал при подготовке этого материала.
Что такое закон Ципфа
Для начала стоит разобраться, что это такое. Если верить Википедии, сформулировал эту закономерность в 1908 году Жан-Батист Эсту, первоначально относился этот закон к стенографии. Первое известное широкой общественности применение закономерности относится к демографии, а точнее к распределению численности населения в городах, использовал ее Феликс Ауэрбах.
Современное название закономерность получила в 1949 году благодаря лингвисту Джорджу Ципфу. Он показал с ее помощью градацию распределения богатства среди населения. И только потом закон стали применять для определения читабельности текстов.
Как рассчитывается
Чтобы правильно использовать этот закон нужно понимать, как он работает. Разберем формулу для расчета.
FR=C
- F – частота использования слова;
- R – порядковый номер;
- C – постоянная величина (число обозначающее самое большое по количеству повторов слово).
На практике более удобной оказывается другая формула, она выглядит понятнее.
F=C/R
Удобнее такой подход так как у нас есть данные по числу повтора максимально распространенного слова. Именно от этого количества и отталкиваются.
Если упростить, то в нашем тексте второе по повторяемости слово должно встречаться в два раза реже, чем первое. Идущее на третьем месте, в три раза и так далее.
Пример подгонки текста
С теорией немного разобрались. Осталось разобраться с практикой. В качестве подопытного текста взял статью из Т-Ж. Почему именно оттуда? Все просто. На текущий момент это один из лучших образчиков любимого многими инфостиля. Ну, и было интересно, что покажет текст, написанный под руководством Максима Ильяхова. Скажу сразу, тексты по этому показателю на уровне, хотя, перелопатив более 40 сайтов вообще не нашел ни одной статьи с плохой естественностью. Также, сразу забегу вперед и скажу, что подопытный текст после подгонки стал намного хуже, несмотря на улучшенный показатель по Ципфа, не стоит сильно заморачиваться по чрезмерному повышению естественности.
Вот что нам показал анализатор после проверки.
Разберем, что там указано. Как видим есть столбец со словами, а также непонятные цифры. В столбце «вхождения» (1) указано сколько раз встречаются словоформы в тексте. В столбце «по Ципфу» (2) рекомендованное количество вхождений. Маркерами 3 и 4 помечены идеальные показатели для второй и третьей позиции. Также стоит обратить внимание на рекомендации, здесь указано сколько слов нужно убрать для достижения идеального сочетания.
Для большего понимания разберем, что насчитал анализатор. За основу возьмем цифру 39 (C), также нам понадобится порядковый номер, обратим внимание на 2 (F) позицию. Берем формулу.
F=C/R
F=39/2=19,5
Округляем в большую сторону и получаем 20, это и будет необходимым количеством вхождений. Что подтверждает и анализатор. У нас же второе по популярности слово употребляется 28 раз, соответственно 8 повторов нужно будет удалить или заменить.
Разобравшись с принципом работы закона начинаем редактировать. Для этого удаляем или заменяем на синонимы слова, у которых больше вхождений, чем это требуется по Ципфа. В результате получаем вот такую картину.
Как видите, мне удалось увеличить показатель с 83% до 88%. Но, при этом значительно пострадало качество текста. Не стоит стремиться к увеличению этого показателя до 100%. По факту, если у вас уже есть 75%, это отлично и дальше извращаться не стоит.
Уделяйте внимание не только первым строчкам. Начинайте подгонку с последних позиций в списке, они зачастую оказывают большее влияние на общий показатель, чем первый десяток слов.
Ципфа и SEO
Теперь перейдем к тому, зачем требуется знание этой закономерности копирайтеру. Сеошники заказывая тексты стремятся сделать их наиболее удобными для поисковых систем. Считается (правда, непонятно кем), что закон Ципфа активно используется поисковыми алгоритмами. Доказать или опровергнуть это утверждение сложно. Никаких вменяемых исследований и экспериментов на эту тему мне найти не удалось.
Решил проверить самостоятельно. Для этого взял выдачу по такому конкурентному запросу «пластиковые окна», в Яндексе бралась московская выдача, в Гугле пришлось поколдовать, и он меня вроде тоже определил, как жителя столицы (по крайней мере рекламу мне показал с московской геолокацией). Брал первую страницу выдачи, плюс 49 место. Получилась вот такая табличка.
Если посмотреть внимательнее, можно обратить внимание, в Яндексе выдача более ровная, если смотреть на исследуемую нами закономерность. Но, при этом более высокий показатель не гарантирует победы в борьбе за первое место в топе.
На основании этого можно сказать, если поисковики и применяют данный закон, является он только одним из факторов. И не основным.
Выводы
Ну, вот и все. Теперь вы знаете, что такое качество текста по закону Ципфа, а также можете корректировать этот показатель. На самом деле тут нет ничего сложного, все достаточно просто. Достаточно один раз понять принцип работы этой закономерности.
7 thoughts on “ Увеличиваем естественность текста по закону Ципфа ”
Спасибо за статью, интересно было ознакомиться! Только у меня скриншоты проверки почти не увеличиваются, сложно разобрать, что там написано, даже цифры (((
И тут это… заинтриговали проверкой текста МИ, а насколько изменилось абстрактное качество — непонятно… Хотелось бы пример, хоть огрызочек какой-нибудь…
- roman tarasov Post author 01.03.2018 at 04:21
Скрины поправил, но видимо из-за всех манипуляций все равно немного мутно получилось. Выкладывать кусочки не буду, ибо у меня нет договоренности с Максом на такое использование его текстов. Могу привести пример, мне пришлось убрать практически все упоминания о коллекторах, в итоге из текста понятно, что проблемы возникают с какими-то людьми, но непонятно кто они.
Привет, спасибо очень интересная статья. Только тоже не видно скриншотов (((
- roman tarasov Post author 01.03.2018 at 04:22
О, а я, оказывается, с этим сталкивалась. Только ни про какой закон не указывалось, просто во время проверки рекомендовали снизить или увеличить количество определенных слов :))))
- roman tarasov Post author 01.03.2018 at 04:22
Это сейчас частая фишка.
расскажу вам секрет, как сеошник. Берете сервис Миратекст семантический анализ и меняете текст, пока облако тегов не покажет ключи жирными и ципфа от 55% и выше) Это хорошо.
Добавить комментарий Отменить ответ
Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.