Закон Ципфа — первая математическая закономерность, связанная с исследованием языка. Она используется в лингвистике, инфометрии, а с недавних пор и в копирайтинге. В математике закон относится к одному из способов статистического распределения Парето. Именно благодаря этому параметру появилась возможность рассматривать тексты с точки зрения внутреннего устройства языка. Базируется он на частотности употребления определенных слов в контенте.
О чем идет речь?
- Что такое закон Ципфа?
- История возникновения закона Ципфа
- Каким должен быть текст по закону Ципфа?
- Что объединяет законы Ципфа и Парето?
- Значение закона Ципфа в копирайтинге
- Выводы
Что такое закон Ципфа?
В 1949 году ученый по имени Джордж Ципф заметил нечто интересное о словах. Он видел, что люди часто используют некоторые слова, а другие слова — почти никогда. Странные вещи в лингвистике: самое популярное слово используется вдвое чаще, чем второе по популярности, и втрое чаще, чем третье. Таким образом малая часть слов используется постоянно, а подавляющее большинство — очень редко.
И это касается не только лингвистики: Ципф обнаружил, что это правило действует в системе доходов людей в государстве: самый богатый человек имеет вдвое больше денег, чем следующий богач и так далее. Этот закон также действует в отношении размера городов. Город с самым большим населением в любом государстве вдвое больше, чем следующий по размеру город
Но сейчас сосредоточимся на копирайтинге.
Если все слова большого по объему текста упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется примерно обратно пропорциональной его порядковому номеру n, который также называют рангом. Второе по частоте употребления слово встречается примерно вдвое реже, чем первое, третье — втрое реже, чем первое, и т. д. Именно так действует закон Ципфа в лингвистике и в копирайтинге. Основная цель применения закона с точки зрения создания текстов для сайтов — умение распределить слова в статье таким образом, чтобы она читалась легко и звучала естественно.
Наверняка все мы встречали в интернете описания товаров или даже советы в информационных блогах с нагромождением ключевых слов, лишенные грамматической правильности и логической последовательности. Авторы таких статей не только переспамливают их и ухудшают ранжирование страниц в поисковой выдаче, но и игнорируют закон Ципфа, а значит, искусственно искажают контент, который из-за перенасыщения повторами и однокоренными словами только отталкивает посетителей сайта.
«Закон Ципфа демонстрирует, что в тексте, написанном естественным языком, существуют предсказуемые пропорции. Отклонения от типичных пропорций легко обнаружить. Таким образом, отметить переоптимизированный текст, который является «неестественным», не является сложной задачей». «How search engines understand human language», — Yauhen Khutarniuk
Для оценки текста на соответствие закону Ципфа можно использовать одну из формул:
- FR = C,
- F = C / R,
где F — количество раз использования слова, R — порядковый номер слова, C — количество раз использования слов, наиболее часто встречающихся в тексте.
Рассмотрим, как выполнять расчеты, на примере второй формулы: C/R=F.
Представим, что в одной из публикаций блога Marketing Link «Что такое LSI-копирайтинг и как он поможет в продвижении вашего сайта» использованы три основные ключевые фразы — «что такое LSI копирайтинг», «инструменты для сбора LSI-фраз» и «примеры LSI статей». Если первый ключевик был использован в тексте 10 раз, то частотность второго окажется примерно вдвое меньше, что можно рассчитать следующим образом:
- 10 (С) / 2 (R) = 5 (F)
Аналогично определяется частотность ключевого слова под третьим номером:
- 10 (С) / 3 (R) ≈ 3,3 (F)
Визуализация закона Ципфа имеет вид резко убывающей кривой, которая в нижней части графика является почти горизонтальной прямой. В ниспадающей части этой гиперболы находятся наиболее употребляемые слова, снизу — редко употребляемые.
Итак, самое распространенное слово или фраза в тексте встречается вдвое чаще, чем второе по частоте слово, втрое чаще, чем следующее по рангу слово и далее до наименее употребляемого.
Закон работает не только в лингвистике, он является универсальным. Если создать список городов Украины начиная от наиболее заселенного, то город с наибольшим населением в любой стране вдвое больше, чем следующий по размеру город и т. д. Принимая во внимание данные довоенного периода, первое место в таком рейтинге занимает Киев с населением 2 967 360 человек, второе — Харьков (1 443 207 человек). Если бы мы не имели данных о городе под вторым порядковым номером, но хотели бы самостоятельно определить численность его населения, сделать это можно было бы по той же формуле:
- 2 967 360 (С) / 2 (R) = 1 483 680 (F).
Цифра не вполне совпадает с реальным на 2020 год показателем, но является максимально к нему приближенной. Таким же путем можно было бы рассчитать количество жителей третьего по населенности города в Украине и далее по списку.
Закон Ципфа, рукопись Войнича и экономика
Благодаря закону реально определить факт наличия содержания в зашифрованном сообщении, что подтверждают многочисленные эмпирические исследования. Известно, что в результате статистического анализа Рукописи Войнича, написанной на неизвестном языке, было доказано, что произведение несет определенную информацию. Об этом свидетельствует естественная структура текста, повторяемость слов в котором соответствует закону Ципфа.
Идея Ципфа нашла применение в распределении различных систем в экономике и других науках. Если говорить о лингвистике, то его используют для изучения или совершенствования различных текстов и даже языков программирования Java, C и др. Исключение — китайский, японский и корейский языки с ограниченным размером словаря. Закон Ципфа действует только в индоевропейской языковой семье.
«Закон Ципфа — это гораздо больше, чем просто очередной странный лингвистический феномен». Из «Zipfs Law & Zipfian Distribution in SEO», презентации Dawn Anderson
Кстати, показатели охвата и количества лайков в социальных сетях также подлежат закону Ципфа. Если самый популярный пост на странице блогера получил 500 лайков, вероятно, на втором месте будет публикация с около 250-ю «сердцами». Закономерность наблюдается в экономике, маркетинге и различных социальных и коммерческих процессах.
История возникновения закона Ципфа
Первооткрывателем закономерности расположения слов и фраз является французский стенографист Жан-Батист Эсту. В 1908 г. он описал свою теорию в работе «Диапазон стенографии».
«Стенография или скоропись — скоростное письмо, для которого характерна запись короткими знаками и сокращениями, что позволяет синхронно записать устную речь». «Стенография», Википедия
Свое первое практическое применение закон нашел в 1913 г. в работе Феликса Ауэрбаха “Закон концентрации населения». В ней немецкий физик описал естественные правила распределения городов по размерам.
В 1949 г. американский лингвист Джордж Ципф предложил применять свой закон для статистических исследований в области экономики и социологии и в процессе написания статей. В качестве примера он описал универсальное распределение доходов людей, которое рассчитывалось по формуле FR = C или F = C / R.
Самый богатый человек в стране имеет вдвое больше денег, чем тот, который занял второе место в списке богачей, третий имеет втрое меньше средств от первого и т. д. С 1926 по 1936 гг. закономерность подтвердилась в Англии, Франции, Дании, Голландии, Финляндии, Германии и США.
Стоит отметить, что Ципф изучал закон, позже названный его фамилией, и занимался его популяризацией в процессе совершенствования методики преподавания иностранного языка. Он сделал вывод о том, что для владения языком нужно знать наиболее распространенные слова. Только после этой базы можно осваивать дополнительную лексику, которая служит больше для украшения письменной и устной речи. Изучение любого языка по алфавитным словарям невозможно — только по частотным, которые появились относительно недавно — в начале XX века.
С 1932 года, в период преподавательской деятельности в Гарвардском университете, Джордж Ципф заинтересовался вопросом частотности употребления слов в языке. При сравнении особенностей распределения слов в китайском и латинском языках ученый вместе со своими студентами определил, что произведение частоты встречаемости слова и его позиции в частотном словаре является почти постоянной величиной. Значение этой константы зависит от конкретного языка.
Закон Ципфа используется в инфометрии — науке о математических, статистических методах и моделях, в частности выявлении самих закономерностей. Французско-американский математик Бенуа Мандельброт считал, что увеличение количества слов во время коммуникации делает ее более длительной, однако одновременно уменьшает вероятность ошибки при передаче сообщения. Благодаря более детальному информированию исчезает необходимость в уточнениях и повторениях, что в результате все же экономит время на обмен данными. Таким образом ученый растолковал закон Ципфа с точки зрения передачи информации.
Каким должен быть текст по закону Ципфа?
Любую статью можно проверить на соответствие закону Ципфа, используя специальные онлайн-сервисы или методом подсчета вручную, используя таблицы Excel.
Если результаты проверки показывают, что слово первого ранга встречается 30 раз, второго — 29, а третьего — 20, стоит вернуться к редактированию текста. Вероятно, в нем слишком много повторов определенных слов. Ведь по Ципфу количество вхождений второго слова должно быть не более 15, а третьего — до 10-ти раз.
Учитывайте, что высокая оценка текста по Ципфу не является единственным и определяющим критерием его качества. Иногда из-за чрезмерных изменений статьи для соответствия закону она теряет свою читабельность. Однако контент в первую очередь должен быть понятным и ценным для читателей. Технические показатели всегда остаются на втором месте.
Как улучшить текст, следуя закону Ципфа?
- Подберите набор синонимов к каждому ключевому слову, используйте их вместо повторов и однокоренных.
- В коммерческих текстах не злоупотребляйте словами «купить», «цена», «акция» и т. д.
- Сведите к минимуму использование канцеляризмов, штампов, «заезженных» фраз, которые можно встретить едва ли не на каждом втором сайте.
- Не лейте воду для увеличения объема текста. Давайте читателям больше фактов, статистики, уникальных историй.
- Разбавляйте текст изображениями, видеороликами, инфографикой, графиками и таблицами.
- Как можно полнее раскрывайте тему, для подготовки статьи изучайте более 10 источников и избегайте рерайтинга без глубокого понимания вопросов, которые описываете. Концентрируйте внимание не на ключевых словах для поисковой оптимизации, а на LSI-ключевиках, которые полезны и для ранжирования страниц, и для качества контента.
- Следите за структурой, не забывайте об абзацах, маркированных или нумерованных списках, заголовках и подзаголовках.
- Пользуйтесь чатом GPT только как справочником, не копируйте контент из генератора для публикации на сайте.
- По возможности пишите тексты объемом от 5 тыс. знаков без пробелов. Метод анализа по Ципфу чаще всего используют для лонгридов с большим количеством ключевых слов.
Лучше подготовиться к написанию насыщенного богатой лексикой текста с качественной расстановкой ключевых слов, чем редактировать статью после проверки. Для этого заранее определите, какие слова должны употребляться чаще всего. Они должны быть релевантными запросам целевых посетителей сайта. Отталкиваясь от этого, сформируйте списки слов, семантически связанных с основной темой.
«Семантические модели хорошо улавливают синонимы, родственные слова и семантические фреймы. Семантический фрейм — это набор слов, которые обозначают перспективы или участников определенного типа событий. Например, семантический фрейм «чай в 5 часов» может включать «традиции», «чай», «чашка», «чайник», «ложка», «сахар», «напиток», «заварка» и т.д.
При создании свежего контента может быть полезно мыслить в измерении семантических фреймов. То есть имейте в виду семантический фрейм, по которому вы хотите, чтобы ваша страница ранжировалась, а не конкретное ключевое слово».
«How search engines understand human language», — Yauhen Khutarniuk
Что объединяет законы Ципфа и Парето?
С точки зрения математической статистики закон Ципфа является разновидностью распределения Парето. Итальянский инженер, экономист и социолог Вильфредо Парето сформулировал правило «20 к 80»: 80% любого результата требует 20% усилий, в то же время 80% усилий могут быть направлены на то, чтобы завершить оставшиеся 20% работы.
80% прибыли приносят 20% клиентов — эта закономерность закон Парето хорошо известна в маркетинге и торговле. Если говорить об этом соотношении в лексическом наполнении текстов, то примерно на 20% слов в языке приходится 80% случаев их употребления.
Простыми словами, определенная группа популярных слов используются часто, а большая часть словарного запаса употребляется очень редко. Это не касается функциональных слов без семантического значения, поскольку они не раскрывают суть текста.
Слова в тексте можно разделить на три категории
- Вспомогательные. Служебные части речи, которые употребляются часто, но не учитываются поисковыми роботами.
- Случайные. Встречаются довольно часто, не описывают тему статьи, почти не влияют на SEO.
- Важные. Встречаются по сравнению с первыми двумя пунктами редко, являются определяющими в идентификации поисковиками темы веб-страницы, воспринимаются ими как ключевики.
Важные слова составляют около 20% текста, при этом они на 80% отвечают за содержание и продвижение контента. Они делают текст понятным для Google, тогда как остальные 80% служат исключительно для читателей. Именно для этих слов стоит формировать семантические фреймы и подбирать синонимы.
📌 Читайте в блоге: Как посчитать показатели ROI, ROAS и ROMI
Значение закона Ципфа в копирайтинге
Закон Ципфа важен для копирайтеров, маркетологов и SEO-специалистов. Он тесно связан с показателем заспамленность, соответственно, с качеством текста.
Анализ статьи на соответствие закону Парето помогает избежать неправильного использования ключевых фраз.
И хотя частотность употребления важных слов имеет большое значение для оценки текста, закономерность не влияет на определенные аспекты копирайтинга.
- Содержание текста. В первую очередь это касается литературных произведений. Многие из них не соответствуют закономерностям Ципфа вследствие использования художественных средств, при этом они не теряют читабельности и естественности.
- Профессионализм автора. Не все тексты, которые соответствуют закону Ципфа на 50 и более процентов, являются правильно написанными. Грамматические ошибки, неуместные формулировки, копипаст со сторонних ресурсов – все это негативно влияет на восприятие текста поисковиками и посетителями сайта, даже если в статье нет повторов.
- Уникальность статьи. На 100% оригинальный текст может иметь низкие показатели по Ципфу. Помните, что ценность контента заключается прежде всего в полезности для читателей, поэтому не стоит пренебрегать другими критериями качества ради идеальной частотности слов в тексте.
- Продвижение сайта. Хотя заспамленность ухудшает ранжирование веб-ресурса, на первой странице выдачи Google могут оказаться статьи с низкими оценками по Ципфу.
Закон позволяет контролировать количество стоп-слов. В результате, он позволяет убедиться в логической последовательности ключей и уменьшить численность повторов, которые раздражают читателей и повышают семантический показатель «тошноты» текста.
Недаром в технических заданиях для копирайтеров часто можно встретить требование использовать несколько раз именно первое ключевое слово. Обычно оно входит в первый абзац текста (а иногда еще и в последний), в заголовок Title и описание Descriptor. Набор из шести ключевых запросов — это прекрасно. Однако самым эффективным является первый ключевик, вдвое меньший результат даст второй, втрое меньший — третий и т. д. Индекс эффективности ключевых слов (KEI) соотносится с основным положением закона Ципфа.
📌 Читайте в блоге: ChatGPT: как пользоваться и чего опасаться
Выводы
Лингвостатистический закон Ципфа — закономерность, согласно которой отношение ранга слова в частотном словаре к частотности слова в речи и письме составляет постоянную величину (константу).
Это правило распространяется на различные области деятельности человека, в частности, на экономические и социологические явления. В лингвистике закон нашел применение в ХХ веке. Согласно ему, самое популярное слово в тексте или в языке в целом встречается вдвое чаще, чем второе по популярности, втрое чаще, чем третье.
Для современных текстов закономерность играет важную роль, ведь помогает копирайтерам, маркетологам и SEO-специалистам создавать читабельные, интересные и уникальные статьи, написанные простым языком.
В отличие от стратегии SEO, в основе которой лежит использование как можно большего количества ключевых слов, принцип написания статей по закону Ципфа заключается в поиске и употреблении наиболее популярных и релевантных теме страницы ключевых слов.