Закон Ципфа — перша математична закономірність, що пов’язана із дослідженням мови. Вона використовується у лінгвістиці, інфометрії, а віднедавна і у копірайтингу. У математиці закон належить до одного зі способів статистичного розподілу Парето. Саме завдяки цьому параметру з’явилася можливість розглядати тексти з точки зору внутрішнього устрою мови. Базується він на частотності вживання певних слів у контенті.
Про що йде мова?
- Що таке закон Ципфа?
- Історія виникнення закону Ципфа
- Яким має бути текст по закону Ципфа?
- Що поєднує закони Ципфа і Парето?
- Значення закону Ципфа у копірайтингу
- Висновки
Що таке закон Ципфа?
У 1949 році вчений на ім’я Джордж Ципф помітив щось цікаве про слова. Він бачив, що люди часто використовують деякі слова, а інші слова — майже ніколи. Дивні речі у лінгвістиці: найпопулярніше слово використовується вдвічі частіше, ніж друге за популярністю, і втричі частіше, ніж третє. Таким чином мала частина слів використовується постійно, а переважна більшість — дуже рідко.
І це стосується не тільки лінгвістики: Ципф виявив, що це правило діє в системі прибутків людей у державі: найбагатша особа має вдвічі більше грошей, ніж наступний багатій і так далі. Цей закон також діє стосовно розміру міст. Місто з найбільшим населенням у будь-якій державі вдвічі більше, ніж наступне за розміром місто
Але зараз зосередимося на копірайтингу.
Якщо всі слова великого за обсягом тексту впорядкувати за зменшенням частоти їхнього використання, то частота n-го слова в такому списку виявиться приблизно обернено пропорційною до його порядкового номера n, який також називають рангом. Друге за частотою вживання слово трапляється приблизно вдвічі рідше, ніж перше, третє — втричі рідше, ніж перше, і т. д. Саме так діє закон Ципфа у лінгвістиці та у копірайтингу. Основна ціль застосування закону з точки зору створення текстів для сайтів — вміння розподілити слова у статті таким чином, щоб вона читалася легко і звучала природньо.
Напевно всі ми зустрічали в інтернеті описи товарів чи навіть поради в інформаційних блогах із нагромадженням ключових слів, позбавлені граматичної правильності та логічної послідовності. Автори таких статей не лише переспамлюють їх та погіршують ранжування сторінок у пошукові видачі, але й ігнорують закон Ципфа, а отже, штучно спотворюють контент, який через перенасичення повторами і спільнокореневими словами лише відштовхує відвідувачів сайту.
«Закон Ципфа демонструє, що в тексті, написаному природною мовою, існують передбачувані пропорції. Відхилення від типових пропорцій легко виявити. Таким чином, відмітити переоптимізований текст, який є «неприродним», не є складним завданням». «How search engines understand human language», — Yauhen Khutarniuk
Для оцінки тексту на відповідність закону Ципфа можна використовувати одну із формул:
- FR = C,
- F = C / R,
де F — кількість разів використання слова, R — порядковий номер слова, C — кількість разів використання слів, що найчастіше зустрічаються в тексті.
Розглянемо, як виконувати розрахунки, на прикладі другої формули: C/R=F.
Уявімо, що у одній із публікацій блогу Marketing Link «Що таке LSI-копірайтинг і як він допоможе в просуванні вашого сайту» використані три основні ключові фрази — «що таке LSI копірайтинг», «інструменти для збору LSI-фраз» та «приклади LSI статей». Якщо перший ключовик був використаний у тексті 10 разів, то частотність другого виявиться приблизно вдвічі меншою, що можна розрахувати наступним чином:
- 10 (С) / 2 (R) = 5 (F)
Аналогічно визначається частотність ключового слова під третім номером:
- 10 (С) / 3 (R) ≈ 3,3 (F)
Візуалізація закону Ципфа має вигляд кривої, що різко спадає і в нижній частині графіка є майже горизонтальною прямою. У спадаючій частині цієї гіперболи знаходяться найбільш уживані слова, знизу — рідковживані.
Отже, найпоширеніше слово або фраза у тексті трапляється вдвічі частіше, ніж друге за частотою слово, втричі частіше, ніж наступне за рангом слово і далі до найменш вживаного.
Закон працює не лише у лінгвістиці, він є універсальним. Якщо створити список міст України починаючи від найбільш заселеного, то місто з найбільшим населенням у будь-якій країні вдвічі більше, ніж наступне за розміром місто і т. д. Беручи до уваги дані довоєнного періоду, перше місце в такому рейтингу займає Київ із населенням 2 967 360 чоловік, друге — Харків (1 443 207 чоловік). Якби ми не мали даних про місто під другим порядковим номером, але хотіли б самостійно визначити чисельність його населення, зробити це можна було б за тією ж формулою:
- 2 967 360 (С) / 2 (R) = 1 483 680 (F).
Цифра не цілком співпадає з реальним на 2020 рік показником, але є максимально до нього наближеною. Таким же шляхом можна було б розрахувати кількість жителів третього за населеністю міста в Україні і далі по списку.
Закон Ципфа, рукопис Войніча та економіка
Завдяки закону реально визначити факт наявності змісту у зашифрованому повідомленні, що підтверджують численні емпіричні дослідження. Відомо, що в результаті статистичного аналізу Рукопису Войнича, написаного невідомою мовою, було доведено, що твір несе певну інформацію. Про це свідчить природна структура тексту, повторюваність слів у якому відповідає закону Ципфа.
Ідея Ципфа знайшла застосування в розподілі різноманітних систем у економіці та інших науках. Якщо говорити про лінгвістику, то його використовують для вивчення чи вдосконалення різноманітних текстів і навіть мов програмування Java, C і ін. Виняток — китайська, японська та корейська мови з обмеженим розміром словника. Закон Ципфа діє лише в індоєвропейській мовній сім’ї.
«Закон Ципфа — це набагато більше, ніж просто черговий дивний лінгвістичний феномен». Із «Zipfs Law & Zipfian Distribution in SEO», презентації Dawn Anderson
До речі, показники охоплення та кількості лайків у соціальних мережах також підлягають закону Ципфа. Якщо найпопулярніший пост на сторінці блогера отримав 500 вподобайок, імовірно, на другому місці буде публікація із близько 250-ма «серцями». Закономірність спостерігається в економіці, маркетингу і різноманітних соціальних та комерційних процесах.
Історія виникнення закону Ципфа
Першовідкривачем закономірності розташування слів та фраз є французький стенографіст Жан-Батист Есту. 1908 р. він описав свою теорію у роботі «Діапазон стенографії».
«Стенографія або скоропис — швидкісне письмо, для якого характерний запис короткими знаками й скороченнями, що дає змогу синхронно занотувати усну мову». «Стенографія», Вікіпедія
Своє перше практичне застосування закон знайшов 1913 р. у праці Фелікса Ауербаха «Закон концентрації населення». У ній німецький фізик описав природні правила розподілу міст за розмірами.
У 1949 р. американський лінгвіст Джордж Ципф запропонував застосовувати свій закон для статистичних досліджень в галузях економіки та соціології та у процесі написання статей. У якості прикладу він описав універсальний розподіл доходів людей, що розраховувався за формулою FR = C або F = C / R.
Найбагатша людина у країні має вдвічі більше грошей, ніж та, що зайняла друге місце у списку багатіїв, третя має втричі менше коштів від першої і т. д. З 1926 по 1936 рр. Закономірність підтвердилася у Англії, Франції, Данії, Голландії, Фінляндії, Німеччині та США.
Варто зазначити, що Ципф вивчав закон, пізніше названий його прізвищем, та займався його популяризацією у процесі вдосконалення методики викладання іноземної мови. Він зробив висновок про те, що для володіння мовою потрібно знати найбільш поширені слова. Тільки після цієї бази можна освоювати додаткову лексику, яка служить більше для прикрашання писемної та усної мови. Вивчення будь-якої мови за алфавітними словниками неможливе — лише за частотними, які з’явилися відносно недавно — на початку XX століття.
З 1932 року, в період викладацької діяльності у Гарвардському університеті, Джордж Ципф зацікавився питанням частотності вживання слів у мові. Під час порівняння особливостей розподілу слів у китайській та латинській мовах науковець разом зі своїми студентами визначив, що добуток частоти зустрічальності слова і його позиції в частотному словнику є майже постійною величиною. Значення цієї константи залежить від конкретної мови.
Закон Ципфа використовується в інфометрії — науці про математичні, статистичні методи і моделі, зокрема виявлення самих закономірностей. Французько-американський математик Бенуа Мандельброт вважав, що збільшення кількості слів під час комунікації робить її тривалішою, однак водночас зменшує ймовірність помилки під час передачі повідомлення. Завдяки більш детальному інформуванню зникає необхідність в уточненнях та повтореннях, що в результаті все ж таки економить час на обмін даними. Таким чином вчений розтлумачив закон Ципфа з погляду передачі інформації.
Яким має бути текст по закону Ципфа?
Будь-яку статтю можна перевірити на відповідність закону Ципфа, використовуючи спеціальні онлайн-сервіси або методом підрахунку вручну, використовуючи таблиці Excel.
Якщо результати перевірки показують, що слово першого рангу зустрічається 30 разів, другого — 29, а третього — 20, варто повернутися до редагування тексту. Вірогідно, у ньому занадто багато повторів певних слів. Адже за Ципфом кількість входжень другого слова має бути не більшою за 15, а третього — до 10-ти разів.
Враховуйте, що висока оцінка тексту за Ципфом не є єдиним і визначальним критерієм його якості. Інколи через надмірні зміни статті для відповідності закону вона втрачає свою читабельність. Однак контент у першу чергу має бути зрозумілим і цінним для читачів. Технічні показники завжди залишаються на другому місці.
Як покращити текст, дотримуючись закону Ципфа?
- Підберіть набір синонімів до кожного ключового слова, використовуйте їх замість повторів та спільнокореневих.
- В комерційних текстах не зловживайте словами «купити», «ціна», «акція» і т. д.
- Зведіть до мінімуму використання канцеляризмів, штампів, «заїжджених» фраз, які можна зустріти чи не на кожному другому сайті.
- Не лийте воду для збільшення обсягу тексту. Давайте читачам більше фактів, статистики, унікальних історій.
- Розбавляйте текст зображеннями, відеороликами, інфографікою, графіками і таблицями.
- Якомога повніше розкривайте тему, для підготовки статті вивчайте понад 10 джерел та уникайте рерайтингу без глибокого розуміння питань, котрі описуєте. Концентруйте увагу не на ключових словах для пошукової оптимізації, а на LSI-ключовиках, які корисні і для ранжування сторінок, і для якості контенту.
- Слідкуйте за структурою, не забувайте про абзаци, марковані чи нумеровані списки, заголовки і підзаголовки.
- Користуйтеся чатом GPT лише як довідником, не копіюйте контент із генератора для публікації на сайті.
- За можливості пишіть тексти об’ємом від 5 тис. знаків без пробілів. Метод аналізу за Ципфом найчастіше використовують для лонгрідів з великою кількістю ключових слів.
Краще підготуватися до написання насиченого багатою лексикою тексту із якісною розстановкою ключових слів, аніж редагувати статтю після перевірки. Для цього заздалегідь визначте, які слова повинні вживатися найчастіше. Вони мають бути релевантними запитам цільових відвідувачів сайту. Відштовхуючись від цього, сформуйте списки слів, семантично пов’язаних із основною темою.
«Семантичні моделі добре вловлюють синоніми, споріднені слова та семантичні фрейми. Семантичний фрейм — це набір слів, які позначають перспективи або учасників певного типу подій. Наприклад, семантичний фрейм «чай о 5 годині» може включати «традиції», «чай», «чашка», «чайник», «ложка», «цукор», «напій», «заварка» тощо.
При створенні свіжого контенту може бути корисно мислити у вимірі семантичних фреймів. Тобто майте на увазі семантичний фрейм, за яким ви хочете, щоб ваша сторінка ранжувалася, а не конкретне ключове слово».
«How search engines understand human language», — Yauhen Khutarniuk
Що поєднує закони Ципфа і Парето?
З точки зору математичної статистики закон Ципфа є різновидом розподілу Парето. Італійський інженер, економіст і соціолог Вільфредо Парето сформулював правило «20 до 80»: 80% будь-якого результату потребує 20% зусиль, водночас 80% зусиль можуть бути спрямовані на те, щоб завершити решту 20% роботи.
80% прибутку приносять 20% клієнтів — цією закономірністю закон Парето добре відомий у маркетингу та торгівлі. Якщо говорити про це співвідношення у лексичному наповненні текстів, то приблизно на 20% слів у мові припадає 80% випадків їх вживання.
Простими словами, певна група популярних слів використовуються часто, а більша частина словникового запасу вживається дуже рідко. Це не стосується функціональних слів без семантичного значення, оскільки вони не розкривають суть тексту.
Слова у тексті можна поділити на три категорії
- Допоміжні. Службові частини мови, які вживаються часто, але не враховуються пошуковими роботами.
- Випадкові. Зустрічаються досить часто, не описують тему статті, майже не впливають на SEO.
- Важливі. Зустрічаються порівняно із першими двома пунктами рідко, є визначальними в ідентифікації пошуковиками теми веб-сторінки, сприймаються ними як ключовики.
Важливі слова становлять близько 20% тексту, при цьому вони на 80% відповідають за зміст та просування контенту. Вони роблять текст зрозумілим для Google, тоді як інші 80% служать виключно для читачів. Саме для цих слів варто формувати семантичні фрейми та підбирати синоніми.
📌 Читайте в блозі: Як назвати магазин одягу
Значення закону Ципфа у копірайтингу
Закон Ципфа важливий для копірайтерів, маркетологів та SEO-спеціалістів. Він тісно пов’язаний із показником заспамленості, відповідно, із якістю тексту.
Аналіз статті на відповідність закону Парето допомагає уникнути неправильного використання ключових фраз.
І хоча частотність вживання важливих слів має велике значення для оцінки тексту, закономірність не впливає на певні аспекти копірайтингу.
- Зміст тексту. В першу чергу це стосується літературних творів. Багато з них не відповідають закономірностям Ципфа внаслідок використання художніх засобів, при цьому вони не втрачають читабельності та природності.
- Професіоналізм автора. Не всі тексти, які відповідають закону Ципфа на 50 чи більше відсотків, є правильно написаними. Граматичні помилки, недоречні формулювання, копіпаст із сторонніх ресурсів — все це негативно впливає на сприйняття тексту пошуковиками і відвідувачами сайту, навіть якщо у статті немає повторів.
- Унікальність статті. На 100% оригінальний текст може мати низькі показники за Ципфом. Пам’ятайте, що цінність контенту полягає передусім у корисності для читачів, тому не варто нехтувати іншими критеріями якості заради ідеальної частотності слів у тексті.
- Просування сайту. Хоча заспамленість погіршує ранжування веб-ресурсу, на першій сторінці видачі Google можуть опинитися статті з низькими оцінками за Ципфом.
Закон дає змогу контролювати кількість стоп-слів. Він дозволяє впевнитися у логічній послідовності ключів і зменшити чисельність повторів, які дратують читачів та підвищують семантичний показник «нудоти» тексту.
Недаремно у технічних завданнях для копірайтерів часто можна зустріти вимогу використовувати кілька разів саме перше ключове слово. Зазвичай воно входить у перший абзац тексту (а інколи ще і в останній), у заголовок Title та опис Descriptor. Набір із шести ключових запитів — це чудово. Однак найефективнішим є перший ключовик, вдвічі менший результат дасть другий, втричі менший — третій і т. д. Індекс ефективності ключових слів (KEI) співвідноситься із основним положенням закону Ципфа.
📌 Читайте в блозі: ChatGPT: як користуватися і чого побоюватися
Висновки
Лінгвостатистичний закон Ципфа — закономірність, згідно з якою відношення рангу слова в частотному словнику до частотності слова в мовленні та письмі становить постійну величину (константу).
Це правило поширюється на різні галузі діяльності людини, зокрема, на економічні та соціологічні явища. У лінгвістиці закон знайшов застосування у ХХ столітті. Згідно з ним, найпопулярніше слово у тексті чи в мові загалом трапляється вдвічі частіше, ніж друге за популярністю, втричі частіше, ніж третє.
Для сучасних текстів закономірність грає важливу роль, адже допомагає копірайтерам, маркетологам та SEO-фахівцям створювати читабельні, цікаві та унікальні статті, написані простою мовою.
На відміну від стратегії SEO, в основі якої лежить використання якомога більшої кількості ключових слів, принцип написання статей за законом Ципфа полягає в пошуку і вживанні найбільш популярних та релевантних темі сторінки ключових слів.