Напечатать документ Послать нам письмо Сохранить документ Форумы сайта Вернуться к предыдущей
АКАДЕМИЯ ТРИНИТАРИЗМА На главную страницу
Дискуссии - Наука

Мартыненко Г.Я.
Числовая гармония ценозов
Oб авторе


 
... кто имеет, тому дано будет и умножится,
а кто не имеет, у того отнимется и то, что имеет.

— «Евангелие от Матфея», гл. 13. стих 12


Оглавление


1. ОБЩАЯ ТЕОРИЯ ЦЕНОЗОВ (ЦЕНОЛОГИЯ)

1.1. Универсальность объекта исследования

1.2. Универсальность исследуемых признаков

1.3. Универсальность математической модели


2. О НЕОДНОРОДНОСТИ ЦЕНОТИЧЕСКИХ РАСПРЕДЕЛЕНИЙ

2.1. Традиционные методы разрешения статистической неоднородности

2.2. Визуализация спектрового распределения
в логарифмической шкале

2.3. Визуализация данных с помощью скользящего коэффициента вариации

2.4. Метод максимума эмпирического корреляционного отношения


3. О ГРАНИЦЕ МЕЖДУ ЯДРОМ И ПЕРИФЕРИЕЙ


4. АНАЛИЗ РЕЗУЛЬТАТОВ РАЗДЕЛЕНИЯ РАСПРЕДЕЛЕНИЙ НА ЯДРО И


Тезисы


1. ОБЩАЯ ТЕОРИЯ ЦЕНОЗОВ (ЦЕНОЛОГИЯ)

В современной науке большое распространение получил «демографический» подход, когда исследуется то, что в теории культуры именуется демографией ситуаций, демографией предметов и демографией поступков (Моль, 1973). В сущности, такой подход является теорией сообществ, имеющей отношение к «демосу» самой разнообразной природы. Так, в его роли может выступать не только совокупность жителей города Петербург, но и совокупность словоупотреблений одноименного романа Андрея Белого, а также совокупность персонажей, «населяющих» этот роман, что позволяет говорить не только о плотности населения в демографическом смысле, но и о плотности заселенности текста литературными персонажами (Усманов, 1975). Подобные сообщества исследуются длинным перечнем научных дисциплин. Так, в биологии исследуются сообщества организмов (биоценозы) (Левич, 1980), в документалистике — массивы научных публикаций (Михайлов и др., 1976), в науковедении — научные коллективы (Хайтун, 1983), в технетике — ансамбли изделий, машин, механизмов (Кудрин, 1981), в экономике — объединения предприятий (Сиськов, 1975), в демографии — население стран, городов, континентов, в политологии — группировки государств, электоральные массы (Мелихов, 1981; Степанов, 2004), в литературоведении — «сообщества» авторов, пишущих в конкретную литературную эпоху (Мартыненко, 1988), в спорте — множества команд, образующих лиги, дивизионы, конференции (Мартыненко, 2003) и т. п.

При исследовании перечисленных и многих других сообществ можно найти много общего как в сущностном, так и в методическом отношении. Исторически пальма первенства в исследовании сообществ принадлежит статистике (Чупров, 1910; Chebanov, Martynenko, 1998), а в последнее время статистические идеи все более обогащаются теоретико-классификационными (Мейен, Шрейдер, 1976; Шрейдер, Шаров, 1982) системными (Щедровицкий, 1976), социально-психологическими (Акофф, Эмери, 1974) и синергетическими (социодинамическими) представлениями (Вайдлих, 2004). В настоящее время можно говорить об органическом слиянии этих методологических направлений и формировании достаточно четко очерченной междисциплинарной сферы, которую можно назвать общей теорией ценозов.

Ценотический подход в современной науке обусловлен также мозаичной организацией европейской культуры, ее энциклопедическим характером как результата самопознания Запада в противопоставлении Востоку (Моль, 1973).


1.1. Универсальность объекта исследования

Междисциплинарность ценотической проблематики проявляется прежде всего в некоторых универсальных свойствах множеств, которые рассматриваются как ценозы.

В теории статистики ценозы рассматриваются как естественные совокупности (Чупров, 1910), которые представляют собой множество объектов, локализованных в определенных рамках времени и пространства и образующих единое целое. Для таких совокупностей характерно то, что здесь целостность доступна прямому наблюдению, имеет пространственно-временную ориентацию (Шрейдер, Шаров, 1982; Чебанов, 1980). Важной чертой таких совокупностей является их популятивность, демографичность, коллективизм (Щедровицкий, 1975).

C точки зрения формальной логики ценозы относятся к классу собирательных понятий, в которых отражены признаки группы единиц, образующих единое целое. В контексте общей теории систем такие множества принадлежат классу внутренних систем (Шрейдер, Шаров, 1982; Чебанов, 1980), являющихся целостными образованиями, состоящими из элементов, находящихся в отношении соучастия в целом.

Следует обратить особое внимание на то, что независимо от конкретной предметной отнесенности, при описании сообществ используются единые системообразующие понятия, такие, как однородность-неоднородность, устойчивость-неустойчивость, упорядоченность-хаотичность, концентрация-рассеяние, целостность-аморфность, разнообразие-ограничение разнообразия, сложность-простота и др.

1.2. Универсальность исследуемых признаков

Междисциплинарность теории ценозов проявляется также и в специфике признаков, используемых при построении статистических распределений. На самом общем уровне можно различать два типа признаков: 1) признаки, которые характеризуют внутреннюю структуру единиц совокупности и 2) признаки, отражающие статус (значимость, активность, ценность) этих единиц, т. е. их функциональный вес в конкретной системе. В соответствии с этим противопоставлением могут быть выделены два типа статистических распределений: структурные и статусные. Последние мы называем также ценотическими. Например, химические элементы могут быть упорядочены, как это сделано в таблице Менделеева, по атомному весу, т. е. по признаку, отражающему их внутреннюю структуру. В этом случае образуется структурное распределение. Но та же совокупность химических элементов может быть упорядочена по функциональному признаку, например по их весовым содержаниям (кларкам) в земной или марсианской коре. В этом случае строится статусное (ценотическое) распределение. Аналогичные распределения могут быть построены для ценозов любой природы: органической, неорганической, социальной, знаково-информационной. Например, слова печатного текста или корпуса могут быть упорядочены с точки зрения их размера (количеству букв). Это ведет к построению структурного распределения. Но те же слова могут быть проранжированы в соответствии с частотой их реализации. В итоге образуется статусное распределение. Важно отметить, что именно статусные распределения являются основным инструментом исследования сообществ самого разнообразного типа.

В последние годы все чаще высказывается мнение, что статусные распределения независимо от объекта исследования имеют сходный характер. Это проявляется в том, что, что они крайне асимметричны и характеризуются патологически большой вариацией. Во всех случаях небольшое число элементов несет основную функциональную нагрузку (концентрация активности), а функциональная роль большинства элементов крайне мала (рассеяние активности). Эта закономерность наблюдается в организованных совокупностях самой разнообразной природы. В экономике говорят о концентрации производства на крупных предприятиях, в демографии — о концентрации населения в больших городах, в геохимии — о концентрации массы в ограниченном числе химических элементов, в теории информационного поиска — о концентрации информации по данной теме в небольшом числе периодических изданий, в языкознании — о частотной концентрации лексических единиц в верхней зоне частотного словаря и т. д.

1.3. Универсальность математической модели

Междисциплинарность теории сообществ проявляется также в выборе математической модели, описывающей поведение ценотических распределений. В качестве таковой в подавляющем большинстве случаев используется формула неравносторонней гиперболы. Эта формула с различной персональной «привязкой» (Ципф, Парето, Лотка, Виллис и др.) фигурирует в длинном перечне дисциплин и проверена на самом разнообразном материале (экономическом, биологическом, науковедческом, демографическом и т.п.). Примечательно, что перечисленные законотворцы пришли к формулировке этого закона примерно в одно и то же время, но независимо друг от друга
(20-е – 30-е гг. XX в.). Такая согласованность ведет к противоположным заключениям. Наиболее очевидный вывод может заключаться в том, что этот закон является универсальным для всех ценозов (Шрейдер, Шаров, 1982; Хайтун, 1983; Кудрин, 1981). На наш взгляд, для такого вывода нет серьезных оснований. Следует иметь в виду, что все перечисленные авторы закона (Ципф, Парето и др.) были хорошими профессионалами в своей предметной области, но их математическая компетенция не выходила за рамки гимназического курса. График убывающей кривой при таком уровне математической образованности в большинстве случаев ассоциировался с гиперболой. Скорее всего, междисциплинарность в данном случае формируется не от «большого ума», а вследствие поверхностной математической подготовки авторов, т. е. в данной ситуации дилетантизм является источником междисциплинарного универсализма.

Тем не менее, большинство исследователей-эмпириков являются активными сторонниками закона Ципфа, хотя ни одному из них не удалось убедительно доказать его успешную применимость к реальному материалу. Не отстают от них и методологи, которые считают, что закон Ципфа является не одной из эмпирических формул, случайно подогнанных с тем или иным успехом под результаты измерений, а теоретическим законом, имеющим надежную математическую и логическую базу. Так, некоторые специалисты полагают, что аппарат классической (гауссовой) статистики не пригоден для изучения ценнотических распределений. Их негауссовость усматривается в том, что они имеют более длинные «хвосты», чем гауссовы распределения. В силу этого моменты этих распределений, с одной стороны, аномально велики, а с другой эта аномалия тем значительней, чем больше объем выборки. Это означает, что в данном случае ставится под сомнение использование метода моментов при оценивании параметров генеральной совокупности. Утверждается, что для собирательных совокупностей решающим является фактор их целостности, мерилом которой является закон Ципфа. Совокупность, подчиняющаяся закону Ципфа, независимо от ее объема, считается целостной, правильной, организованной, гармоничной, т. е. ципфовской (Орлов, 1970; Шрейдер, Шаров, 1982). Реальные же совокупности рассмариваются как отклонения от идеальной ципфовской модели и описываются «квазигиперболами» (Чайковский, 2001). Сказанное позволяет придти к констатации, что увлеченность нормальным законом в минувшем веке постепенно переключается на возрастающий интерес к распределению Ципфа-Парето. В связи с этим приведем два практически идентичных высказывания выдающихся ученых. Пеорвое относится к нормальному закону, второе – к закону Ципфа-Парето:

«Каждый уверен в справедливости нормального закона: экспериментаторы потому, что это математическая теорема, математики – потому, что они думают, что это
экспериментальный факт» (Анри Пуанкаре, 1912);

«Математики верят в закон Ципфа потому, что лингвисты постановили считать его лингвистическим законом, а лингвисты со своей стороны верят в него потому, что математики постановили считать его математическим законом (Хердан, 1962).

 

2. О НЕОДНОРОДНОСТИ ЦЕНОТИЧЕСКИХ РАСПРЕДЕЛЕНИЙ

2.1. Традиционные методы разрешения статистической неоднородности

В прикладной статистике нет четко разработанных критериев, позволяющих однозначно решать, однородна совокупность в качественном отношении или нет. Обычно исследователи руководствуются следующими симптомами неоднородности: 1) несогласованностью различных зон рангового распределения с законом Ципфа (критерий эмпирической адекватности закона Ципфа); 2) типом распределения, описывающего поведение единиц в серии микровыборок (зональный критерий); 3) величиной коэффициента вариации: чем больше этот коэффициент, тем больше шансов на то, что совокупность неоднородна (критерий вариативности); 4) внешним видом графика эмпирического распределения: если кривая распределения многовершинна, то есть веские основания полагать, что исходная совокупность состоит из нескольких качественно однородных фрагментов (геометрический критерий); 5) величиной и знаком меры крутости (эксцесса, куртозиса): если этот показатель отрицателен, а величина его значительна, то это говорит о том, что в центре кривая распределения вдавлена, т. е. имеется тенденция перехода в двухвершинную кривую (критерий крутости) (Митропольский, 1971).

Критерий эмпирической адекватности закону Ципфа нашел применение в документалистике приизучении структуры информационных потоков. Так, В. И. Горькова, убедившись в невозможности описать распределение в целом с помощью закона Ципфа, прибегает к линейно-кусочной аппроксимации с разными значениями коэффициентов в линейном варианте формулы Ципфа. Это позволило ей разделить множество периодических изданий по конкретной тематике на три зоны: зону концентрации (профильные издания), центральную зону (смежные издания) и зону рассеяния (непрофильные издания) (Горькова, 1968). Похожая «идеология» содержится и в работе С. Брукса, который делит множество периодических изданий на два подмножества: профильные издания распределение которых описывается степенной функцией и непрофильные издания, распределение которых описывается логарифмической функцией (Brooks, 1969).

Аналогичные результаты были получены при использовании зонального критерия на материале лексических единиц текста. Распределения этих единиц в серии микровыборок одинакового объема описываются тремя разными законами: высокочастотные (семантически стертые) единицы — нормальным законом, низкочастотные (семантически доминантные) единицы — законом Пуассона, а среднечастотные — или смешанному действию упомянутых законов (Бектаев и др., 1977), или сложному закону Пуассона (Herdan, 1964).

Критерий вариативности основан на применении коэффициента вариации. Этот коэффициент для статусных распределений очень велик, а порой патологически велик, на порядок превышая уровень, характерный для типичных статистических ситуаций. В статистическом сообществе принято считать, что если коэффициент вариации выходит за пределы интервала 0,33 – 0,5 (разные исследователи называют разные числа в этом интервале), то совокупность качественно неоднородна. В статусных распределениях коэффициент вариации всегда (или почти всегда) больше единицы (это относится и к распределениям, которые будут рассмотрены ниже), что является весьма сильным аргументом в пользу неоднородности таких распределений, если придерживаться традиционных статистических представлений.

Геометрический критерий широко используется при изучении самых разнообразных явлений. Рассмотрим его более детально.

Составные (комбинированные) статистические ряды возникают в результате совмещения рядов простейшего типа: крайне асимметричного с одновершинным, двух одновершинных и др. Графики комбинированных рядов в сравнении с рядами простейшего типа отличаются более сложным «рельефом», а это, если и не исключает, то по меньшей мере затрудняет выбор адекватной аппроксимирующей функции. Это затруднение легко преодолимо в ситуации, когда исследуемый материал может быть расчленен на автономные однородные фрагменты еще на стадии первичной обработки данных. В этом случае для каждого фрагмента совокупности может быть выбрана своя аппроксимирующая функция, а результирующая функция может быть получена путем совмещения функций, описывающих каждый из фрагментов в отдельности. Однако в большинстве случаев такое предварительное расчленение произвести не удается, так как между отдельными частями неоднородной совокупности нет ясно определенной границы. Одна совокупность переходит в другую с такими тонкими градациями, что можно по разному решать, к какому фрагменту относится конкретный элемент. Иначе говоря, неоднородные совокупности такого типа могут быть разделены на автономные фрагменты лишь условно, да и то лишь при благоприятном стечении обстоятельств. Важнейшими из , по нашему мнению, являются: 1) минимальное число фрагментов в итоговой совокупности; 2) близость численностей в этих фрагментах; 3) большое расстояние между центрами распределения в каждом фрагменте.

Если перечисленные выше благоприятные условия отсутствуют, то получить четкое представление о геометрическом типе составного распределения и тем более расчленить его на условно однородные фрагменты очень трудно, так как воздействие одного распределения на другое слишком велико во всей области изменения аргумента.

Что касается критерия, основанного на измерении меры крутости, то он работает в том случае, когда пересекающиеся совокупности соизмеримы по объему, и кривая распределения имеет две явно выраженные вершины.

Рассмотрим теперь в какой мере соблюдаются перечисленные благоприятствующие условия при формировании реальных ценотических распределений.

Мы полагаем, что эти распределения являются результатом взаимодействия по крайней мере двух распределений: распределения элементов с высокой активностью (ядерные элементы) и распределения элементов с малой активностью (периферийные элементы). Если это исходное соображение соответствует реальному положению вещей, то условие минимальности числа фрагментов в итоговой совокупности можно считать выполненным. Конечно, само деление элементов совокупности на ядерные и периферийные является весьма условным, так как то, что мы называем ядерными элементами являются таковыми только потому, что они доминируют в структурообразующем смысле, выполняя строевые, связующие функции, подобные тем, которые свойственны служебным словам в тексте, химически активным элементам (прежде всего кислороду и водороду), наиболее распространенным биологическим видам и т. п.

Рассмотрим теперь, как выполняются второе и третье условия.

Для этого воспользуемся данными о концентрации-рассеянии элементов в сообществах различной природы.

Все исследователи единодушны в том, что ценотические распределения характеризуются очень высокой степенью концентрации в зоне высоких активностей. Например, в ядре информационных потоков сосредоточено от 5 до 10% наименований элементов, совокупная активность которых составляет не менее 50% от суммарной активности всех единиц (Горькова, 1968).

Высокая степень концентрации активности в сообществах различного типа наводит на мысль о том, что центры распределения ядерных и периферийных элементов находятся на большом расстоянии друг от друга. Однако расчленение итогового распределения на ядерную и периферийную зоны в значительной степени затрудняется тем, что для ядерных элементов в общей массе элементов в подавляющем большинстве случаев невелика. В связи с этим возникает опасение, что ядерные элементы «затеряются» среди периферийных, а геометрический тип распределения последних поглотит геометрический тип распределения ядерных элементов. В итоге будет очень трудно получить адекватное представление о геометрическом типе составного распределения.

Действительно, если по данным наблюдения построить убывающее ранговое распределение, то его характерные особенности могут ускользнуть из поля зрения исследователя ввиду чрезмерной растянутости графика вдоль оси рангов. Как правило, такой график отождествляется с крайне асимметричной J-образной кривой. Высокий пик таких распределений и очень растянутый хвост затушевывают некоторые ненормальности в поведении кривой, которые чаще всего списываются на счет ошибок наблюдения.

Чрезмерная растянутость рангового распределения заставляет исследователей обратиться к билогарифмическим координатам. Однако длинная череда блуждающих точек в голове и нагромождение ступенек в хвосте распределения и в этом случае затрудняет принятие однозначного решения о форме кривой. Большинство исследователей, движимое ожиданием увидеть прямую линию, таковую обычно усматривают, особенно, если ожидание было не обыденным, а вдохновлялось какой-либо гипотезой или теоретической концепцией, базирующихся на ципфовских представлениях. В том же случае, когда экспериментальные данные решительно отказываются ложиться на воображаемую прямую или прямую, начертанную исследователем, то здесь траектория исследования раздваивается. Часть исследователей «обвиняет» точки в неповиновении, эти точки считаются плохими, не идеальными, в отличие от гипотетических точек, которые ведут себя примерно: если уж они выстраиваются по ранжиру, то всегда ложатся на прямую линию. Другая же часть исследователей под давлением обстоятельств осознает, что линейная модель в таких ситуациях не работает и предпринимает попытки найти более адекватную модель. Однако следует признать, что эмпирические ранговые распределения — не слишком удобный и привычный объект для поиска аппроксимирующей функции, к тому же не совсем ясно, правомерно ли использование в таких ситуациях традиционных критериев согласия (Пирсона, Колмогорова, Ястремского и др.)

Не просто складывается ситуация и со спектровыми презентациями ценотических распределений (вариационными рядами, распределениями плотности), в которых величинам активности (например, частотам) поставлены в соответствие) численности элементов с данной величиной активности. График спектрового распределения в сравнении с графиком рангового более компактен, более естественен, но все же не настолько, чтобы «истинный» ход кривой был однозначно уяснен. В распределениях этого типа ядерные элементы группируются в правой части области изменения аргумента (зона высоких активностей), но плотность их распределения очень мала в сравнение с плотностью периферийных элементов, которые группируются в левой части распределения (зона низких активностей). В итоге множество периферийных элементов «подавляет» своей массой множество ядерных элементов, и график итогового распределения, как и в случае рангового распределения также производит впечатление крайне асимметричной J-образной кривой.

Однако ситуация оказывается все же не столь безнадежной, что мы попытаемся показать в следующем разделе.



Полный текст доступен в формате PDF (1232Кб)


Мартыненко Г.Я., Числовая гармония ценозов // «Академия Тринитаризма», М., Эл № 77-6567, публ.15453, 06.08.2009

[Обсуждение на форуме «Публицистика»]

В начало документа

© Академия Тринитаризма
info@trinitas.ru