Пермский государственный университет
Кафедра общего и славянского языкознания
Школа социопсихолингвистики

Сайт Пермского государственного университета

Проблемы социо- и психолингвистики: Сб. ст. / Отв. Ред. Е.В. Ерофеева; Перм. ун-т. – Пермь, 2004. – Вып.5: Языковая личность в условиях диглоссии и билингвизма. – С. 46–55.


Е.В. Глазанова
Санкт-Петербург

О надежности психолингвистических методов1

 

Известно, что взаимосвязь между теорией и методом носит неоднозначный характер: с одной стороны, лингвистическая теория может служить основой для разработки методов исследования, с другой стороны, избранные методы могут способствовать разработке определенных теоретических концепций. В последнее время в связи с развитием идеи антропоцентризма проблемы сознания, его строения и функционирования являются едва ли не самыми популярными. Повышенный интерес к этим вопросам специалистов из других областей (и еще чаще неспециалистов) приводит к размыванию системы взглядов и понятий, сложившихся в лингвистике, психолингвистике и психологии. В такой ситуации особое значение приобретает принцип взаимодействия теории и метода, в котором важным становится не только сам результат, но и описание пути и способов достижения этого результата.

Как психологическая наука психолингвистика «унаследовала» методы психологии и в то же время развила свои собственные, специфические способы и приемы изучения речевой деятельности. Прежде всего имеются в виду экспериментальные методы, т.е. организация целенаправленного наблюдения, когда по плану исследователя (экспериментатора) частично изменяется ситуация, в которой находятся участники эксперимента (испытуемые). В «психолингвистике (разумеется, активно использующей и метод наблюдения) эксперимент становится существенным, если не ведущим, принципом исследования, надежной эмпирической базой для доказательства справедливости выявленных закономерностей. Уникальный материал, полученный в экспериментах, позволяет резко расширить и качественно видоизменить фактографическую базу психолингвистических исследований. На основе экспериментальных данных могут строиться гораздо более мощные и адекватные модели речевой деятельности, чем те, которые строятся без опоры на эксперимент» (Сахарный 1989: 9). При этом «эксперимент традиционно считается самым объективным исследовательским методом. Однако в психологии (и психолингвистике) он имеет свою специфику, которая значительно снижает эффективность его использования» (Леонтьев 1997: 74). В психолингвистике принято многие проблемы исследовать с обращением к индивидуальному сознанию носителей языка; существует большое количество методов, суть которых сводится к получению от испытуемых неких интуитивных (и соответственно субъективных) оценок. Проблематичным является вопрос об их надежности.

Что же мы имеем в виду, когда говорим о надежности того или иного экспериментального метода? Прежде всего, конечно же, его валидность, т.е. адекватность и действенность – то, насколько данный метод соответствует исследуемой проблеме; насколько он отражает то, что он должен оценивать. Во-вторых, это надежность метода в статистическом смысле – устойчивость, воспроизводимость2 и сопоставимость 3результатов, получаемых с его помощью. В-третьих, достоверность («значимость») самих результатов, что обеспечивается репрезентативностью (представительностью) выборки испытуемых – количественной и качественной, а также соответствующей статистической обработкой4. Ну и последнее: теперь принято говорить и об экологичности метода исследования, о необходимости создания таких экспериментальных условий, которые предельно приближаются к условиям естественной речевой деятельности5, а также о «натуральности» задания.

Увы, даже при соблюдении всех вышеописанных параметров «слабым местом экспериментальных методик является механизм интерпретации их результатов» (Леонтьев 1997: 76). Основная проблема заключается в однозначности, а если точнее, неоднозначности интерпретации результатов эксперимента. Поэтому, по-видимому, для повышения эвристической значимости психолингвистических экспериментов целесообразно «…использовать разные экспериментальные методики и затем сопоставлять полученные данные» (Сахарный 1989: 89), т.е. применять «батарею» методик, проводить комплексные исследования формирования языковой способности и ее функционирования в речевой деятельности.

В психолингвистике последних десятилетий вопросы семантики определенно выдвинулись на первый план. Трудности, которые связаны с исследованием семантики, общеизвестны. В языке, строго говоря, все категории принадлежат к области «ненаблюдаемого», но вполне очевидно, что семантика доступна наблюдению в наименьшей степени. Исследователи пытаются выявить семантическую структуру языковых единиц, получить объективные данные о единицах ментального лексикона человека и характере связей между ними с помощью целого ряда специальных экспериментальных методов (психофизиологических, ассоциативных, с применением субъективного шкалирования, классификации, прайминга и др.). Как уже говорилось, многие из них основаны на использовании прямых оценок, даваемых испытуемыми. Следовательно, возникают понятные сомнения в надежности получаемых результатов, а также в надежности самих методов. Это действительно «слабое место» едва ли не любого типа психолингвистического эксперимента.

В данной работе мы рассмотрим следующий вопрос методологического и теоретического характера, насущный для теории восприятия речи и моделирования устройства ментального (внутреннего) лексикона человека: является ли метод субъективного шкалирования достаточно надежным (по крайней мере в статистическом понимании). Как уже говорилось выше, под «достаточно надежным» методом принято понимать метод, результаты которого воспроизводимы. Применительно к данной задаче это означает следующее. Повторное предъявление определенного набора стимулов одному и тому же испытуемому в однотипных условиях должно приводить к «одинаковым» результатам в том смысле, что разброс данных не должен выходить за пределы выборочных ошибок измерения. То же самое должно наблюдаться и для группы испытуемых при условии, что группа представляет собой однородную совокупность.

Метод субъективного шкалирования, заимствованный из классической психофизики, в этой последней используется как один из самых простых способов измерения субъективных расстояний между ощущениями. Существуют различные модификации данного метода, например: метод ранжирования, метод последовательных интервалов, метод парных сравнений и др.

Суть метода ранжирования заключается в том, что участникам эксперимента предлагается упорядочить некоторый набор стимулов по какому-то общему для них признаку, приписав наименьший номер (ранг) стимулу, обладающему данным признаком в наибольшей степени. Этот метод лежит, к примеру, в основе методики градуального эталона6, предложенной В.Я. Шабесом (Шабес 1989). Особенностью метода ранжирования является то, что испытуемые работают сразу со всем набором стимулов и дают оценки на основе сравнения стимулов между собой: оценка любого стимула зависит от оценок, приписанных остальным стимулам. Однако следует иметь в виду, что запрещение приписывать одинаковые ранги разным стимулам вынуждает испытуемых оценивать как разные даже те стимулы, которые представляются им одинаковыми. При достаточно большом числе стимулов испытуемому трудно учесть все ранее произведенные оценки, и поэтому, как пишет Р.М. Фрумкина, «результаты эксперимента, проводимого с помощью ранжирования, теряют надежность, поскольку увеличивается вероятность появления оценок на случайном уровне» (Фрумкина 1971: 33).

Метод последовательных интервалов состоит в том, что испытуемым предъявляется набор стимулов и предлагается разделить их по некоторому признаку на определенное число категорий. Например, в опытах Р.М. Фрумкиной и А.П. Василевича (Фрумкина 1971; Василевич 1971) этот метод был использован для получения субъективных частот встречаемости различных элементов текста. Испытуемым предъявлялся набор из 100 слов, которые следовало разделить по признаку частоты встречаемости на 7 категорий: от «никогда» до «на каждом шагу». Особенность метода последовательных интервалов состоит в том, что испытуемые работают не со всем набором стимулов одновременно, а дают оценку каждому стимулу по отдельности. При этом предполагается, что оценка каждого отдельного стимула не зависит от оценок, данных остальным стимулам набора. Тем самым на объем набора не накладываются такие ограничения, которые имеются при использовании метода ранжирования. Однако, как отмечает В.Ф. Петренко, «выбранные априорно шкалы могут навязывать расчленения исследуемого материала, являющиеся незначимыми для испытуемого» (Петренко 1983: 38).

Метод парных сравнений – один из наиболее простых и прямых способов получения матрицы семантического сходства, и, возможно, поэтому он весьма часто используется в психолингвистических исследованиях. Испытуемых просят оценить «сходство значений» («смысловую близость») с помощью некоторой градуальной шкалы. Шкала может быть, например, пятизначной, как в экспериментах Рубинштейна и Гуднау (Rubenstein, Goodenough 1965), где «0» соответствовал минимальной степени сходства (т.е. различию), а «4» — высшей; или десятибалльной, как в работе А.П. Клименко (1970). Безусловно, метод шкалирования очень трудоемкий (так как для построения матрицы сходства при исследовании семантических отношений n объектов требуется n(n–1)/2 попарных сопоставлений), но, как полагает Миллер (Miller 1971), он дает наиболее точные результаты по сравнению с техникой косвенной оценки. Что же касается надежности данной методики, то в доступной автору литературе не удалось обнаружить методов, позволяющих ее оценить, поэтому нами было предпринято собственное исследование (см.: Глазанова 2000).

Мы стремились получить от испытуемых тонкие нюансы смысловых различий, однако с учетом того факта, что испытуемые лишь до известного предела могут отмечать различия в предъявляемых им стимулах, а шкала с небольшим числом разрядов позволяет получать довольно грубые оценки (см.: Фрумкина 1971). В наших экспериментах мы использовали семибалльную шкалу (от «0» – ‘данные два слова ничего общего по смыслу не имеют’, до «6» баллов – ‘данные два слова очень тесно связаны (близки) по смыслу’). Испытуемым предлагался список, состоящий из пар слов, и было дано задание – оценить, насколько они близки (далеки), связаны (не связаны) по смыслу.

В качестве стимулов в исходном эксперименте выступали 299 пар существительных следующих типов: антонимы (например, друг – враг), синонимы (например, вор – грабитель), термины родства (например, мать – бабушка), слова с общим элементом значения ‘человек’, но различающиеся по полу и возрасту (например, девочка – девушка), а также слова, предположительно никак не связанные по значению (например, бабушка – трубочист)7.

В эксперименте приняли участие 64 испытуемых, носителей русского языка, среди них 33 мужчины и 31 женщина (из них 39 филологов и 25 человек других профессий) в возрасте от 17 до 67 лет.

Учитывая установленные на шкале порядка отношения, в качестве меры центральной тенденции мы выбрали медиану (Me)8, которую рассматривали как усредненную субъективную оценку пары стимулов по всей группе испытуемых, а в качестве меры согласованности оценок испытуемых по каждой паре стимулов мы вычисляли полуинтерквартильный размах (Q), который характеризует общую величину рассеяния оценок.

Вернемся к обсуждению надежности методики субъективного шкалирования. Ведь, как пишет И.Л. Медведева, «субъективная оценка сходства или различия между двумя предметами не является постоянной величиной» (Медведева 1987: 69).

Для измерений на шкалах более высокого уровня, чем шкала порядка, – шкалах интервалов и отношений – в статистике имеется весьма тонкий аппарат, позволяющий определить надежность эксперимента или планировать его с заданной степенью надежности (например, коэффициент Спирмена-Брауна и пр.). Но, как мы уже писали выше, в доступной автору литературе не удалось обнаружить аналогичных методов, позволяющих оценить надежность эксперимента, выполненного по методике субъективного шкалирования (точнее, в его модификации с парным сравнением стимулов). Известны лишь работы по вероятностному прогнозированию, где результаты тоже выражены в числах на шкале порядка, однако использован метод последовательных интервалов. Например, А.П. Василевич (Василевич 1968) специально исследовал, как изменяются субъективные оценки частот слов у одного и того же испытуемого при повторном тестировании. В его опыте ретесту подвергались 6 испытуемых, которые ранее участвовали в обсуждаемом эксперименте. Им был предъявлен повторно (через 6 месяцев) тот же набор из 100 слов, что и в исходном эксперименте. Результаты опыта показали, что оценки испытуемых весьма устойчивы: почти 40% слов в среднем помещалось в ту же категорию; почти 50% слов имели сдвиг ± 1 категория, и всего 2.4% слов имели сдвиг более чем на 2 категории. В своей работе «Вероятность элементов текста и речевое поведение» Р.М. Фрумкина, ссылаясь на исследование А.П. Василевича, предлагает считать этот способ достаточным для определения надежности подобного рода экспериментов (Фрумкина 1971).

Работа Ю.А. Элькина и А.С. Штерн (Элькин, Штерн 1981) была выполнена по аналогичной методике: исследовались субъективные оценки частот слов, полученные от испытуемых – детей дошкольного возраста. Авторы провели (спустя 2 недели после первого) повторный эксперимент с шестью испытуемыми. Дети в целом тоже показали хорошую устойчивость в оценках. Аналогично эксперименту с взрослыми, почти 40% слов в среднем помещалось в ту же категорию; почти 37% слов имели сдвиг ± 1 категория, и всего 7.3% слов имели сдвиг более чем на 2 категории, т.е. результаты детей незначительно отличались от результатов взрослых испытуемых.

О надежности той или иной методики, как известно, можно судить и по сравнению результатов, полученных на разных группах испытуемых. Например, в описанной выше работе сравнивались результаты оценок для исходного набора стимулов (это были те же 100 слов, что и в работах Р.М. Фрумкиной и А.П. Василевича), полученных в группах детей (по 25 человек) из двух детских садов. Коэффициент ранговой корреляции между наборами оценок оказался равным 0.89, что означает высокое согласие оценок частот слов. Таким образом, авторы делают вывод, что полученные результаты исследования являются достаточно надежными.

В нашем исследовании (Глазанова 2000), чтобы определить, как изменяются субъективные оценки смысловой близости пар слов у одного и того же испытуемого при повторном тестировании, ретесту подверглись (спустя приблизительно 5 месяцев) 14 человек. Материал (299 пар существительных) и методика были в точности теми же, что и в исходном опыте. Оценки испытуемых оказались весьма устойчивыми: почти 40% слов в среднем помещалось в ту же категорию; почти 35% слов имели сдвиг ± 1 категория, и всего 12% слов имели сдвиг более чем на 2 категории. И хотя эти результаты несколько хуже, чем в работах, описанных выше, мы все же полагаем, что это показатель хорошей устойчивости, так как список стимулов в нашем эксперименте был в три раза больше, что в каком-то смысле уже закладывает в результаты эксперимента возможность некоторой флуктуации.

Представлялось интересным проследить, как соотносится степень согласия оценок испытуемых, полученная для каждой отдельной пары стимулов в исходном эксперименте, с устойчивостью оценок данной пары, которая наблюдалась для 14 испытуемых при повторном опыте. Среди 299 пар слов имеется 25 пар с единодушием оценок; 92 пары с хорошим согласием; 103 пары со средним согласием; 50 пар с плохим согласием; 7 пар с плохим согласием с признаками бимодальности и 22 пары с бимодальным распределением оценок. Наиболее устойчивыми были оценки тех пар слов, для которых в основном опыте наблюдалось наибольшее согласие, а наибольшие сдвиги наблюдались именно для тех пар слов, для которых имело место отсутствие согласия.

Теперь приведем результаты сравнения наборов медиан9, полученных на разных группах испытуемых – студентов-филологов в возрасте от 17 до 22 лет (22 человека) и инженеров в возрасте от 45 до 67 лет (12 человек)10. Коэффициент ранговой корреляции Спирмена оказался равным 0.93, что по шкале Гилфорда означает очень высокую корреляцию, т.е. рассматриваемые нами две группы испытуемых показали очень высокое согласие оценок смысловой близости пар слов.

Таким образом, результаты данного исследования, проведенного по методике субъективного шкалирования методом парного сравнения, являются достаточно надежными по обоим показателям: по устойчивости оценок в повторном опыте и по высокой согласованности оценок двух кардинально различных групп испытуемых в исходном эксперименте.

Выше уже упоминался вариант метода субъективного шкалирования – метод ранжирования, который лежит в основе методики градуального эталона, предложенной В.Я. Шабесом (Шабес 1989). Рассмотрим результаты нашего исследования структуры категории «эмоции» в русском языке11, выполненного с использованием данной методики.

В эксперименте участвовали две группы испытуемых, максимально противопоставленные друг другу на профессиональной шкале , – «технари» (21 человек) и гуманитарии (25 человек). К тому же, чтобы усилить это противопоставление, мы брали гуманитариев только женского пола, а «технарей» – только мужского, так как бытует мнение, что у женщин в целом скорее гуманитарный склад ума, а у мужчин – технический12. Испытуемым выдавался набор из 30 карточек, на каждой из которых было написано наименование эмоции, которые они должны были упорядочить (проранжировать) на основе интуитивной оценки по степени типичности.

При статистической обработке полученных данных в качестве меры центральной тенденции распределения оценок была выбрана медиана. Упорядочив перечень членов категории по значениям вычисленных медиан, мы получили интегрирующий градуальный эталон, описывающий суммарную степень репрезентативности примеров категории. По результатам нашего эксперимента очевидно, что конкретное значение медианы каждого примера, входящего в категорию, соответствует его градиенту репрезентативности; причем минимальное значение медианы соответствует максимальному значению градиента репрезентативности, которым обладает прототип, являясь одним из полюсов шкалы репрезентативности. Самой типичной эмоцией по группе испытуемых в целом (46 человек) является гнев; очень близки к прототипу радость и ярость. Явно на периферии категории находятся апатия и спокойствие.

Литература:

Василевич А.П. К вопросу об использовании субъективных оценок как источника сведений о частоте слов-стимулов // Вероятностное прогнозирование в речи. М., 1971. С. 44-69.

Василевич А.П. Субъективные оценки частот элементов текста (в связи с проблемами вероятностного прогнозирования речевого поведения): Дис. … филол. канд. наук. М., 1968.

Глазанова   Е.В. К вопросу о структуре прототипической категории // STUDIA SLAVICA: Сборник научных трудов молодых филологов I / Составитель и редактор А. Меймре. Таллинн, 1999. С. 116-126.

Глазанова   Е.В. Методика лексико-семантического исследования с использованием субъективного шкалирования и ее надежность // Вестник молодых ученых 2'20: Серия «Филологические науки». СПб, 2000. С. 44-50.

Глазанова Е.В., Штерн А.С. Градуальное измерение вербальной семантики // Проблемы современного теоретического и инженерно-описательного языкознания. СПб., 1996. Вып.4: Семантика и коммуникация. С. 177-189.

Клименко А.П. Вопросы психолингвистического изучения семантики. Минск, 1970.

Леонтьев А.А. Основы психолингвистики. М., 1997.

Медведева И.Л. Основания для сравнения значений слов, противопоставленных индивидуальным сознанием // Психолингвистические исследования: Звук, слово, текст. Калинин, 1987. С. 64-70.

Петренко В.Ф. Введение в экспериментальную психосемантику: исследование форм репрезентации в обыденном сознании. М., 1983.

Сахарный Л.В. Введение в психолингвистику. Л., 1989.

Фрумкина Р.М. Вероятность элементов текста и речевое поведение. М., 1971.

Шабес В.Я. Событие и текст. М., 1989.

Элькин Ю.А., Штерн А.С. Опыт построения словаря субъективных частот слов для детей дошкольного возраста // Коммуникация и мышление. М ., 1990. С . 81-83.

Miller G.A. Empirical methods of the study of semantics // Semantics. Cambridge, 1971.

Rubenstein H., Goodenough J. Contextual correlations of synonymy // Comm. A.C.M. 1965. 13.

 


1Работа выполнена при поддержке РФФИ (грант № 03-06-80068) и Совета по грантам Президента Российской Федерации для поддержки молодых российских ученых и ведущих научных школ (грант МК-2639.2003.06).

2 О воспроизводимости говорят, если при сохранении определенных условий мы получаем тот же результат. Другое дело, что повторяющийся результат может быть бессмысленным (с точки зрения поставленных задач), но это иной аспект проблемы.

3 В первую очередь имеется в виду сопоставимость результатов, полученных на аналогичных группах испытуемых.

4Безусловно, кроме всего прочего, процедура проведения эксперимента, а также способ обработки данных должны быть стандартными. К тому же нужно попытаться минимизировать влияние неучтенных факторов и ограничиться исследованием того, ради чего проводится исследование.

5По мнению А.А. Леонтьева, гораздо более эффективны методики, где сознательная рефлексия испытуемых сведена к минимуму (Леонтьев 1997): чем меньше испытуемый рефлексирует над экспериментальной ситуацией в целом и над предложенным заданием, в частности, тем более полученные результаты соответствуют тому, что имеет место в естественной речевой деятельности.

6Под градуальным эталоном понимается непрерывная линейная когнитивно-семантическая область, характеризующаяся двумя полярными максимальными значениями в зонах ее пределов и нейтральным («нормальным») значением в ее межполюсной зоне. Этот метод используется для изучения структуры семантических полей, например: «хороший – плохой», «грустный – веселый» (см. Глазанова, Штерн 1996).

7В отличие от классических работ по выявлению интуитивной оценки смысловой близости, о которых уже упоминалось, у нас не было необходимости рассматривать сочетания всех слов-стимулов со всеми. Единственной группой слов, для которой мы рассматривали все возможные сочетания, были термины ближайшего родства.

8 Медиана в нашем случае соответствует точке на шкале возможных оценок, ниже которой помещено 50% оценок, приписанных данной паре стимулов.

9 Усредненные субъективные оценки близости пары стимулов.

10 Эти группы находятся на противоположных полюсах возрастной и профессиональной шкалы.

11 Исследование проводилось совместно со студенткой филологического факультета Санкт-Петербургского государственного университета А. Кононовой.

12 Возрастные рамки испытуемых – 18-23 года; были отобраны студенты не ниже второго курса.


© Все права защищены. Е.В. Глазанова.
© Все права защищены. Школа социопсихолингвистики.
© Автор разрешает свободное копирование всех материалов электронного издания. При использовании электронной копии текста в печатных и / или электронных публикациях ссылка на Школу социопсихолингвистики и автора Е.В.Глазанову обязательна.

webmaster Uglanova Inna | | ©2007 Пермскя школа социопсихолингвистики



Используются технологии uCoz