Chapter3

Методика оценки качества статистических пакетов

Предлагаемый авторами подход [5] является развитием методики американской Национальной лаборатории по тестированию программных продуктов (National Software Testing Laboratory, NSTL). Это независимая организация, выполняюща экспертную оценку программных продуктов.

Рассмотрим предлагаемую нами общую схему определения качества (рейтинга) программного продукта (рис. 2).

В приведенную схему дополнительно (по сравнению с методикой NSTL) включен блок, который оценивает удобство работы пользователя-прикладника с пакетом, зависящее от степени интеллектуальности данного пакета. Это качество продукта имеет существенное значение, поскольку количество распространяемого на рынке статистического программного обеспечения явно обогнало численность специалистов-статистиков, особенно на отечественном рынке.

Ситуация заметно обострилась в связи с доступностью технологии записи компакт-дисков (CD-ROM) и это, как следствие, привело к распространению "пиратских" копий программных продуктов. В результате большое число пользователей - неспециалистов в математической статистике - часто совершенно формально работают с тем или иным СПП, неправильно интерпретируя при этом результаты проведенного статистического анализа, что не только наносит урон заказчику анализа, но и дискредитирует правомерность использования математического аппарата прикладной статистики.

Работа над повышением степени интеллектуальности СПП как раз и преследует цель уменьшить подобного рода ошибки при эксплуатации программ, предоставив пользователю в автоматическом режиме необходимую консультацию по правильной постановке задачи, выбору подходящего статистического инструментария, по умению обойти встречающиеся на пути статистического анализа типичные "ловушки", по правильной интерпретации результатов анализа и т.п. (см., например, в [1]-[3], [6]).

Сравнение пакетов по мощности, степени интеллектуальности и удобству взаимодействия с ними осуществляется на основании десяти базовых качеств СПП (см. схему на рис. 2).

Интегральная оценка качества получается по следующей схеме. Детализированные характеристики, взятые с "весами", являются основой для построения оценок базовых качеств (от 1 до 10 баллов) того или иного СПП. В свою очередь взвешенная сумма дает оценку для каждого из трех обобщенных показателей по блокам. Наконец, взвешенная сумма последних определяет общую оценку СПП.

С перечнями детализированных характеристик по каждому из базовых свойств пакета можно ознакомиться на схеме (рис. 2). Помимо введения важного обобщающего показателя "Степень интеллектуализации СПП", мы предлагаем принципиально иной (по сравнению с методикой NSTL) подход к определению весов для оценки того или иного свойства более высокого уровня иерархии. В методике NSTL эти веса определяются прямым экспертным опросом, т.е. эксперт, располагая суммой, скажем, в 100 баллов, распределяет ее между суммируемыми характеристиками пропорционально удельному весу их влияни на формирование оценки соответствующего более общего свойства. Однако опыт подобного рода экспертного оценивания многократно свидетельствовал о том, что "разложение по полочкам" удельных весов частных показателей приобретает в головах экспертов размытый характер. В результате мнения различных экспертов, привлеченных для решения данной задачи, слабо согласуются [5]. Мы же предлагаем использовать так называемый экспертно-статистический метод [3]. Это означает, что от экспертов следует получать балльные оценки одновременно и для отдельных характеристик и для соответствующего свойства в целом. После этого веса суммируемых характеристик рассчитываются в качестве коэффициентов регрессии.

Остановимся кратко на сущности основных базовых свойств, характеризующих качество СПП.
Для простоты сравнения пакетов будем учитывать лишь встроенные функции. Это объясняется тем, что ряд пакетов позволяет добавлять оригинальные функции, написанные на собственном языке программирования.

Разнообразие алгоритмов и средств управления данными

Поскольку при анализе данных пользователю приходится выполнять вычислени широкого спектра статистик (функций от наблюдений), передавать и преобразовывать данные в форму, необходимую для их анализа, а также представлять полученные результаты в наглядном виде, то акцентируем внимание на собственно вычислениях (статистических или "общематематических", управлении данными и графике.

Статистическое разнообразие - это полнота и качество реализованных в пакете моделей и методов.

Управление данными традиционно включает в себя экспорт/импорт данных, их преобразования (общематематические или статистические, логические, строчные), реструктуризацию, а также дополнительные возможности, предоставляемые встроенным языком программирования. Оценка пакета по каждому показателю формируется на основе оценки наличия (отсутствия) той или иной возможности.

Подчеркнем, что в зависимости от реализованных в пакете возможностей управления данными, те или иные преобразования могут выполняться в одних случаях довольно быстро, а в других крайне медленно (а иногда некоторые преобразования просто невозможны).

Графика является важным компонентом мощности СПП. Большое значение придается развитости графических средств, наличию графиков и карт аналитического характера, возможностям разметки карт и графиков. Важными представляются средства вывода графики на печатающие устройства.

Скорость вычислений и представления результатов

Некоторые пользователи, возможно, не придают этому показателю большого значения. Однако, на наш взгляд, скорость работы пакета важна для комфортной эксплуатации и косвенно отражает трудоемкость его разработки. Кроме того, пакет с высоким быстродействием заметно уменьшает число необходимых ПК, а это может вылиться в существенную экономию средств. Последнее особенно важно для российского пользователя, у которого, особенно в глубинке (да и в научных учреждениях Москвы), нередко встретишь машину класса 386DX или даже ниже.

Так, один из авторов в ряде известных банков, в их планово-экономических или кредитных управлениях, в середине 1996 г. встречал дешевые ПК (класса 486SX) известных торговых марок (Vectra, IBM и др.). Однако в них отсутствует сопроцессор для операций с плавающей запятой, что критично для некоторых универсальных пакетов, например для SPSS или SAS (версии для Windows).

Таблица 2. Результаты применени методики оценки СПП.

По материалам Software Digest (Ratings Report) , 1991 г., vol. 8, # 5

Название пакета

Разнообразие

Быстро-

действие
Качество выходных форм

Легкость исполь- зования

Легкость обучения

Общая оценка мощности

Общая оценка удобства исполь- зования

Интегральная оценка

Systat

7,8

7,3

6,1

8,1

7,1

7,5

7,9

7,7

SAS

7,9

6,2

5,9

7,3

6,5

7,3

7,0

7,2

Statgraphics

6,3

3,3

8,0

8,6

8,6

5,8

8,7

7,2

SPSS/PC+

6,7

6,4

5,0

6,8

6,9

6,4

6,8

6,6

PC-90 (BMDP)

7,0

2,4

5,0

5,5

4,5

5,8

5,1

5,5

Minitab

4,7

9,1

4,8

5,6

4,6

5,7

5,2

5,5

Качество выходных форм

Оценка качества отражает пригодность выходных форм для анализа, отчетов, статей и презентаций. Кроме того, здесь учитываются дополнительные графические возможности: наличие логарифмических шкал, показ отдельных точек графика, контроль пользователем местоположения условных обозначений, печать графиков на одной странице с данными, наложение графиков друг на друга и наличие встроенного графического редактора.

Легкость использовани пакета и его освоения

Этот раздел методики построения рейтинга предлагает учитывать качество документации по наличию "Руководства пользователя" и учебных пособий по методам, реализованным в пакете. Кроме того, оценивается удобство интерфейса "человек - компьютер", качество встроенной подсистемы помощи, степень удобства управления данными и работы с графикой и таблицами.

Степень интеллектуальности пакета в первую очередь предполагает организацию такого режима работы СПП, при котором пользователь имеет достаточно квалифицированное статистическое ассистирование в ходе всего процесса статистического анализа, т.е. при выяснении природы (генезиса) анализируемых данных, при выборе подходящих моделей и методов, их увязывании в технологическую цепочку, при интерпретации результатов и т.п. При этом основные показатели вовсе не обязательно связаны с наличием в пакете подходящей экспертной системы. Речь идет о развитой системе компьютерной консультационной поддержки (по статистике), охватывающей различные стадии решения задачи:

ориентирование пользователя в существующих литературных источниках по применямым статистическим методам, а также обеспечение его подсказками по используемой терминологии, понятиям, существующим решениям аналогичных задач;
помощь в постановке задачи, подробный предварительный анализ исходных данных c акцентированием внимания пользователя на их генезисе и особенностях;
подбор подходящего вида модели и технологической цепочки обрабатывающих модулей;
описание набора типичных статистических "ловушек" и способов, как их избежать;
помощь в интерпретации промежуточных и финальных результатов статистического анализа;
предложение направлений дальнейшего исследования.

Необходимым условием обеспечения достаточной степени интеллектуальности СПП мы считаем привлечение к разработке пакета (а при оценке готового - учет научного уровня) специалистов по теории и методам статистического анализа данных. Кроме того, представляется важным, как используются интерактивные и графические возможности современного ПК, а также средства, связанные с формализацией и предоставлением опыта и профессиональных знаний специалистов по прикладной статистике.

`Название пакета`	`Разнообразие`	`Быстро-` `действие`	`Качество выходных форм`	`Легкость исполь- зования`	`Легкость обучения`	`Общая оценка мощности`	`Общая оценка удобства исполь- зования`	`Интегральная оценка`
`Systat`	`7,8`	`7,3`	`6,1`	`8,1`	`7,1`	`7,5`	`7,9`	`7,7`
`SAS`	`7,9`	`6,2`	`5,9`	`7,3`	`6,5`	`7,3`	`7,0`	`7,2`
`Statgraphics`	`6,3`	`3,3`	`8,0`	`8,6`	`8,6`	`5,8`	`8,7`	`7,2`
`SPSS/PC+`	`6,7`	`6,4`	`5,0`	`6,8`	`6,9`	`6,4`	`6,8`	`6,6`
`PC-90 (BMDP)`	`7,0`	`2,4`	`5,0`	`5,5`	`4,5`	`5,8`	`5,1`	`5,5`
`Minitab`	`4,7`	`9,1`	`4,8`	`5,6`	`4,6`	`5,7`	`5,2`	`5,5`