Някои разглеждания във връзка с българските клавиатурни подредби

от Димитър Скордев

 

Съдържание

 

Увод

       Всеки избор на клавиатурна подредба може да се разглежда като избор на обратимо кодиране на буквите от дадена азбука и на някои други символи чрез определени обекти от специален вид.

       Пример 1. Ако една компютърна клавиатура и една инсталирана на нея българска подредба са от типа на масово използваните в България, можем да разгледаме релацията R между символи, дефинирана по следния начин: α R β точно тогава, когато при ненатиснат клавиш Caps-Lock символът α се набира при активност на въпросната българска подредба по същия начин, по който се набира символът β при активност на американско-английска подредба (например ако споменатата българска подредба е БДС, то  ? R @ ,  2 R 2 ,  И R R ,  и R r ,  § R } ,  ; R ] ,  Ч R " ,  ч R ' ,  Б R ? ,  б R / ). Така дефинираната релация е едно взаимно еднозначно съответствие между множеството на символите, които могат да се набират при активност на българската подредба, и множеството на онези, които могат да се набират при активност на американско-английската. Можем да я разглеждаме като обратимо кодиране на първия вид символи чрез символи от втория вид, което всъщност описва един начин за набиране на символите от първия вид при активност на българската подредба (за някои от тях има и друг начин, който изисква клавишът Caps-Lock да е бил натиснат, но от този друг начин тук няма да се интересуваме).

       Пример 2. Когато един мобилен телефон (поне от известните на автора видове) позволява да се изпращат SMS на кирилица, след привеждането на уреда в подходящ режим на работа буквите на наличната кирилица и известен брой други символи могат да се набират чрез натискане на съответни клавиши съответен брой пъти. Например буквата А се набира чрез еднократно натискане на клавиша, означен с 2, а буквата Б – чрез двукратно натискане на същия (за простота няма да правим разлика между главни и малки букви). Ще дефинираме една релация R между символи, които могат да се набират, и наредени двойки от означение на клавиш и положително цяло число, като приемем, че α R (β,k) точно тогава, когато символът α се набира чрез k-кратно натискане на клавиша, означен с β (ще имаме например съотношенията  А R (2,1)  и  Б R (2,2) ). Релацията R е едно взаимно еднозначно съответствие между множеството на символите, които могат да се набират, и подходящо крайно множество от двойки от описания вид. И в този случай можем да разглеждаме релацията R като обратимо кодиране, описващо как се набират буквите от кирилицата и другите символи при въпросния режим на работа.

       Като имаме кодирането на буквите и другите знаци, отговарящо на дадена клавиатурна подредба, набирането на текст с нейно използване е в известен смисъл кодиране на текста чрез замяна на всеки символ от него с неговия код. Понеже това кодиране ще трябва да се осъществява ръчно от потребителя, въпросите за удобството на осъществяването играят важна роля. В настоящия документ са отразени някои разглеждания в тази насока, направени от автора главно през 2006 г. във връзка с предстоящо тогава приемане на стандарт за българските подредби, използвани на клавиатурите на компютрите и на мобилните телефони. При тези разглеждания вниманието на автора беше насочено към кодирането на буквите от кирилицата и не се обсъждаха варианти на кодирането на останалите символи. За да се опише кодирането на буквите, ще бъде достатъчно да се опише кодирането на главните букви, тъй като ще става дума за подредби, при които изборът дали набраната буква да бъде главна или малка се постига чрез превключване на регистъра (с евентуално натискане на клавиша Shift в условията на пример 1 и по подходящ подобен начин в условията на пример 2).

       Част от резултатите на споменатите по-горе разглеждания са намерили място в документа [6]. При изработването на предложение за промяна на стандарта обаче са натежали и други съображения, изложени във въпросния документ, като част от тях са извън компетентността на настоящия автор (освен това той достигна до някои от заключенията си във връзка с подредбите за мобилни телефони тогава, когато по процедурни причини неговото мнение вече не можеше да се вземе пред вид). Сред решенията, залегнали във въпросното предложение (вж. [5]), има такива, които са различни от най-предпочитаните от автора, макар и да не са в противоречие с духа на неговите резултати.

 

С кои клавиши да се набират българските букви при фонетична подредба на компютърната клавиатура?

       При обсъждане на този въпрос е добре да се вземат пред вид две съществуващи реалности, които имат характер на стандарт – едната в резултат на постановления на Министерския съвет, а другата в резултат на масова практика. Това са от една страна транслитерацията, която се използва в българските документи за самоличност, и от друга страна фонетичните клавиатурни подредби, поддържани например от софтуер на инж. Генади Атанасов, на Датекс и на АКТ Софт. При въпросната транслитерация на всяка българска буква отговаря непразен низ от най-много три латински букви, който ще наричаме транслитерационен код на буквата (вариант на тази транслитерация, отличаващ се от нея само по използването на диакритичен знак в кода на „ер голям“, е предложен в [7]). При споменатите фонетични подредби пък на всяка българска буква отговаря ASCII символ от седембитовия диапазон, чрез клавиша за който символ се набира буквата при режим „кирилица“ на клавиатурата и който символ ще наричаме клавиатурен код на буквата. Транслитерационните и клавиатурните кодове на главните български букви са показани съответно на втория и на третия ред от таблицата по-долу, а кодовете на малките букви се получават от кодовете на главните по очевиден начин (при транслитерационните кодове се прави замяна на главните букви в тях с малки, а пък клавиатурните кодове се заменят със символите, набирани чрез същите клавиши в режим „латиница“, но при ненатиснат клавиш Shift). Както стана дума в увода, ние ще се ограничим по-нататък само с главните букви.
 

А
Б
В
Г
Д
Е
Ж
З
И
Й
К
Л
М
Н
О
П
Р
С
Т
У
Ф
Х
Ц
Ч
Ш
Щ
Ъ
Ь
Ю
Я
A
B
V
G
D
E
Zh
Z
I
Y
K
L
M
N
O
P
R
S
T
U
F
H
Ts
Ch
Sh
Sht
A
Y
Yu
Ya
A
B
W
G
D
E
V
Z
I
J
K
L
M
N
O
P
R
S
T
U
F
H
C
~
{
}
Y
X
|
Q

       Сравнението между двата вида кодове показва тяхното съвпадане за 19 български букви и различие за останалите. Различието разбира се е неизбежно за седемте български букви Ж, Ц, Ч, Ш, Щ, Ю и Я, чиито транслитерационни кодове имат дължини, по-големи от 1. Понеже различните български букви трябва да имат различни клавиатурни кодове, неизбежно е също да имаме различие за поне една от буквите А и Ъ и за поне една от буквите Й и Ь. Поради тази причина наличните различия за буквите Ъ, Й и Ь също не са особено смущаващи. Доста по-неприятно е обаче различието за буквата В, която освен това се среща и значително по-често в българските текстове. С оглед на по-лесното запомняне и използване на клавиатурните кодове твърде желателно би било при приемане на официален стандарт за фонетична клавиатурна подредба това различие да се отстрани, като новият клавиатурен код на В бъде V (разбира се това би повлякло след себе си промяната на поне още един клавиатурен код – този на буквата Ж). Такова леко изменение вероятно би било оптималното за голяма част от хората, които вече са свикнали да използват фонетична клавиатурна подредба при писане на кирилица. Приемането на стандарт обаче трябва да се прави с поглед не само към сегашното положение, но и към бъдещето. В случая би трябвало удобството за бъдещите ползватели на стандарта да има приоритет пред удобството му за нас самите и ние би трябвало да се примирим с някои малки затруднения, които бихме имали след въвеждането му. Поради това целесъобразно е освен гореспоменатото изменение да се направят и още няколко, които да бъдат за доброто на бъдещите ползватели. Направеното в [5] предложение за стандартизиране на фонетична клавиатурна подредба е именно в такъв дух (ще означаваме описаната в това предложение фонетичната подредба с юЧШЕРТЪ – по буквите, набирани с клавишите в горния ляв край).

       Целта на тази бележка е да покажем, че няколко естествено звучащи изисквания, които ще формулираме след малко, влекат с неизбежност клавиатурните кодове на българските букви да бъдат в почти всички случаи онези, които са в предложението от [5]. По-точно, те влекат това за 24 букви, за други четири някои естествени допълнителни съображения също довеждат до такъв резултат, а само за две букви (и то най-рядко използваните в български текстове) стигаме до заключение, отклоняващо се от предложението. Изискванията са следните:

  1. Множеството на клавиатурните кодове на българските букви да остане като цяло същото.
  2. Буквите Щ, Ю, Я (на които отговарят последователности от два звука) и буквата Ь (на която не отговаря отделен звук) да имат небуквени клавиатурни кодове.
  3. Клавиатурният код на всяка от буквите, различни от Ь, които имат еднобуквени транслитерационни кодове, да съвпада с нейния транслитерационен код или със сегашния й клавиатурен код и това да се направи така, че да бъде максимален броят на онези измежду въпросните букви, на които клавиатурните кодове съвпадат с транслитерационните.
  4. Клавиатурните кодове на българските букви с нееднобуквен транслитерационен код и на буквата Ь да се изберат така, че да бъде минимален броят на онези измежду въпросните букви, за които новият клавиатурен код се различава от сегашния.

       Изискването 3 определя еднозначно за 22 от българските букви кои трябва да бъдат клавиатурните им кодове, а именно, те трябва да бъдат показаните в следната таблица:
 

А
Б
В
Г
Д
Е
З
И
Й
К
Л
М
Н
О
П
Р
С
Т
У
Ф
Х
Ъ
A
B
V
G
D
E
Z
I
J
K
L
M
N
O
P
R
S
T
U
F
H
Y

(т.е. кодовете на тези 22 букви трябва да бъдат както в предложението от [5]). И наистина за всички от споменатите 22 български букви с изключение на В, Й и Ъ това е ясно поради съвпадане на транслитерационните и сегашните клавиатурни кодове, за Ъ е ясно поради съвпадане на транслитерационния й код с клавиатурен код на друга буква, единственото възможно решение за Ъ създава такова положение и за буквата Й, а за буквата В използваме условието за максималност в изискването 3. Оттук и от изискванията 1 и 2 следва, че за клавиатурни кодове на буквите Ж, Ц, Ч и Ш можем да избираме само измежду латинските букви C, Q, W и X, а за клавиатурни кодове на буквите Щ, Ь, Ю и Я – само измежду символите  ~{} и  |. При това положение изискването 4 определя еднозначно, че клавиатурните кодове на Ц, Щ и Ю трябва да бъдат досегашните – следователно за Ц и Щ трябва да бъдат както е в предложението, а за Ь и Ю не бива да бъдат както е в него. Единствената свобода, която ни оставят изискванията 1 - 4, е следната: за клавиатурни кодове на буквите Ж, Ч и Ш да избираме измежду буквите Q, W и X, а за клавиатурни кодове на Ь и Я – измежду символите ~ и {. За да се избере една от така оставащите 12 възможности, може вече да се използват мнемоничните съображения за графична прилика на Ж, Ч и Ш съответно с X, q и W, и съображението, че е добре Я да се набира по-лесно от Ь. Така избраната възможност дава една клавиатурна подредба, отличаваща се от подредбата юЧШЕРТЪ само по това, че ще бъдат разменени клавиатурните кодове на Ь и Ю. Ще означаваме получаващата се по този начин подредба с ьЧШЕРТЪ.

       Пред вид на това, че буквите Ь и Ю са най-рядко използваните букви от българската азбука (вж. приложение 1), резултатът, който получихме, не отхвърля, а по-скоро подкрепя предложението от [5], ако го сравняваме с евентуални други чувствително по-консервативни предложения (още повече, че значението на използваните тук изисквания не бива да се абсолютизира – например някои допълнителни изисквания за ергономичност биха могли да натежат в полза на точното осъществяване на предложението от [5]). Все пак този резултат показва, че може би е имало известно основание и за модификация на въпросното предложение, състояща се в размяна на клавиатурните кодове на Ь и Ю. Tакава модификация, не намалявайки броя на буквите със съвпадащи клавиатурни и транслитерационни кодове, би намалила с единица броя на онези, чиито нови клавиатурни кодове ще се различават от сегашните, при това без да влоши хигиенно-ергономичната оценка на подредбата от гледна точка на натоварването на пръстите (вж. приложение 2).

       Всъщност в изискванията 2 и 4 могат да се направят такива изменения, отнасящи се до буквата Ь, че ако направените по-горе разсъждения се модифицират в съответствие с тези изменения, да се стига точно до онези клавиатурни кодове, които са в предложението от [5]. Основание за такива изменения би могло да бъде обстоятелството, че Ь се използва в българските текстове многократно по-рядко от коя да е друга българска буква (вкл. и от Ю) и че небуквеният клавиш за |, чрез който понастоящем се набира Ю, има твърде неприятната особеност да бъде поставян на различни места в разните модели клавиатури, разпространени в България. Поради това за бъдещите ползватели на стандарта най-подходящ клавиатурен код на Ь сред сега използваните клавиатурни кодове на български букви вероятно би бил именно символът |. Измененията, за които стана дума, усилват изискването 2, като фиксират в него този избор на клавиатурния код на буквата Ь, а от друга страна те отслабват изискването 4, като не я включват в него. Изменените формулировки на изискванията 2 и 4 изглеждат така:
 
  2°. Буквите Щ, Ю, Я и Ь да имат небуквени клавиатурни кодове, като клавиатурният код на Ь бъде |.
  4°. Клавиатурните кодове на българските букви с нееднобуквени транслитерационни кодове да се изберат така, че да бъде минимален броят на онези измежду тях, за които новият клавиатурен код се различава от сегашния.

       За да видим какви биха били клавиатурните кодове на българските букви при спазване на изискванията 1, 2°, 3 и 4°, можем да разсъждаваме по начин, подобен на онзи за случая на изискванията 1 - 4. Изискването 3 по същия начин определя кои да бъдат клавиатурните кодове на 22-те български букви, посочени във втората от горните две таблици. Оттук и от изискванията 1 и 2° следва, че за клавиатурни кодове на буквите Ж, Ц, Ч и Ш можем да избираме само измежду латинските букви C, Q, W и X, а за клавиатурни кодове на буквите Щ, Ю и Я – само измежду символите  ~{  и  }. При това положение изискването 4° определя еднозначно, че клавиатурните кодове на Ц и Щ трябва да бъдат досегашните, както е и в предложението от [5]. Единствената свобода, която ни остава, е следната: за клавиатурни кодове на буквите Ж, Ч и Ш да избираме измежду буквите Q, W и X, а за клавиатурни кодове на Ю и Я – измежду символите ~ и {. Като използваме същите мнемонични съображения за графична прилика както по-рано и съображението, че е добре буквата Я да се набира по-лесно от буквата Ю поради много по-честото срещане на първата в сравнение с втората, стигаме точно до клавиатурните кодове, които съпоставя на българските букви предложението от [5].

       След включването на предложената нова фонетична подредба в българския държавен стандарт, което е станало през декември 2006 г., нарастнаха шансовете тя да получи софтуерно поддържане на ниво операционна система и например в новата версия на Windows има възможност и за фонетична българска подредба, а не само за подредбата БДС, както беше досега. С оглед на по-лесното преминаване към новата фонетична подредба смятам обаче за целесъобразно да има преходен период, през който тя и старата да бъдат равнопоставени от гледна точка на софтуерна поддръжка, като и двете получат софтуерно поддържане на ниво операционна система (както се вижда от страницата [12] на сайта на Microsoft, такова положение не би било прецедент за системата Windows – за някои езици тя поддържа даже значително повече от три клавиатурни подредби). Това е особено важно заради често срещания случай, когато на един и същ компютър се редуват да работят няколко души – тогава би трябвало всеки от тях да може да избира с коя от трите подредби (нова фонетична, стара фонетична и БДС) да работи и превключването от една към друга да става лесно. Ако само новата подредба бъде поддържана на ниво операционна система, а за старата се използват външни програми, има опасност на някои от въпросните компютри да не може да се ползва поддържаната на системно ниво нова фонетична подредба или използването й да бъде силно затруднено. Това би могло да се случи например поради пречки, породени от софтуерен продукт за поддръжка на старата, правещ нежелателни промени в операционната система. Според сведения от инж. Генади Атанасов [1], дадени през 2002 г., поне тогава някои кирилизиращи продукти, които правят такива промени (и то необратими), са били широко използвани с произтичащи от това неприятни последици. Най-вероятният резултат при подобна ситуация ще бъде това, че единствената фонетична подредба, използвана на такъв компютър, ще бъде старата – нещо, което безусловно ще вреди на разпространението на новата (например чрез увеличаване на броя на хората, на които ще им се наложи да свикнат със старата подредба и след това няма да имат желание да свикват и с новата). Може би по-разумно щеше да бъде да се включат в българския държавен стандарт както новата фонетична подредба, така и старата.

 

С кои клавиши да се набират българските букви при азбучна подредба на клавиатурата на мобилен телефон?

       Засега набирането на български букви чрез клавиатурата на мобилен телефон, който има такава възможност, става обикновено посредством азбучна подредба подобно на набирането на буквите от латинската азбука. А именно, ако A е думата, съставена от последователните букви на българската азбука или на някоя съдържаща я друга кирилска азбука (например руската), то на осемте клавиша с номера от 2 до 9 се съпоставят последователни части от A и със всеки от тези клавиши могат да се набират буквите от съответната му част от A. По-точно, първата буква от тази част се набира с еднократно натискане на клавиша, втората – с двукратно и т.н. Очевидно такова разделяне на думата A на части може да се направи по голям брой различни начини.

       На мобилните телефони в България обикновено буквите от кирилицата не са написани на клавишите за разлика от положението в Русия, където изписването на кирилицата върху клавишите е широко разпространено и даже позволява отклонения от азбучния принцип на подредба при някои модели телефони (вж. например изображенията към [8]). Когато буквите от кирилицата не са написани на клавишите, твърде желателно е подредбата да може да се запомня лесно. В случая на азбучна подредба, с който се занимаваме тук, един възможен начин за запомняне е да се запомни броят на буквите във всяка една от осемте части, на които е разделена думата A (към този начин е ориентирана и системата за означаване на азбучните подредби, използувана от Димитър Добрев – при нея например двете руски азбучни подредби, за които ще стане дума след малко, се означават с 4-4-4-4-4-4-4-4 и 4-4-4-3-3-4-5-5). Такова запомняне е най-лесно, когато частите са еднакво дълги. Разделяне на думата A на осем еднакво дълги части обаче е възможно само при дължина на A, кратна на 8, и затова е невъзможно, когато A е съставена от буквите на българската азбука. За руската азбука (без буквата Ё, която при ползване на мобилен телефон обикновено се заменя с Е) споменатата възможност за лесно запомняне се осъществява при разделянето на съответната дума A на следните части:

АБВГ ДЕЖЗ ИЙКЛ МНОП РСТУ ФХЦЧ ШЩЪЫ ЬЭЮЯ
Изглежда, че тази азбучна подредба е най-често използваната в Русия, но има и поне една друга руска азбучна подредба (авторът узна за нея от [3]) – тя се характеризира с разделяне на същата дума A на части
АБВГ ДЕЖЗ ИЙКЛ МНО ПРС ТУФХ ЦЧШЩЪ ЫЬЭЮЯ
и за нея запомнянето на дължините на осемте части би било по-трудно.

       Забележка. Има все пак мобилни телефони с руска кирилица, при които е налице и буквата Ё. На автора е известен апарат „Siemens ME 45“ с втората от горните две подредби, но с добавено Ё между Е и Ж (на този апарат впрочем след буквата З на същия клавиш е добавена и украинската буква Є).

       Всъщност дори и да помним дължините на частите, на които се разделя A при дадена азбучна подредба, използването на подредбата остава неудобно, особено за буквите, които са далече от двата края на азбуката. Например набирането на буквата П ще изисква да речем да изброяваме последователно буквите от азбуката, докато достигнем до П, като същевременно мислим за начина на набирането им, или пък, ако помним, че П е шестнадесетата буква на азбуката, да направим съответни пресмятания. Може би ще е по-удобно да се запомни думата, съставена от първите букви на осемте части, т.е. думата АДИМРФШЬ в случая на първата от споменатите две подредби или думата АДИМПТЦЫ в случая на втората (разбира се важното е да се запомнят седемте букви след първата, понеже тя със сигурност е А). Нека да речем е налице първата подредба и сме запомнили съответната осембуквена дума. Тогава ще можем да използваме, че П е след М, но преди Р, и значи е в частта, започваща с М – това вероятно би ни позволило по-бързо да съобразим как да наберем буквата. Разбира се тези грижи стават излишни, когато буквите от кирилицата са изписани на клавишите, но пък горните съображения биха могли да се вземат пред вид при надписването на клавишите – вместо да се пишат всички букви от кирилицата, които могат да се набират с даден клавиш, би могло при азбучна подредба да се пише само първата от тях или, по-добре, да се изписват буквите, когато са не повече от три, а в противен случай да се пишат само първата и последната с тире между тях.

       Понеже всички български букви са налице и в руската азбука, български текстове могат да се набират на мобилен телефон с руска клавиатурна подредба, но има някои неудобства. Едното от тях е, че някои букви ще се набират с повече натискания на съответния клавиш, отколкото ако чисто руските букви Ы и Э ги нямаше. Например при първата руска азбучна подредба наличието на буквата Э прави така, че за набирането на всяка от буквите Ю и Я да е необходимо клавишът, означен с 9, се натиска един път повече, отколкото ако я нямаше. Подобно но още по-лошо е положението при втората от руските азбучни подредби.

       Добре би било горната качествена преценка да се уточни с помощта на някаква количествена оценка. В [3] Димитър Добрев предлага за оценяването на коя да е българска подредба на клавиатурата на мобилен телефон да се използва средният брой натискания на клавиш за набирането на българска буква, т.е. числото

pАkА + pБkБ + … + pЮkЮ + pЯkЯ,
където pα е честотата на буквата α, а kα е броят на натисканията на съответния й клавиш, нужни за нейното набиране. За краткост ще наричаме това число трудоемкост на подредбата (всъщност то е оценка за трудоемкостта на писането при нейното използване). Очевидно по-малката трудоемкост трябва да се смята за положително качество на една подредба. Основавайки се на сведенията от [9] (приведени тук в приложение 1) за честотите на българските букви, Добрев пресмята трудоемкостта на предложената в [5] фонетична българска подредба на клавиатурата на мобилен телефон и на азбучните български подредби, отговарящи на следните разделяния на думата A на части: 
АБВГ ДЕЖЗ ИЙКЛ МНОП РСТУ ФХЦЧ ШЩЪ ЬЮЯ
АБВГ ДЕЖЗ ИЙКЛ МНОП РСТУ ФХЦЧ ШЩЪЬ ЮЯ
АБВГ ДЕЖЗ ИЙКЛ МНО ПРС ТУФХ ЦЧШЩЪ ЬЮЯ
АБВГ ДЕЖЗ ИЙКЛ МНО ПРС ТУФХ ЦЧШЩ ЪЬЮЯ
(първата и третата са получени от двете руски подредби чрез пропускане на руските букви, а втората и четвъртата се получават съответно от първата и третата с допълнителна оптимизация). За тези четири азбучни подредби, които Добрев нарича NOKIA, Motorola, LG и Неизвестна, се получават съответно следните стойности на трудоемкостта: 2,23, 2,21, 2,09 и 2,04. Трудоемкостта на фонетичната подредба пък се оказва 2,24. Като разполагаме с така пресметнатите стойности, можем лесно да пресметнем трудоемкостта на всяка от двете руски подредби, разглеждана като българска. Различието между така изтълкуваната първа руска подредба и първата от горните четири е само в това, че при първата руска числата kЮ и kЯ са с 1 по-големи. Очевидно това води до увеличение на трудоемкостта с pЮ+pЯ, което е около 1,97%, т.е. около 0,02. За втората от руските подредби различието с третата от горните е pЬ+2(pЮ+pЯ), т.е. около 0,04. И така, ако споменатите две руски подредби се използват като български, те ще имат трудоемкост съответно около 2,25 и около 2,13. Виждаме, че по разглеждания показател двете руски подредби са само с малко по-лоши от получаващите се от тях български азбучни подредби. По-сериозното неудобство на такова тяхно използване е това, че те всъщност не са азбучни подредби за българската азбука в смисъла на определението, което приехме, защото за някои букви (за Ю и Я при първата от въпросните подредби, за Ь, Ю и Я при втората) броят на натисканията на съответния им клавиш е по-голям отколкото при азбучна подредба (както отбелязва Д. Добрев в [3], „не е добре да се използват руски клавиатури за писане на български език, защото макар че буквите са на същите клавиши, все пак има две излишни букви, които объркват пишещия“).

       Пресметнатите от Добрев трудоемкости дават повод на Антон Зиновиев да разгледа няколко оптимизационни задачи във връзка с трудоемкост на азбучни български подредби. В [4] той съобщава за следните получени от него резултати, базиращи се на публикуваните в [9] честоти на българските букви:

  1. Сред всички азбучни български подредби най-малка трудоемкост има онази, която отговаря на подразделянето
    АБВГ ДЕЖЗ ИЙК ЛМ НОП РС ТУФХЦ ЧШЩЪЬЮЯ .
    Нейната трудоемкост е 1,87.
     
  2. Сред всички азбучни български подредби, отговарящи на подразделяния с дължини на частите, ненадминаващи 6, най-малка трудоемкост има онази, която отговаря на подразделянето
    АБВГ ДЕЖЗ ИЙК ЛМ НОП РС ТУФХЦЧ ШЩЪЬЮЯ .
    Нейната трудоемкост е 1,89.
     
  3. Сред всички азбучни български подредби, отговарящи на подразделяния с дължини на частите, ненадминаващи 5, най-малка трудоемкост има онази, която отговаря на подразделянето
    АБВГ ДЕЖЗ ИЙКЛМ НОП РС ТУФХ ЦЧШЩ ЪЬЮЯ .
    Нейната трудоемкост е 1,94.
     
  4. Сред всички азбучни български подредби, отговарящи на подразделяния с дължини на частите, ненадминаващи 4, най-малка трудоемкост има онази, която отговаря на подразделянето
    АБВГ ДЕЖЗ ИЙКЛ МН ОПРС ТУФХ ЦЧШЩ ЪЬЮЯ .
    Нейната трудоемкост е 2,00.
Зинoвиев коментира получените резултати така: „Аз лично мисля, че ако ще трябва да се обосновава изборът на клавиатурна подредба, най-лесно е това да се направи за последната от тези клавиатури – просто по-горните отпадат, защото има някои телефони (макар и малко) при които е трудно да се надпишат по 5 букви на клавиш. А измежду всички клавиатури с не повече от четири клавиша избраната е оптимална“. Като добра страна на последната подредба отбелязва и равномерното разпределение на буквите – всички клавиши освен един са с по четири букви (както при наредбата Motorola, която обаче е с по-голяма трудоемкост).

       Авторът на настоящия документ е наклонен да не дава голямо тегло на съображението за трудното надписване, като има пред вид възможността да се посочват само първата и последната буква. Например при подредбата от т. 1 би могло да се използва следното надписване за кирилицата:
 
2
а-г
3
д-з
4
ийк
 5 
лм
6
ноп
 7 
рс
8
т-ц
9
ч-я

В случай пък, че липсва надписване за кирилицата, за относително удобното й използване, както отбелязахме, ще е достатъчно запомнянето на подходяща осембуквена дума, започваща с А, независимо от равномерността или неравномерността на разпределението на буквите по клавишите. За четирите подредби, намерени от Зиновиев, съответните думи са  АДИЛНРТЧАДИЛНРТШАДИНРТЦЪ  и  АДИМОТЦЪ.  Би могло да се приеме, че известно предимство на последната от подредбите е по-лесната произносимост на съответната й дума и произтичащото от това по-лесно нейно запомняне.

       Намирането на азбучната българска подредба, която е с най-малка трудоемкост, подтикна настоящия автор да потърси измежду всички български подредби (вкл. неазбучните) такава, която да е с най-малката възможна трудоемкост. Вземайки за основа даденото в [9] подреждане на българските букви по низходящ ред на честотите им (вж. приложение 1), лесно можем да видим, че така поставената задача има  (8!)4 / 2  решения (този брой е едно 19-цифрено число). Кое да е от решенията се получава, като за всяка от първите осем букви от въпросното подреждане приемем да се набира с еднократно натискане на някой от клавишите, означени с 2, 3 и т.н. до 9, за всяка от следващите осем – с двукратно натискане на някой от същите клавиши, за всяка от по-следващите осем – с трикратно и за всяка от последните шест – с четирикратно натискане на някой измежду споменатите клавиши. Ако извършим съпоставянето на клавиши по реда на буквите в използваното подреждане, ще получим следната подредба: 
2
авъщ
3
елбш
4
идуф
5
опчй
6
нкгю
7
тмжь
8
рзц
9
сях

Другите подредби, които са решения на задачата, могат да се получат чрез премествания на букви от едни клавиши на други без промяна на поредния номер на буквата върху клавиша (т.е. без да се променя броят на натисканията, нужен за нейното набиране). Гореописаната подредба, както и всяка от другите получаващи се по описания начин, има трудоемкост 

pА+pЕ+pИ+pО+pН+pТ+pР+pС+
2(pВ+pЛ+pД+pП+pК+pМ+pЗ+pЯ)+
3(pЪ+pБ+pУ+pЧ+pГ+pЖ+pЦ+pХ)+
4(pЩ+pШ+pФ+pЙ+pЮ+pЬ),
пресмятането на която с данните от [9] дава стойност около 1,49.  Съмнително е обаче дали тази по-ниска отколкото при азбучните подредби трудоемкост е пълноценно използваема, защото при писането би имало забавяне за търсене на буквите по клавишите (освен ако сред астрономическия брой решения на задачата има някое, при което търсенето е достатъчно просто).

       Когато приемането на стандарта беше все още предстоящо, но процедурата по приемането му беше в силно напреднал стадий, авторът направи някои изследвания и разсъждения за изясняване на определени допълнителни въпроси относно азбучните подредби с минимална трудоемкост. Направеното е отразено накратко в приложение 3. Пред вид на това, че през декември 2006 г. като стандартна азбучна българска подредба е била приета подредбата Motorola, която не е сред въпросните подредби, споменатите изследвания и разсъждения могат да представляват в настоящия момент главно теоретичен интерес.
 

 

Приложение 1
Честота на българските букви

       В рубриката „Честота на буквите в теkстове на български и английски език“ на статията [9] от Б. Стефанов и В. Бирданова са дадени следните резултати (в проценти) от проучвания на авторите за честотата на буквите в някои български текстове (описани по видове, но не посочени изрично):

А  11,60    Е   9,21     К   2,99     П   3,05     Ф   0,37     Щ   0,43
Б   1,65    Ж   0,77     Л   3,57     Р   5,42     Х   0,67     Ъ   1,71
В   4,71    З   2,36     М   2,68     С   5,02     Ц   0,75     Ь   0,01
Г   1,19    И   8,82     Н   8,09     Т   7,38     Ч   1,44     Ю   0,11
Д   3,11    Й   0,32     О   8,75     У   1,54     Ш   0,42     Я   1,86
(като пишем главни букви, имаме пред вид общо главните и малките).

       Забележка 1. В по-подробните сведения е посочено за буквите Ь и Ю, че те са се срещнали съответно 37 и 380 пъти сред преброените 352975 букви; това позволява да получим за честотите на Ь и Ю по-точните стойности 0,0105% и 0,108%.

       В статията е дадено и произтичащото от горната таблица подреждане на буквите в низходящ ред на честотата им, а именно 

А Е И О Н Т Р С В Л Д П К М З Я Ъ Б У Ч Г Ж Ц Х Щ Ш Ф Й Ю Ь

       Стефанов и Бирданова цитират статията [10] на Б. Пенков и съавтори, публикувана през 1962 г., и дават сведения за посоченото в нея подреждане на българските букви по низходящ ред на честотата им в един откъс от романа „Под игото“. В тези сведения обаче е налице грешка, отнасяща се до буквата „ер малък“ – поставена е на мястото непосредствено след „ер голям“, докато всъщност във въпросната статия честотите на двете букви са сумирани и няма данни за тези честоти поотделно. Всъщност от публикуваните в [10] данни се получават следните честоти в проценти на буквите в изследвания от нейните автори откъс (съдържащ 131050 букви и интервали между думи):

А  12,99     Е   9,22     К   3,76     П   3,03     Ф   0,12     Щ   0,61
Б   1,82     Ж   0,61     Л   3,03     Р   4,61     Х   0,85    Ъ+Ь  1,94
В   4,25     З   2,18     М   2,43     С   4,49     Ц   0,49             
Г   1,70     И   8,37     Н   6,43     Т   7,16     Ч   1,33     Ю   0,12
Д   3,64     Й   0,73     О   9,22     У   1,70     Ш   1,09     Я   2,06
(получават се чрез преизчисляване на процентите от статията, тъй като там при тяхното пресмятане са били взети пред вид и интервалите между думите).

       В днешно време извършването на подобни изследвания е лесна задача благодарение на изобилието на обширни български текстове в електронен вид (вкл. романа „Под игото“). Тя може да се решава с помощта на прости програми, написани на някой от разпространените езици за програмиране. За съжаление в статията [10] няма сведения за кой именно откъс от романа се отнасят публикуваните данни и поради това тя не дава възможност да се реши със съвременни средства точно същата задача. Затова пък може, като се използва електронното издание [2] на романа, да се намерят честотите на буквите в целия него. Разбира се редно е при изследването да се ограничим със същинския текст на романа, като за целта пренебрегнем например многократно срещащите се добавки от вида „Обратно към: [Под игото][Иван Вазов][СЛОВОТО]“ и „WEB програмиране - Пламен Барух“. Получават се следните резултати, към които ще добавим още, че общият брой на българските букви в същинския текст се оказа 577952, както и че „ударено“ И, ударено А и ударено О са броени като различни от неударените и се срещат с честоти съответно около 0,065%, 0,0026% и 0,0005%:

А  12,52     Е   9,09     К   3,76     П   2,80     Ф   0,17     Щ   0,64
Б   1,81     Ж   0,73     Л   3,15     Р   4,50     Х   0,91     Ъ   1,88
В   4,38     З   2,28     М   2,51     С   4,60     Ц   0,52     Ь   0,01
Г   1,84     И   8,04     Н   6,15     Т   7,10     Ч   1,53     Ю   0,13
Д   3,63     Й   0,85     О   9,21     У   1,77     Ш   1,25     Я   2,20

       Забележка 2. Тъй като в текста [2] вместо „ударено“ И се използва Й, преценени са като „ударено“ И онези малки Й, които нито се предхождат непосредствено, нито се следват непосредствено от буква.

       Забележка 3. В [2] вместо български ударени А и О се използват латински, но при броенето на буквите и те бяха тълкувани като български. Като български бяха тълкувани и някои латински букви, появили се тук-там в текста вместо българските, набирани със същия клавиш при фонетична клавиатурна подредба (и в повечето случаи изглеждащи по същия начин).

       Вероятно резултатите на Стефанов и Бирданова по-добре отговарят на положението в днешния писмен български език, понеже са получени въз основа на разнообразни по-нови текстове. Да обърнем обаче внимание, че все пак тези автори са търсили само общия брой на участията на Й без да ги делят на „истински“ и такива, които заместват „ударено“ И. Всъщност такова деление няма и да е от значение при въпросите за клавиатурните подредби, докато продължава използването на Й вместо „ударено“ И.
 

 

Приложение 2
Натоварване на пръстите при ползване на различни фонетични подредби на компютърната клавиатура

       При така наречената десетопръстна система, наричана още сляпа или осезателна (touch typing, вж. [11]), на всеки от основните клавиши на компютърната клавиатура се съпоставя някой от пръстите на ръцете, по-точно – някой от осемте пръста, различни от палците (да наречем тези пръсти активни). Съпоставянето се прави така, че всеки клавиш да може да се натиска удобно със съответния му пръст (казва се, че клавишът е в зоната на действие на този пръст). Обичайните съпоставяния са две и се различават само за някои от клавишите, с които се набират цифри, като нецифровите клавиши в лявата и в дясната част на същия ред попадат в зоните на действие на съответните малки пръсти. Разпределението по зони на клавишите от по-долните редове личи от следното изображение, заимствано от [9]:
 

зони на действие

       В рубриката „Натоварване на пръстите в зависимост от клавиатурната подредба“ авторите на статията [9] предлагат при всяка клавиатурна подредба като мярка за натоварването на кой да е от активните пръсти да се използва сборът от честотите на онези букви, чиито клавиши са в зоната на този пръст (например при подредбата QWERTY натоварването на малкия пръст на лявата ръка да се измерва чрез сбора от честотите на буквите Q, A и Z). Предлагат също като мярка за натоварването на дадена от двете ръце да се използва сборът от мерките за натоварване на нейните активни пръсти. Приема се, че е добре по-натоварена да бъде по-силната от двете ръце (която обикновено е дясната), а пък измежду пръстите на всяка една от ръцете по-натоварени да бъдат показалците и средните пръсти. Използвайки честотите, определени в рубриката „Честота на буквите в теkстове на български и английски език“, авторите пресмятат мерките за натоварването на всеки един от осемте активни пръста и на всяка от двете ръце за случаите на подредбата БДС, на фонетичната подредба ЯВЕРТЪ и на подредбата QWERTY. Даваме таблицата с въпросните мерки, допълнена със съответните числа за двете фонетични подредби юЧШЕРТЪ и ьЧШЕРТЪ, обсъждани в текста „С кои клавиши да се набират българските букви при фонетична подредба на компютърната клавиатура?“.
 
Натоварване на пръстите и на ръцете (в %)
в зависимост от клавиатурната подредба
Зона Подредба
Ръка Пръст Б Д С ЯВЕРТЪ юЧШЕРТЪ ьЧШЕРТЪ QWERTY
Лява малък  0,12 17,26 15,51 15,41  7,75
безименен  3,72  9,74  6,21  6,21  9,08
среден 22,52 13,07 13,07 13,07 18,95
показалец 19,13 16,78 20,72 20,72 22,50
о б щ о 45,49 56,85 55,51 55,41 58,28
Дясна малък  8,88  4,01  5,35  5,45  2,74
безименен 11,39 12,32 12,32 12,32 13,75
среден 18,53 11,81 11,81 11,81  7,28
показалец 15,71 15,01 15,01 15,01 17,95
о б щ о 54,51 43,15 44,49 44,59 41,72

       От таблицата се вижда, че подредбите юЧШЕРТЪ и ьЧШЕРТЪ преодоляват недостатъка на подредбата ЯВЕРТЪ малкият пръст на лявата ръка да бъде по-натоварен от нейния показалец. Те намаляват натоварването на безименния и малкия й пръст, а в известна степен и натоварването на ръката като цяло. При дясната ръка натоварването на малкия пръст нараства, но продължава да е значително по-малко от натоварванията на другите три нейни активни пръста, които натоварвания остават същите. Макар натоварването на лявата ръка да продължава да е по-голямо от това на дясната, разликата между двете натоварвания е малко по-малка отколкото при подредбата ЯВЕРТЪ. Сумарно може да се каже, че замяната на подредбата ЯВЕРТЪ с която и да е от подредбите юЧШЕРТЪ и ьЧШЕРТЪ подобрява ергономичността по отношение на натоварването на пръстите и ръцете. Сравнявайки пък една с друга последните две подредби, забелязваме леко предимство на втората пред първата в това отношение. Друго (според нас по-съществено) предимство на втората пред първата е по-малкият с единица брой на клавишите, за които има различие с ЯВЕРТЪ. Трудният въпрос е дали тези две предимства могат да компенсират недостатъка буквата Ю, а не съвсем рядко срещащата се Ь, да е на клавиш, който е на различни места при различните клавиатури.

 

Приложение 3
Някои въпроси във връзка с оптималност на азбучни български GSM-подредби

       По-долу следват извадки от някои електронни писма, които авторът е изпращал на Антон Зиновиев и на Димитър Добрев през периода от 15 до 25 ноември 2006 г. (част от извадките се придружават от поясняващи ги забележки). В доста от писмата се подкрепя стандартизирането на намерената от Зиновиев подредба с минимална трудоемкост сред подредбите с до четири букви на клавиш. Използвани са предложените от Добрев означения на азбучните подредби чрез изреждане (разделени с тирета) на броевете на буквите върху последователните клавиши с номера от 2 до 9 (понякога тиретата се пропускат). При тези означения подредбата с минимална трудоемкост се записва като 4-4-4-2-4-4-4-4, а подредбата Motorola – като 4-4-4-4-4-4-4-2. Писмата са писани преди авторът да стигне до идеята да се препоръчва на потребителите запомняне на азбучната подредба чрез запомняне на съответната осембуквена дума в случаите, когато липсват надписи за кирилицата.

15 ноември, до А. Зиновиев с копие до Д. Добрев
Забележка. Проверката дали не се получават други решения, за която става дума в писмото, е извършена с помощта на програма, различна от онази, която е използвал Зиновиев.

       Наистина ми беше интересно писмото Ви. Мисля, че сте свършили много добра работа. Ако не надделеят някакви съображения, свързани със съществуващото положение, и според мене би трябвало да се предложи решението на задачата, при което има до четири букви на клавиш.
 
       Между другото, проверих дали случайно не се получават други решения, ако данните за честотите се вземат с един десетичен знак повече, отколкото са в статията на Стефанов и Бирданова (в тяхната таблица са дадени и използваните при пресмятането на честотите броеве на буквите). Получиха се същите решения.
 
       P.S. В таблицата, за която стана дума, две от честотите (за буквите Т и Щ) са закръглени в погрешната посока. Поправянето на тези грешки също не се отразява на решенията.
 
16 ноември, до А. Зиновиев с копие до Д. Добрев

       Вчера аз Ви писах следното по повод на таблицата за честотите в статията на Стефанов и Бирданова: „В таблицата, за която стана дума, две от честотите (за буквите Т и Щ) са закръглени в погрешната посока. Поправянето на тези грешки също не се отразява на решенията“. Всъщност вероятно не се касае за грешки в смятането, а за напасване с цел сборът от закръглените проценти да излезе 100 (при коректно извършване на въпросните закръглявания той би излязъл 99.8). По-скоро грешката е в избора на буквите, за чиито честоти е извършено споменатото закръгляване в погрешна посока – той би могъл да се направи така, че относителната грешка от закръгляването на съответните проценти да бъде по-малка (допускам изборът на буквата Щ да се дължи на това, че при коректно закръгляване би се получило едно и също число за Ш и за Щ, нямам представа обаче какви биха могли да бъдат съображенията за избора на Т).
 
       Дали ще работим с честотите на буквите или с числа, пропорционални на тези честоти, не играе роля при търсенето на оптималните подредби. Бихме могли например да работим със самите броеве на отделните букви в текста, въз основа на който са смятани честотите (тогава разглежданите оптимални задачи добиват доста осезаем смисъл, а именно търсене на подредба, при която въпросният текст може да се набере с минимален брой натискания на клавишите). Само при пресмятането на средния брой натискания за буква при намерената подредба ще трябва в общия случай да делим получаващия се сбор от произведения със сбора на използваните кратни на честотите.
 
16 ноември, до Д. Добрев
Забележка. В писмото се оспорват мотивите към предложението за стандартизиране на подредбата Motorola (вж. т. 3.3 от [6]).

       Преди г-н Зиновиев да беше установил оптималното свойство на подредбата 4-4-4-2-4-4-4-4, аз бях наклонен да се предложи наредбата на Motorola, защото не ми беше известна по-добра азбучна подредба. Подредбата 4-4-4-2-4-4-4-4 обаче е по-икономична, а нейното запомняне е доста лесно. При това въпросът за запомнянето не е от първостепенна важност, защото нормалното положение, изисквано от стандарта, ще бъде буквите да се изписват. Понеже тази подредба е различна от фактически използваните, отпадат упреците за привилегироване на една или друга фирма. Стандартът е пожелание, което евентуално да се спазва при произвежданите в бъдеще устройства, и няма защо да се вълнуваме за потребителите на наличните в момента такива.
 
16 ноември, до Д. Добрев

       От двете азбучни подредби 4-4-4-4-4-4-4-2 и 4-4-4-2-4-4-4-4 втората е по-удобна за използване при ненадписани с бъларски букви клавиши. Човек запомня особеността, че на клавиша с цифрата 5 стоят двете букви М и Н, а останалите букви са по четири на клавиш. Търсенето на буквите от А до Л може да стане както при първата подредба (евентуално последните измежду тях биха могли да се търсят по-лесно с връщане назад от клавиша с цифрата 5). Буквите от О нататък обаче ще са по-лесни за намиране при втората подредба отколкото при първата (евентуално последните измежду тях биха били еднакво лесни за намиране – при положение, че се прави търсене назад от клавиша с цифрата 9). Например ако човек търси буквата Т, при втората подредба е достатъчно да изредим в ума си четирите букви на клавиша с цифрата 6, за да видим, че Т е първата от буквите на клавиша с 7 (при първата подредба даже и чрез търсене назад от клавиша с 9 би било по-трудно от това). За да имаме подобни възможности при първата подредба, би трябвало да помним например по-сложната информация, че на клавиша с 5 (който е един от многото клавиши с по четири букви) стоят буквите М, Н, О и П.
 
21 ноември, до Д. Добрев

       Подредбата, която предлагате, се запомня по-лесно от подредбата 4-4-4-2-4-4-4-4, но се използва по-трудно въз основа на така запомнената информация точно в случая, когато трябва да се разчита на нея (т.е. когато българските букви не са написани на клавишите). Сравняването на броя на хората, които ще трябва да се преучват, едва ли има по-голяма тежест от сравняването по икономичност поради това, че, както и Вие отбелязвате, общият брой на пишещите SMS-и на кирилица е малък.
 
21 ноември, до Д. Добрев

       Очевидно и при подредбата на Motorola човек би могъл да започва броенето от други места вместо от началото (даже Ви писах това преди пет дни). Само че в такъв случай ще отпадне нейното предимство, състоящо се в по-лесното запомняне – това, което ще трябва да се помни за нея, няма да е по-просто от онова, което трябва да се помни за подредбата 4-4-4-2-4-4-4-4.
 
22 ноември, до Д. Добрев
Забележка. В писмото се обсъжда аргументът, че научаването на подредбата Motorola е по-лесно отколкото това на подредбата 4-4-4-2-4-4-4-4.

       Пренебрегнато е обстоятелството, че има различни видове научаване от гледна точка на практическото използване. Теоретичното научаване на една азбучна подредба означава научаване на нейното описание, а то е само дефиниция на една осемчленна редица от низове, на които конкатенацията е 30-буквеният низ
 АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЬЮЯ 
Практическото използване на подредбата обаче изисква боравене с изображение, което на всяка буква от въпросния низ съпоставя двойка, състояща се от увеличения с 1 пореден номер на низа от осемчленната редица, в който се намира въпросната буква, и от нейния пореден номер в този низ. Ако дефиницията на подредбата е конструктивна, което е нормалният случай, то разбира се споменатото изображение е конструктивно осъществимо, но неговото осъществяване само въз основа на дефиницията може да среща практически затруднения, които да го забавят. За удобството на осъществяването обикновено е целесъобразно да се запомнят и някои факти, които следват от дефиницията, но не са включени в нейната формулировка. Тяхното запомняне има една или друга сложност и тя би трябвало да се добави към сложността на теоретичното научаване на подредбата, когато преценяваме трудността на научаване на тази подредба. За съжаление не разполагам с математически модел на тези неща, позволяващ тяхно по-прецизно третиране, затова разчитам на тяхното съдържателно разбиране.
 
22 ноември, до А. Зиновиев с копие до Д. Добрев
Забележка. Всяко от числата под „ср. бр. натиск.“ е трудоемкостта на съответната наредба при съответните честоти на буквите. Броенето на буквите в “Под игото“ е извършено без тънкостите, за които става дума в забележки 2 и 3 от приложение 1.

       Въпреки че в направеното предложение за стандарт е препоръчана (главно във връзка със съществуващото положение) подредбата на Motorola, потърсих от любознателност при разни срещащи се честоти на буквите кои са оптималните азбучни подредби за GSM при не повече от 4 букви на клавиш. Разгледах следните случаи:
а) от статията на Стефанов и Бирданова - случаите, чрез чието сумиране е получен общият (те са: речник, вестник, научнопопулярен текст и научен текст);
б) моя входяща и изходяща електронна поща през настоящата година и през всяка от предходните три (без някои тематики и кореспонденти, отделени в други mbx файлове);
в) електронно издание на романа „Под игото“.
 
       Резултатите са в таблицата накрая (при пощата „бр. букви“ се отнася само за български букви - останалите не се броят). Интуитивно е обяснимо, че при никоя от оптималните подредби последният клавиш не е с три букви - когато той е с три букви двете най-рядко използвани български букви се оказват в неоправдано привилегировано положение.
 
 
  Случай        бр. букви  подредба  ср. бр. натиск.
------------------------------------------------------
речник            81006    44334444       2.069
вестник           80967    44424444       1.968
научнопоп. т.     73196    44334444       1.973
научен текст     117806    44334444       1.986
вх. поща  '06    154314    44442444       1.971
изх. поща '06    130269    44424444       1.976
вх. поща  '05    158181    44442444       1.920
изх. поща '05    130095    44424444       2.016
вх. поща  '04      5800    44424444       1.973    
изх. поща '04     53608    44424444       1.974
вх. поща  '03     74826    44424444       1.984
изх. поща '03     49217    44334444       1.988
"Под игото"      577911    44334444       1.999
22 ноември, до А. Зиновиев с копие до Д. Добрев

       В предишното писмо за някои конкретни честоти на буквите се намираха оптималните азбучни подредби за GSM при не повече от 4 букви на клавиш. Към края писах: „Интуитивно е обяснимо, че при никоя от оптималните подредби последният клавиш не е с три букви - когато той е с три букви двете най-рядко използвани български букви се оказват в неоправдано привилегировано положение“. Тук ще изложа едно разсъждение, което при едно предположения за честотите на последните четири букви от българската азбука установява истинността на съдържащото се в горното изречение твърдение за оптималните подредби с не повече от 4 букви на клавиш; при това предположението е изпълнено за нормалните български текстове (за тях въпросните честоти, дадени в проценти, би трябвало да са близки съответно до числата 1.71, 0.01, 0.11 и 1.86 от статията на Стефанов и Бирданова). Ще докажа следното:
 
       Нека честотите на буквите Ъ, Ь, Ю и Я са съответно a, b, c и d, като е изпълнено неравенството 2a>b+c+d. Тогава за всяка азбучна подредба, която е с три букви на последния клавиш и с не повече от четири на всеки от останалите, може да се намери друга азбучна подредба с не повече от четири букви на клавиш, за която средният брой на натисканията на клавишите при набиране на буква е по-малък.
 
       Доказателство. Нека е дадена произволна азбучна подредба, която е с три букви на последния клавиш и с не повече от четири на всеки от останалите. Понеже на клавишите без предпоследния може да има най-много 27 букви, на него трябва да има поне 3 букви. На последния клавиш ще бъдат буквите Ь, Ю и Я, а последната буква на предпоследния ще бъде Ъ. При тази подредба членовете с a, b, c и d в израза за средния брой натискания на клавишите при набиране на буква ще имат сбор, не по-малък от 3a+b+2c+3d. Да разгледаме сега подредбата, която се получава чрез прехвърляне на буквата Ъ на последния клавиш. При нея членовете с a, b, c и d в израза за средния брой натискания на клавишите при набиране на буква ще имат сбор a+2b+3c+4d, а всички други членове на израза ще бъдат същите както при първоначалната подредба. От направеното предположение за a, b, c и d обаче следва, че a+2b+3c+4d<3a+b+2c+3d.
 
23 ноември, до Д. Добрев с копие до А. Зиновиев
Забележка. В писмото става дума за минимизация на трудоемкостта (средния брой натискания за буква)

       Нестабилност на точката, където се достига екстремум, е налице при голям брой екстремални задачи, но съответната стойност на разглежданата функция обикновено е стабилна. В разглеждания случай искаме да минимизираме една функция от целочислени аргументи, която е с реални стойности и с крайна дефиниционна област и на която стойността зависи не само от стойностите на аргументите, но и от  29  реални параметъра.  Понеже при фиксирани стойности на аргументите зависимостта от параметрите е непрекъсната (даже е линейна), лесно се вижда, че стойността на минимума е непрекъсната функция на параметрите. Точката обаче, в която той се достига, не би могла да зависи по непрекъснат начин от параметрите, освен ако би била една и съща при всякакви техни стойности, а случаят не е такъв.
 
       За нас са от интерес не толкова тези съображения, колкото въпросът дали точката на екстремума остава една и съща при стойностите на параметрите, отговарящи на реални ситуации. Оказва се, че не е така, и тогава възниква пък въпросът дали при подходящ независещ от параметрите избор на точка от дефиниционната област и при стойностите на параметрите, отговарящи на реални ситуации, стойността на функцията във въпросната точка би могла да бъде винаги приемливо близка до минималната (разбира се тези неща се нуждаят от уточняване).
 
       Ако се ограничим със случаите от вчерашното ми писмо, но без входящата поща от тази и миналата година, може да се приеме, че подредбата 4-4-4-2-4-4-4-4 представлява един такъв избор. Ето какви са нейните стойности и стойностите на съответните оптимални подредби в случаите, когато тя не е оптимална (всъщност във всички тези случаи се оказва оптимална подредбата 4-4-3-3-4-4-4-4):
               оптимална 44424444
речник           2.069     2.076
научнопоп. т.    1.973     1.981
научен текст     1.986     1.988
изх. поща '03    1.988     1.991
"Под игото"      1.999     2.007
       Изключването на входящата поща от тази и миналата година е съвсем оправдано, защото се оказва, че там има в изобилие писма, които са били с кодиране utf-8, а моята Eudora ги е записала в „маймунски“ вид с огромен брой участия на българско Р.
 
23 ноември, до А. Зиновиев с копие до Д. Добрев

       Ако са дадени две вероятностни разпределения върху множеството на българските букви, да означим с d евклидовото разстояние между двете точки в 30-мерно пространство, на които координатите са съответно компонентите на едното разпределение и компонентите на другото. Нека една българска азбучна клавиатурна подредба за GSM, която е с не повече от четири букви на клавиш, има при едното от двете разпределения най-малък среден брой натискания на клавиш за буква сред всички такива подредби и нека този най-малък среден брой е m. Тогава при другото разпределение произволна българска азбучна клавиатурна подредба за GSM, която е с не повече от четири букви на клавиш, ще има среден брой натискания на клавиш за буква, който е не по-малък от числото m, намалено с произведението на числата d и квадратен корен от 99.
Забележка. Грубо казано, горното твърдение сочи, че не може малки изменения на честотите на буквите да доведат до голямо намаляване на минималната трудоемкост за разглеждания клас от подредби. Един усилен вариант на същото твърдение, в който вместо числото 99 стои доста по-малкото число  1121∕30,  може да се получи от следното помощно твърдение: ако са дадени две вероятностни разпределения върху множеството на българските букви и дадена българска азбучна клавиатурна подредба за GSM, която е с не повече от четири букви на клавиш, има трудоемкост P при първото разпределение и трудоемкост Q при второто, то е в сила неравенството  | P − Q | ≤ Kd ,  където K е квадратният корен от числото  1121∕30 , а d е евклидовото разстояние между двете точки в 30-мерно пространство, на които координатите са съответно компонентите на едното разпределение и компонентите на другото. За доказателството на това твърдение нека означим за всяка българска буква α нейните вероятности при първото и при второто разпределение съответно с pα и qα , а с kα да означим броят на натисканията на клавиш, чрез които става нейното набиране при разглежданата подредба. Тогава ще имаме равенствата
P =  pαkα ,   Q =  qαkα ,
където сумирането се извършва по всички български букви α. Тъй като   pα =  qα = 1 , при всеки избор на реално число c ще имаме равенството
P − Q = (pαqα)(kαc)
и следователно (съгласно неравенството на Коши-Буняковски)
(P − Q)2 ≤ d2 (kαc)2.
При  c = (∑ kα)∕30  това дава неравенството
(P − Q)2 ≤ d2 ( kα2 − (∑ kα)2 / 30).
В конкретния случай всяко от числата kα е някое от числата 1, 2, 3 и 4. При i=1,2,3,4 да означим с ni броя на онези букви α, за които kα=i. Изпълнени са следните равенства и неравенства:
n1+n2+n3+n4=30,    8≥n1n2n3n4 ,     kα = n1+2n2+3n3+4n4 ,     kα2 = n1+4n2+9n3+16n4 .
Понеже числата ni са цели и неотрицателни, от първото равенство и неравенствата след него лесно се заключава, че n1=n2=8 и е налице една от следните две възможности: или n3=n4=7, или n3=8, n4=6. За израза   kα2 − (∑ kα)2 / 30  получаваме стойност  1121∕30 = 37,3666…  в първия случай и стойност  35,2  във втория, следователно и в двата случая стойността на израза  (P − Q)2  не надминава произведението на d2 с числото  1121∕30.  С това помощното твърдение е доказано (да отбележим, че ако при доказателството бяхме използвали стойност 1 на c, щяхме да получим вариант на помощното твърдение с  99  вместо  1121∕30 ). За да получим от помощното твърдение споменатия по-горе усилен вариант на твърдението от писмото, достатъчно е да отбележим, че от неравенствата  | P − Q | ≤ Kd  и  P ≥m  следва неравенството  Q ≥m − Kd . От същото помощно твърдение може да се получи и едно друго следствие, което може интуитивно да се тълкува в смисъл, че ако една подредба от разглеждания клас има при дадено вероятностно разпределение минимална трудоемкост, то при достатъчно близките други вероятностни разпределения трудоемкостта на тази подредба ще бъде приблизително минимална. Следствието може да се изкаже така: ако са дадени две вероятностни разпределения върху множеството на българските букви и дадена българска азбучна клавиатурна подредба за GSM, която е с не повече от четири букви на клавиш, има при първото от двете разпределения най-малка трудоемкост сред всички такива подредби, то при второто разпределение трудоемкостта на произволна българска азбучна клавиатурна подредба за GSM, която е с не повече от четири букви на клавиш, ще бъде не по-малка от намалената с 2Kd трудоемкост на дадената, където K и d имат същия смисъл както в помощното твърдение. За да докажем така формулираното следствие, да означим с P0 и Q0 трудоемкостта на дадената подредба при първото и при второто разпределение, а с P и Q – трудоемкостта при първото и при второто разпределение на произволна българска азбучна клавиатурна подредба за GSM, която е с не повече от четири букви на клавиш. Ще имаме неравенствата
| P − Q | ≤ Kd ,    | P0 − Q0 | ≤ Kd ,    P ≥ P0
и остава само да отбележим, че от тях следва неравенството  Q ≥ Q0 − 2Kd .
24 ноември, до А. Зиновиев с копие до Д. Добрев
Забележка. Под „двете подредби“ се разбират подредбата Motorola и подредбата 4-4-4-2-4-4-4-4.

       Към двете подредби (и още една друга) може да се подходи по следния общ начин.
 
       Осемте клавиша, с които се набират букви, се разделят на две групи по четири - първата се състои от клавишите с цифри от 2 до 5, а втората е от онези, които са с цифри от 6 до 9. Разделяме азбуката на две части – от началото до определено място и от това място нататък, но така, че всяка от двете части да съдържа най-много по 16 букви (ясно е, че това може да стане по три начина – 16 и 14, 15 и 15, 14 и 16). Буквите от първата и от втората част разполагаме по азбучен ред съответно върху клавишите от първата група и върху онези от втората група, като поставяме по четири на клавиш, докато може. Трите подредби, които се получават по този начин, са 4-4-4-4-4-4-4-2, 4-4-4-3-4-4-4-3 и 4-4-4-2-4-4-4-4. За сравнително удобно използване на коя да е от тях при липса на съответното надписване на клавишите е достатъчно да се знае принципът на подреждането и да се помни коя буква е на първа позиция на първия клавиш от втората група (т.е. на клавиша с цифрата 6) – за да открием как се набира дадена буква, придвижваме се до нея от буквата, която е на първа позиция на клавиша с 2 (т.е. от буквата А) или от онази, която е на първа позиция на клавиша с 6, в зависимост от това дали интересуващата ни буква е от първата или от втората част на азбуката.
 
       Ако използваме дадените от Стефанов и Бирданова честоти на буквите, за гореспоменатите три подредби получаваме съответно такива средни броеве на стъпките, нужни за намирането на дадена буква: 6.36, 6.18, 5.25 (приел съм, че буквите на първа позиция на клавишите с 2 и с 6 се намират за 0 стъпки, следващите след тях в азбуката – за 1 стъпка, по-следващите – за 2 стъпки и т.н.). За трите подредби средните броеве натискания на клавиш за буква са 2.21, 2.27, 2.00. Виждаме, че подредбата 4-4-4-2-4-4-4-4 е забележимо по-добра от другите две и по двата показателя.
 
24 ноември, до А. Зиновиев с копие до Д. Добрев
Забележка. В писмото се има пред вид постановката от предходното писмо.

       Можем да намалим средния брой на стъпките, нужни за намирането на дадена буква при подредбата 4-4-4-4-4-4-4-2, ако си послужим с друго разделяне на клавишите за букви на две групи и съответното друго разделяне на азбуката на две части. А именно, нека пръв клавиш от втората група да бъде онзи с цифрата 5 (значи на първа позиция на първия клавиш от втората група да бъде буквата М). Тогава се получава среден брой на стъпките 4.74 (при начина за работа с подредбата 4-4-4-2-4-4-4-4, разгледан в предишното писмо, средният брой беше 5.25).
 
       Един минус на гореописания начин на използване на подредбата 4-4-4-4-4-4-4-2 е обстоятелството, че двете групи от клавиши не са равночислени, и поради това разделянето се запомня малко по-трудно.
 
25 ноември, до Д. Добрев

       Самообучаването на потребителите вероятно ще протича така, както Вие пишете – постепенно те ще запомнят нови начални точки на броенето. Поне за някои потребители обаче вероятно би бил полезен и би ускорил процеса на самообучение съветът да запомнят като втора начална точка онази, за която моите съображения показват, че ще бъде най-подходяща като такава (т.е. ако подредбата е онази на Motorola, да запомнят, че първата буква на клавиша с 5 е М, а в случая на подредбата 4-4-4-2-4-4-4-4 да запомнят, че първата буква на клавиша с 6 е О).

 

Литература

  1. Атанасов, Г. Практическа теория на кирилизацията в седем точки.
    http://injinera.bgplus.com/teoria1.htm
  2. Вазов, И. Под игото.
    http://www.slovo.bg/showwork.php3?AuID=14&WorkID=5778&Level=1
  3. Добрев, Д. Аzbuqna podredba (електронни писма с дати 13.11.2006 и 14.11.2006).
  4. Зиновиев, А. Re: =>Re: azbuqna podredba (електронно писмо с дата 14.11.2006).
  5. Клавиатурни подредби на устройства за писане на български език  (работен вариант на стандарт, заменящ БДС 5237-78).
    http://www.metodii.com/BDS5237T.pdf    (заглавна страница)
    http://www.metodii.com/bds52372005.pdf    (текст на стандарта)
  6. Мотиви за промяната на БДС 5237-78.
    http://www.metodii.com/Bulgarian_Motivi.pdf
  7. Нов правописен речник на българския език. БАН, София, 2002.
  8. Обзор GSM-телефона Alcatel 310.
    http://www.mobile-review.com/review/alcatel-310.shtml
  9. Стефанов, Б., Бирданова, В. Хигиенно-ергономична оценка на компютърните клавиатурни подредби. Computer, 1997, 2, 56-62.
    http://www.eunet.bg/media/media.html?media=38874542
  10. Penkov, B., Obretenov, A., Sendov, B., Kirpikova, T., Joukanov, T. Frequences of letters in written Bulgarian. C. r. Acad. bulgare Sci., 15, 1962, 243-244.
  11. Touch typing.
    http://en.wikipedia.org/wiki/Touch_typing
  12. Windows Keyboard Layouts.
    http://www.microsoft.com/globaldev/reference/keyboards.mspx