Создать ответ 
Появился БКРС с полными иероглифами!
Автор Сообщение
Sapomaro Не на форуме


Сообщений: 201
Польза: 2862.6

Сообщение: #1
Появился БКРС с полными иероглифами!
Правда лишь частично с полными, т. к. в традиционном написании были добавлены только заголовки, карточки же остались нетронутыми.

Теперь (45+ версия):
3 029 644 заголовков
1 516 653 карточек

Хитрый алгоритм задействовал исходники 漢語大詞典 и CEDICT, а для слов, отсутствующих в них, были подобраны всевозможные комбинации, учитывая то, что один сокращённый иероглиф может иметь несколько полных.

Если нужно перелить в другие места, обращайтесь! (Пароль стандартный, как везде в http://bkrs.info/download.php)
Ссылки в http://bkrs.info/download.php.


Не стесняйтесь высказывать замечания и предложения!
08-12-2011 06:03
Цитировать это сообщение
eksodus Не на форуме


Сообщений: 108
Польза: 533.6

Сообщение: #2
RE: Появился БКРС с полными иероглифами!
мне как-то бкрс делал скрипт на питоне по добавлению традиционных иероглифов на основе вот этого - http://zh.wikipedia.org/zh/Wikipedia:繁简处理/简繁单字
после его использования при компиляции вылазили ошибки , так как часть сателлитов была добавлена в традиционных иероглифах , и поэтому были дубли карточек
Sapomaro, как вы решали эту проблему с ошибками ? и как много ошибок у вас было при компиляции ?
08-12-2011 09:51
Цитировать это сообщение
бкрс Не на форуме


Сообщений: 2 158
Польза: 4717.3

Сообщение: #3
RE: Появился БКРС с полными иероглифами!
Там только один сателит с одиночными традиционными иероглифами. Их по хорошему надо удалить перед конвертацией в традиционный вид.

Sapomaro, если будет возможно сделайте его максимально мобильным, чтобы он не тащил за собой целиком 漢語大詞典 и CEDICT. Может там только заголовки можно сделать.
Тогда его можно более широко использовать.
08-12-2011 15:11
Цитировать это сообщение
Sapomaro Не на форуме


Сообщений: 201
Польза: 2862.6

Сообщение: #4
RE: Появился БКРС с полными иероглифами!
(08-12-2011 09:51)eksodus писал(а):  Sapomaro, как вы решали эту проблему с ошибками ? и как много ошибок у вас было при компиляции ?

Лично у меня ошибок не было никаких, т. к. скрипт при добавлении заголовков проверяет, чтобы они не повторялись в базе.

Единственный минус - там есть мусорные слова, поскольку скрипт добавляет все комбинации слов, в которых простые иероглифы имеют несколько полных вариантов.

(08-12-2011 15:11)бкрс писал(а):  Там только один сателит с одиночными традиционными иероглифами. Их по хорошему надо удалить перед конвертацией в традиционный вид.

В принципе одиночные традиционные иероглифы удалить несложно, у меня уже есть кое-какие соображения.

(08-12-2011 15:11)бкрс писал(а):  Sapomaro, если будет возможно сделайте его максимально мобильным, чтобы он не тащил за собой целиком 漢語大詞典 и CEDICT. Может там только заголовки можно сделать.

Скрипт как раз использует только заголовки этих двух словарей, плюс файл с заголовками БКРС для сверки. Для экономии времени и ресурса проца все эти базы подгружаются в оперативу и занимают там порядка 300 метров (всё делается через апач с пхп). Мобильным скрипт не назовёшь, и даже при таком раскладе он лопатит всё очень долго (где-то час на проце пень 4 с 3гГц при загрузке 50%).

Если говорить подробнее, для каждой базы создаётся массив с именными ключами.
1) Сначала проверяется наличие слова из базы БКРС (27 мб) в объединённой базе 漢語大詞典 и CEDICT (5,7 мб).
2) Если соответствие не найдено, то слово разбивается на максимальное количество составных частей размером от 2-х и более иероглифов и опять идёт сверка с базами 漢語大詞典 и CEDICT. В итоге получаются заготовки, где половине иероглифов уже найдено однозначное соответствие. Эта часть нужна, чтобы сократить количество мусорных слов, которые образуются в 3-м пункте.
3) Далее скрипт заполняет иероглифами пустые места в получившихся заготовках, используя более-менее полную базу полных и сокращённых иероглифов, которую я нарыл в инетах (я её подредактировал, убрав некоторые очень редкие иероглифы для часто употребляемых простых, чтобы было меньше мусора). Подбираются всевозможные комбинации (достаточно взглянуть на слова с 干).
4) После этого скрипт проверяет, чтобы заголовки не повторялись, и добавляет их в новую базу.

Наверно можно придумать более удачное решение, у кого есть какие мысли?

Теоретически можно сделать уменьшенную копию скрипта, чтобы при добавлении новых слов онлайн сразу делались двойные заголовки с возможностью их редактирования (т. к. иногда они получаются тройными или даже более того).
08-12-2011 18:55
Цитировать это сообщение
бкрс Не на форуме


Сообщений: 2 158
Польза: 4717.3

Сообщение: #5
RE: Появился БКРС с полными иероглифами!
А чем вариант, который вы же ранее предлагали не подходит - конвертировать по иероглифам, и там где возможны более одного варианта, просто добавлять все варианты. То есть, тут таблицы соответствий хватит.
08-13-2011 15:23
Цитировать это сообщение
Sapomaro Не на форуме


Сообщений: 201
Польза: 2862.6

Сообщение: #6
RE: Появился БКРС с полными иероглифами!
(08-13-2011 15:23)бкрс писал(а):  А чем вариант, который вы же ранее предлагали не подходит - конвертировать по иероглифам, и там где возможны более одного варианта, просто добавлять все варианты. То есть, тут таблицы соответствий хватит.

Я сначала пробовал именно так, но в таком случае скрипт создаёт больше мусорных слов — на целый миллион! И как ни странно, он работает гораздо медленнее, т. к. вынужден перебирать намного больше неоднозначных соответствий. Однако это всё справедливо только для конвертации всей базы словаря, а если же добавлять таким образом слова по-отдельности, опять-таки — с возможностью редактирования, то будет вполне приемлемо.

Можем разобрать простой пример:

1) При использовании базы CEDICT:
乌干达 = 烏干達
2) Без использования баз сторонних словарей:
乌干达 = 烏干達, 烏乾達, 烏幹達, 烏榦達

А теперь прибавим к этому производные слова из БКРС:
乌干达人
乌干达共和国
乌干达桃花心木
乌干达沙门氏菌
乌干达沙门菌
乌干达犊梨浆虫病
乌干达锥虫

В первом случае у нас в итоге получится 8 традиционных слов, а во втором как минимум 32.

Хотя на самом деле не всё так радужно)
Глянул новоиспечённый словарь: с 烏干達 есть все производные слова, а также там откуда-то взялись те же 烏乾達人, 烏幹達人, хотя 烏幹達錐蟲 почему-то уже нет.
Исправлю, если к онлайну будет приделываться версия скрипта, использующая базы 漢語大詞典 и CEDICT (там, кстати, в сумме ~350 тыс. слов, причём не все из них только с традиционным написанием).
08-13-2011 17:39
Цитировать это сообщение
бкрс Не на форуме


Сообщений: 2 158
Польза: 4717.3

Сообщение: #7
RE: Появился БКРС с полными иероглифами!
У 干 же только 干 и 乾, остальное это разнопись.
08-14-2011 20:22
Цитировать это сообщение
Не на форуме


Сообщений: 223
Польза: 2329.7

Сообщение: #8
RE: Появился БКРС с полными иероглифами!
(08-13-2011 17:39)Sapomaro писал(а):  Исправлю, если к онлайну будет приделываться версия скрипта, использующая базы 漢語大詞典 и CEDICT (там, кстати, в сумме ~350 тыс. слов, причём не все из них только с традиционным написанием).

было еще много баз в традиционном варианте:
當代漢英詞典.TXT
台灣國語辭典.txt
四角 号码27585字.xls
эти базы все в традиционном начертинии, по ним можно ориентироваться и убрать "уродцев", иначе...можно далеко уйти...от правдыcwm
09-12-2011 20:14
Цитировать это сообщение
Sapomaro Не на форуме


Сообщений: 201
Польза: 2862.6

Сообщение: #9
RE: Появился БКРС с полными иероглифами!
(09-12-2011 20:14)風 писал(а):  было еще много баз в традиционном варианте:
當代漢英詞典.TXT
台灣國語辭典.txt
四角 号码27585字.xls

Какая-то из них тоже была использована для единичных иероглифов, правда у неё в заголовке значилось "全字集繁體字簡體字對照表" (金門 李慶豐). А остальных у Вас нет случайно? Лень гуглить)

Кстати, если Вы вдруг заметите какие-нибудь ошибки в словаре (я говорю про новую, не эту, а 46-ю версию), то пишите!
09-13-2011 01:04
Цитировать это сообщение
Не на форуме


Сообщений: 223
Польза: 2329.7

Сообщение: #10
RE: Появился БКРС с полными иероглифами!
(09-13-2011 01:04)Sapomaro писал(а):  Какая-то из них тоже была использована для единичных иероглифов, правда у неё в заголовке значилось "全字集繁體字簡體字對照表" (金門 李慶豐). А остальных у Вас нет случайно? Лень гуглить)

они-то есть. это не таблицы сравнения, а готовые списки слов и выражений из тайваньских словарей. дадите почту- скину.
09-13-2011 04:47
Цитировать это сообщение
Создать ответ 




Пользователи просматривают эту тему: 3 Гость(ей)