Роман Янковский

Словарь английской морфологии

Среда, Январь 9th, 2008

Чтобы вы не думали, что я тут фигней страдал все это время, представляю вашему вниманию словарь английской морфологии aot.ru в формате БД FireBird (информации об ударениях в базе нет, только морфология). Логин/пароль к базе стандартный: SYSDBA/masterkey

Не буду останавливаться подробно на структуре базы, просто приведу пример запроса к ней, кому нужно поймет. Этот запрос для любой формы слова “KISS” вернет информацию обо всех возможных его формах:
[sourcecode language=’sql’]
select lematta_base||fm_flexia, ancode_partofspeech, ancode_grammems
from fm_sets, flexia_models, ancodes,
lematta join words_hash on wh_lemattaid=lematta_id and wh_word = ’KISS’
where lematta_fmsid = fms_id
and fm_id=fms_fmid
and ancode_id = fm_ancode
[/sourcecode]
Результат выполнения:

KISS          NOUN      NARR,SG
KISSES        NOUN      NARR,PL
KISS          VERB      INF
KISSES        VERB      PRSA,SG,3
KISSED        VERB      PASA
KISSED        VERB      PP
KISSING       VERB      ING

На моем весьма и весьма средненьком компьютере запрос выполнился за 47ms, имхо это достаточно быстро.

Структура базы практически совпадает с схемкой изображенной в описаловке на aot.ru:

На схеме содержится ошибка: связь между FlexiaModel и Lematta изображена как один-к-одному, а на самом деле там многие-ко-многим и у меня она реализована через дополнительную табличку FM_SETS. Таблицы PrefixSets, AccentModels и Sessions у меня отстутствуют. Для быстрого поиска по базе добавлена таблица WORDS_HASH, которая содержит все известные словарю формы слов со ссылкой на их леммы в таблице LEMATTA.

СКАЧАТЬ (4,5Мб)

За проделанную работу меня можно отблагодарить, купив мне пива — от баночки до пары ящиков, скинув соответствующую сумму на кошелек Z056891184532. Работа была проделана непростая, поверьте :)

Posted in: Работа.

8 Responses to “Словарь английской морфологии”

  1. Dastin Says:

    спасибо огромное…жаль на вебмани сейчас полный 0!
    вот на либерти бы вам пива купил…пришлите на мыло кошелек!

  2. db Says:

    мегареспект ) на АВО с меня пиво ;)

  3. Tex Says:

    Великолепно!!!

    Вот что реально интересно и полезно, в отличие от десятка одинаковых анонсов партнерок и обмусоливания очередного фильтра Гугла!..

    Респект!..

  4. GTAlex Says:

    Для начала нужно английский изучить :)
    а то VERB PRSA,SG,3 для меня мало что дает

  5. Roman Yankovsky Says:
    GTAlex, вот тут есть расшифровка - http://www.aot.ru/docs/engmorph.html
  6. David Jacques-Louis Says:

    Отличная работа проделана. Говорю как сеошник-лингвист.

  7. Alexander Pankov Says:

    А зачем это делать в БД? Работает-то очень медленно, и требования по ресурсам — аццкие.

    Есть замечательная переписка АОТовской морфологии, lemmatizer.org, работает мультитредно и в 10 раз быстрее. Экономична.

    Кстати, в 100 раз проще использовать.

  8. riktes Says:

    Тем не менее, это решение, которое автор любезно выложил на публику. Жаль, что не в mySQL формате ;)

Leave a Reply