Чтобы вы не думали, что я тут фигней страдал все это время, представляю вашему вниманию словарь английской морфологии aot.ru в формате БД FireBird (информации об ударениях в базе нет, только морфология). Логин/пароль к базе стандартный: SYSDBA/masterkey

Не буду останавливаться подробно на структуре базы, просто приведу пример запроса к ней, кому нужно поймет. Этот запрос для любой формы слова “KISS” вернет информацию обо всех возможных его формах:
[sourcecode language=’sql’]
select lematta_base||fm_flexia, ancode_partofspeech, ancode_grammems
from fm_sets, flexia_models, ancodes,
lematta join words_hash on wh_lemattaid=lematta_id and wh_word = ’KISS’
where lematta_fmsid = fms_id
and fm_id=fms_fmid
and ancode_id = fm_ancode
[/sourcecode]
Результат выполнения:

KISS          NOUN      NARR,SG
KISSES        NOUN      NARR,PL
KISS          VERB      INF
KISSES        VERB      PRSA,SG,3
KISSED        VERB      PASA
KISSED        VERB      PP
KISSING       VERB      ING

На моем весьма и весьма средненьком компьютере запрос выполнился за 47ms, имхо это достаточно быстро.

Структура базы практически совпадает с схемкой изображенной в описаловке на aot.ru:

На схеме содержится ошибка: связь между FlexiaModel и Lematta изображена как один-к-одному, а на самом деле там многие-ко-многим и у меня она реализована через дополнительную табличку FM_SETS. Таблицы PrefixSets, AccentModels и Sessions у меня отстутствуют. Для быстрого поиска по базе добавлена таблица WORDS_HASH, которая содержит все известные словарю формы слов со ссылкой на их леммы в таблице LEMATTA.

СКАЧАТЬ (4,5Мб)

За проделанную работу меня можно отблагодарить, купив мне пива — от баночки до пары ящиков, скинув соответствующую сумму на кошелек Z056891184532. Работа была проделана непростая, поверьте :)

Январь 9th, 2008

9 Responses to “Словарь английской морфологии”

  1. Январь 9th, 2008 at 6:09 дп #DastinNo Gravatar

    спасибо огромное…жаль на вебмани сейчас полный 0!
    вот на либерти бы вам пива купил…пришлите на мыло кошелек!

  2. Январь 9th, 2008 at 8:10 дп #dbNo Gravatar

    мегареспект ) на АВО с меня пиво ;)

  3. Январь 9th, 2008 at 9:27 дп #TexNo Gravatar

    Великолепно!!!

    Вот что реально интересно и полезно, в отличие от десятка одинаковых анонсов партнерок и обмусоливания очередного фильтра Гугла!..

    Респект!..

  4. Январь 17th, 2008 at 7:43 дп #GTAlexNo Gravatar

    Для начала нужно английский изучить :)
    а то VERB PRSA,SG,3 для меня мало что дает

  5. Январь 17th, 2008 at 12:32 пп #Roman YankovskyNo Gravatar

    GTAlex, вот тут есть расшифровка - http://www.aot.ru/docs/engmorph.html
  6. Март 3rd, 2008 at 11:24 пп #David Jacques-LouisNo Gravatar

    Отличная работа проделана. Говорю как сеошник-лингвист.

  7. Март 26th, 2008 at 3:48 пп #Alexander PankovNo Gravatar

    А зачем это делать в БД? Работает-то очень медленно, и требования по ресурсам — аццкие.

    Есть замечательная переписка АОТовской морфологии, lemmatizer.org, работает мультитредно и в 10 раз быстрее. Экономична.

    Кстати, в 100 раз проще использовать.

  8. Август 6th, 2008 at 4:13 пп #riktesNo Gravatar

    Тем не менее, это решение, которое автор любезно выложил на публику. Жаль, что не в mySQL формате ;)

  9. Декабрь 22nd, 2008 at 4:45 пп #Seo блог разработчикаNo Gravatar

    Великий респект автору! пригодится для Black Seo ))

Leave a Reply

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>