как автоматически удалить окончание в словах

Поделиться107.02.2024 07:04:28

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1419
Уважение: [+28/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 18 часов
Последний визит:
Сегодня 05:51:11

Есть список слов, всего 11 тыс. Они получены методом поиска всех слов в справке, и я хочу составить индекс.
Для пример несколько слов из списка:

Код:

аккумулятор
аккумулятора
аккумуляторе
аккумуляторная
аккумуляторную
аккумуляторов
аккумулятору
аккумуляторы

Мне нужно либо получить одно слово "аккумулятор", либо тот же список с удалёнными окончаниями, при этом я обработаю список удалением дубликатов и получу слово в одном экземпляре.
Задача из 11 тыс. слов сделать список размером 1000 слов за счёт удаления однокоренных с окончаниями. Я хочу использовать это слово для поиска, то есть человек вводит в строке поиска "акк" и ему предлагается в раскрывающемся списке автозавершения слово "аккумулятор". Предлагаемых слов может быть больше, например для "то" выводится например "токовый", "токарь" и т.д. Просто я не хочу чтобы получить десяток однокоренных слов с разными окончаниями, по сути забивающие список мусором.
Возможно нужен какой-то словарь, который вычленить корни слов, то есть умеет у слова показать корень и я смогу получить корни слов, в общем любые идеи...

0

Поделиться207.02.2024 15:46:04

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+1/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
26.04.2026 14:48:57

AZJIO
Обрезать не проблема. Я бы на PowerShell скрипт написал.
Алгоритм примерно такой (для отсортированного списка, когда одинаково начинающиеся более короткие выше более длинных):
- Берём первую строку в качестве базового слова, сохраняем её.
- Цикл по всем следующим строкам:
- Если строка длиннее базового слова и начало совпадает с базовым словом, пропускаем строку
- Иначе сохраняем строку и берём её в качестве базового слова.
Хотя, мне кажется, подобный "индекс" будет неправильным. Ведь аккумулятор и аккумуляторная (помещение для аккумуляторов) это всё-таки разные слова, а не просто словоформы одного слова.
Другие подобные примеры: компьютер и компьютеризация, снег и снегоход, стол и столяр.
В то же время, в словах аккумуляторная и аккумуляторную так просто не обрезать окончание.
Плюс 100500 нюансов русского языка в виде беглых гласных, чередований гласных...
Мне кажется, нужен словарь, по возможности наиболее полный, содержащий только базовые формы слов. Вот по нему и проверять.

Отредактировано Smitis (07.02.2024 15:46:37)

0

Поделиться307.02.2024 18:11:57

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1419
Уважение: [+28/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 18 часов
Последний визит:
Сегодня 05:51:11

Smitis
У меня возникала мысль, если 2 и более слов подряд имеют одинаковость 70 и более процентов, то обрезать до этих 70℅. Не однокоренные слова будут иметь границу 50℅. Тот же стол и столяр 4+2, это будет 66+33℅. В любом случае можно под регулировать проценты.
Если я потеряю 10℅ слов в любом случае это лучше чем руками перебирать 11 тыс.

0

Поделиться407.02.2024 19:11:34

Автор: Замабувараев
Активный участник
Зарегистрирован: 30.04.2023
Приглашений: 0
Сообщений: 62
Уважение: [+1/-1]
Позитив: [+0/-0]
Провел на форуме:
19 часов 28 минут
Последний визит:
19.04.2025 14:07:09

А ещё вам следует предусмотреть что пользователь может вводить слова с ошибками или опечатками.

0

Поделиться507.02.2024 19:43:54

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+1/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
26.04.2026 14:48:57

AZJIO написал(а):

Тот же стол и столяр 4+2, это будет 66+33℅.

столов, столам (мн.ч.)
столик
столиц (от столицы)
столб
столен (не знаю, что это)
столищ
столки
столку
столок
столп
столпи
столпя
столь
Это я по словарю пробежался )) https://dikmax.name/post/russian-dictionary/
В общем, я бы копал в этом направлении - словарь со словоформами. К сожалению, по ссылке выше словоформы от основных слов отделены, какое к чему относится неизвестно.

0

Поделиться608.02.2024 15:12:17

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1419
Уважение: [+28/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 18 часов
Последний визит:
Сегодня 05:51:11

В общем спасибо за подсказку destiny child здесь и всем кто пытался помочь. Онлайн Стемминг просто выдаёт готовый результат.

0

Поделиться709.02.2024 03:50:52

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1419
Уважение: [+28/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 18 часов
Последний визит:
Сегодня 05:51:11

Webarion
Появится RadixTree(), он уже есть в бета.

0

Поделиться809.02.2024 12:29:53

Автор: Пётр
Активный участник
Зарегистрирован: 14.06.2009
Приглашений: 0
Сообщений: 3184
Уважение: [+105/-5]
Позитив: [+1/-0]
Пол: Мужской
Провел на форуме:
2 месяца 14 дней
Последний визит:
01.05.2026 22:42:47

AZJIO написал(а):

Появится RadixTree(), он уже есть в бета.

Строка 1: RadixTree() не является функцией, массивом, макросом или связным списком.

Это в IDE появился.

0

Поделиться909.02.2024 18:54:10

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1419
Уважение: [+28/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 18 часов
Последний визит:
Сегодня 05:51:11

Жаль, я уже готовился использовать предполагая, что есть функция, которая превратит список в дерево.
Как то я высказался в теме про алгоритм поиска файлов, что проверка расширения по строке работает медленно и быстрее если расширения превратить в список, мне ответил, что он уже сделал что-то в виде RadixTree и это ещё быстрее моего предложения. И при разговоре о RadixTree я подумал, что будет теперь некая карта/список, в которую можно добавить элемент типа AddElementRadixTree() и элемент будет разложен на дерево. Вообще хотелось бы, чтобы был такой инструмент и он был простым и имел простые функции - создать, добавить элемент, проверить наличие элемента. Некоторые словари думаю быстрее бы работали имея такое дерево, так как не пришлось бы проверять весь список, а совершались бы прыжки по указателям. При длине слова 6 символов мы прыгаем максимум через 6 указателей и пробегаемся в среднем по 26/2=13 символов, то есть 6*13=78 шагов, не важно сколько база содержит слов, а если бы пришлось пробежаться по 100 тыс слов, очевидно что это будет работать медленно 100000*6/2 = 300000 шагов.
Ещё бы сохранять/открывать это дерево в бинарном виде, так как создание такого дерева методом вставки слов будет не быстрым.

Отредактировано AZJIO (09.02.2024 19:09:33)

0

Поделиться1011.02.2024 23:47:07

Автор: Пётр
Активный участник
Зарегистрирован: 14.06.2009
Приглашений: 0
Сообщений: 3184
Уважение: [+105/-5]
Позитив: [+1/-0]
Пол: Мужской
Провел на форуме:
2 месяца 14 дней
Последний визит:
01.05.2026 22:42:47

Можно взять файл RadixTree.pb и использовать в своих проектах.

0

Поделиться1113.02.2024 12:53:41

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1419
Уважение: [+28/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 18 часов
Последний визит:
Сегодня 05:51:11

Пётр написал(а):

Можно взять файл RadixTree.pb и использовать в своих проектах.

Я толком не разобрался в лицензии, насколько я понял лицензия подразумевает использование функционала если вы распространяете свою программу с исходниками, то есть также свободную и с лицензий что люди должны быть осведомлены, что программа свободна и имеет исходники. Даже если программа продаётся, модифицированные исходники прилагаются, только не понятно на весь ли продукт или только в плане функционала.

0

Поделиться1213.02.2024 19:48:58

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1419
Уважение: [+28/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 18 часов
Последний визит:
Сегодня 05:51:11

Webarion написал(а):

Лучше всего конечно написать свой RadixTree, и забыть об этих лицензиях навсегда.

Если бы этот модуль был встроен в PureBasic, то всё было бы ясно, он бы имел ту же лицензию как и любой код созданный PureBasic`ом.

Webarion написал(а):

а вот с Fantaisie нужно разобраться.

вот как раз тут всё просто, если ты принял участие в разработке IDE, то это уже принадлежит Fantaisie, если не согласен то не пытайся помогать им. Они для того и сделали код открытым чтобы в его разработке участвовали знающие люди. Для себя и для общего блага. А лицензия защита от того что ты потом не подашь в суд, после предоставления какого-то кода для IDE, который был туда встроен.

Другое дело использование кода за пределами проекта, ведь могут найтись люди, который тупо скопируют все целиком и скажут что это их продукт, вот от этого и защита, что предоставленный код не окажется в чьих то руках как собственность. Ну и хотелось бы явно увидеть возможность использования частей кода в коммерческих проектах. Если это не описано понятным языком, то надо принимать это как недоступное. То есть я могу использовать при условии распространения своего кода открытым и ещё уведомить об этом пользователя или продать но обязательно уведомить что код открытый и то можешь взять его и скомпилировать. Также я могу предположить что если бы было разрешение брать код для коммерческой выгоды, то также любой может взять весь IDE и выдать за свой коммерческий проект, наверняка авторы этого бы не хотели. То есть адекватно разрешение такого не должно быть, можно только надеяться на чудо, которого я пока явно не нашёл в лицензии. Но не исключаю, что можно спросить авторов об этом и они всё скажут включая индивидуальное разрешение на какую либо часть с иными условиями. У меня прям нет сейчас в этом необходимости, но если вдруг возникнет желание продать прогу, а в ней окажется такой код, будет проблема, поэтому и хочется чтобы всё было изначально разрешено. Долго вкладывать огромные усилия, а потом понять что имеешь ограничение это неприятный риск. Когда-то я в винду так вкладывался и ещё окажешься виноватым, но теперь ушёл от этого.

Отредактировано AZJIO (13.02.2024 19:52:23)

0

Поделиться1314.02.2024 12:10:45

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1419
Уважение: [+28/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 18 часов
Последний визит:
Сегодня 05:51:11

Сделал Стеминг для AkelPad, теперь надо переписать его на SpiderBasic.

0

PureBasic - форум

Меню навигации

Пользовательские ссылки

Информация о пользователе