Ссылки на группы в регулярном выражении

Страница: 1

Сообщений 1 страница 26 из 26

Поделиться114.10.2021 10:43:14

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

Из предложенных вариантов использовал RegexReplace2 как компактную и вполне выдавала ожидаемое, но столкнулся с проблемой

Код:

#RegExp = 0
Define Path$ = "C:\ProgramData\Microsoft\Windows\Start Menu\Programs\7-Zip\7-Zip File Manager"
CreateRegularExpression(#RegExp , "(^.{3,11}/|.{11})(.*)(/.{6,27}|.{27})$" )
Debug RegexReplace2(#RegExp, Path$, "\1...\3" )

выдаёт "C:\ProgramD...ms-Zip-Zip File Manager", то есть в пути \7 была удалена как 7 группа. Начал изучать функцию, в итоге некоторая оптимизация:

Код:


EnableExplicit

#RegExp = 0

Procedure.s RegexReplace2(RgEx, *Result.string, Replace1$)
	Protected i, CountGr, Pos, Offset = 1
	Protected Result$, Replace$
	Protected NewList item.s()
	Protected Count, Len, *Point
	
	
	CountGr = CountRegularExpressionGroups(RgEx)
	; 	Debug CountGr
	If CountGr > 9
    CountGr = 9
	EndIf ; ограничение групп, только обратные ссылки \1 .. \9
	
	Protected re, MaxGr = -1, tmp
	; 	Здесь ищем максимальное число групп указанных в тексте замены и соответственно не обрабатываем группы больше максимальной
	re = CreateRegularExpression(#PB_Any, "\\(\d)" ) ; Проверять правильность не нужно так как это внутренняя функция
	If ExamineRegularExpression(re, Replace1$)
    While NextRegularExpressionMatch(re)
    	tmp = Asc(RegularExpressionMatchString(re)) - 48
    	If tmp > MaxGr
        MaxGr = tmp
    	EndIf
    Wend
	EndIf
	; 	Если число групп например 7, а в замене максимальная группа 4, то обрабатываем в цикле до 4, а не до 7
	If CountGr > MaxGr
    CountGr = MaxGr
	EndIf
	
	If ExamineRegularExpression(RgEx, *Result\s)
    While NextRegularExpressionMatch(RgEx)
    	Pos = RegularExpressionMatchPosition(RgEx)
    	Replace$ = ReplaceString(Replace1$,"\0", RegularExpressionMatchString(RgEx)) ; обратная ссылка \0
    	For i = 1 To CountGr
        Replace$ = ReplaceString(Replace$, "\"+Str(i), RegularExpressionGroup(RgEx, i))
    	Next
    	; Result$ + часть строки между началом и первым совпадением или между двумя совпадениями + результат подстановки групп
    	
    	If AddElement(item())
        item() = Mid(*Result\s, Offset, Pos - Offset) + Replace$
    	EndIf
    	Offset = Pos + RegularExpressionMatchLength(RgEx)
    Wend
    If AddElement(item())
    	item() = Mid(*Result\s, Offset)
    EndIf
    
    ; Формирования текстового списка
    ; Debug "Count = " + Str(ListSize(item()))
    Count = ListSize(item())
    Len=0
    ForEach item()
    	Len + Len(item()) ; вычисляем длину данных для  вмещения частей текста
    Next
    
    *Result\s = Space(Len) ; создаём строку забивая её пробелами
    *Point = @*Result\s	   ; Получаем адрес строки
    ForEach item()
    	CopyMemoryString(item(), @*Point) ; копируем очередной путь в указатель
    Next
    ; Конец => Формирования текстового списка
    
    
    FreeList(item()) ; удаляем список, хотя в функции наверно это не требуется
	EndIf
EndProcedure


#RegExp = 0
Define Text.string
Text\s = "C:\ProgramData\Microsoft\Windows\Start Menu\Programs\7-Zip\7-Zip File Manager"
CreateRegularExpression(#RegExp , "(^.{3,11}/|.{11})(.*)(/.{6,27}|.{27})$" )
RegexReplace2(#RegExp, @Text, "\1...\3" )
FreeRegularExpression(#RegExp)
Debug Text\s

Text\s = "56868797689645"
CreateRegularExpression(#RegExp , "(\A\d{1,3}(?=(\d{3})+\z)|\d{3}(?=\d))" )
RegexReplace2(#RegExp, @Text, "\1 " )
FreeRegularExpression(#RegExp)
Debug Text\s

Что здесь есть?

1. Функция CountRegularExpressionGroups() была внутри цикла, но она из ID регвыра выдаёт группы, то есть не найденное, а по количеству скобок в регулярном выражении, ведь оно выдаёт это число не после того как что-то найдёт, а анализируя регвыр. То есть вытащил из цикла и поставил выше.

2. Там было удаление ссылок на несуществующие группы, то есть если в регвыр 3 группы, а в строке встречается \7, то удаляем \7 так как таких групп нет. Но автор регвыра скорее всего значет число групп в регвыре и правильно указывает ссылки и вряд ли укажет число группы, которой нет в регвыр, поэтому удаление ссылок скорее всего удалить обычный текст.

Код:

For GroupNumber=GroupCount+1 To 9 ; отсутствующие группы на пустые строки
	Replacing = ReplaceString(Replacing,"\"+Str(GroupNumber),"")
Next

Но можно предположить что в тексте \3 может оказаться текстом, а не группой, как разруливать такой вариант? В AutoIt3 в этом случае предупреждает, если вы хотите избежать этой проблемы, то указывайте группы как \{3}, то есть вероятность такой комбинации в тексте более маловероятна, ну и к тому же это позволяет указать группы более 9, например \{45}, в противном случае это бы воспринималась как группа 4, а 5 как текст.

3. Изначально, когда я не понял суть функции RegexReplace2 я посчитал, что функция обрабатывает 9 групп несмотря на то, что у меня в регвыре 3 группы и ссылка на \3 максимальная. Решил, что надо в тексте замены найти максимальный номер группы и добавил блок с переменной MaxGr отделённый пустыми строками, его в принципе можно удалить, так как выяснилось что CountRegularExpressionGroups выдаёт то что нужно, и нет смысла искать максимальную ссылку, потому что если регвыр составлен правильно, то никто не будет плодить группы, которые не используются, так как их можно пометить как (?:...) - группа которая не возвращается в виде ссылки на группу, а используется например для выбора ИЛИ, например (?:ъ|ь). Оставил этот блок для примера, но его надо убрать.

4. Переименовал переменные, счётчик в цикле заменил на "i", использовал $ в строковых переменных, чтобы было явно видно.

5. Объединение строк сделал через работу с памятью, иначе на больших текста это будет работать медленно.

6. RegexReplace1 и RegexReplace3 у меня вообще ошибку выдают, может проблема 32 бит или ANSI?

Отредактировано AZJIO (14.10.2021 12:41:53)

Поделиться214.10.2021 12:56:58

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+3/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
25.06.2026 19:23:38

AZJIO написал(а):

7. RegexReplace1 и RegexReplace3 у меня вообще ошибку выдают

Я об этом писал, что в новых версиях перестало работать.

использовал $ в строковых переменных, чтобы было явно видно

И зачем эта архаика и возврат к мрачному прошлому, когда в Бейсике не было описания типов переменных?

AZJIO написал(а):

Но можно предположить что в тексте \3 может оказаться текстом, а не группой, как разруливать такой вариант? В AutoIt3 в этом случае предупреждает, если вы хотите избежать этой проблемы, то указывайте группы как \{3}, то есть вероятность такой комбинации в тексте более маловероятна

В любом случае остаётся вероятность наступить на грабли. Надо делать экранирующие символы. Мне, когда писал эти функции, нужны были замены в именах файлов, а там символ \ не встречается. Поэтому я упростил.

Поделиться316.10.2021 16:59:54

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

Smitis написал(а):

И зачем эта архаика и возврат к мрачному прошлому, когда в Бейсике не было описания типов переменных?

т.е. перейти на венгерскую нотацию?

Поделиться421.10.2021 21:24:34

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+3/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
25.06.2026 19:23:38

AZJIO написал(а):

т.е. перейти на венгерскую нотацию?

Зачем?

П.С.
Хотя со временем я венгерскую нотацию стал использовать всё больше. Правда, в своём первоначальном варианте, который теперь называется "для приложений"
http://accwin.narod.ru/txt/01_h_notation.htm

Поделиться520.05.2022 14:54:52

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+3/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
25.06.2026 19:23:38

Продолжение из другой темы.

AZJIO написал(а):

Всмысле, что \1 может оказаться текстом а не группой?

Может. И знать заранее мы это не можем, разве только для некоторых специфичных случаев (например, как имена файлов, о чём я уже писал выше).

Пример.
регэксп: "(\D+\d+)(\D+)" с заменой на "\2\1" - переставить местами две части выражения (всё, что после первых цифр - в начало).
для строки "@#$%^8qwerty" работает.
для строки "\2aa" неправильный результат.
То есть, функции с использованием ReplaceString не будут универсальными. Ограничение - в строке поиска и в строке замены не должно быть символов "\", иначе правильный результат не гарантируется.
Единственный выход, это посимвольный разбор.

Поделиться620.05.2022 16:28:17

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

Не тестил группы \0 и разные комбинации, но вот новый код.

Код:

Structure ReplaceGr
  pos.i
  ngr.i
  group.s
EndStructure


; https://www.purebasic.fr/english/viewtopic.php?p=575871
Procedure.s RegexReplace2(RgEx, *Result.string, Replace0$)
	Protected i, CountGr, Pos, Offset = 1
	Protected Result$, Replace$
	Protected NewList item.s()
	Protected LenT, *Point ;, Count
	Protected RE2
	Protected NewList ReplaceGr.ReplaceGr()

	CountGr = CountRegularExpressionGroups(RgEx)
	; ограничение групп, только обратные ссылки \1 .. \9
	If CountGr > 9
    CountGr = 9
	EndIf

	If ExamineRegularExpression(RgEx, *Result\s)
    
    ; Уникальные неэкранированные группы
    RE2 = CreateRegularExpression(#PB_Any, "(?<!\\)(?:\\\\)*(?:\\)\K(\d)")
    If RE2
    	If ExamineRegularExpression(RE2, Replace0$)
        While NextRegularExpressionMatch(RE2)
        	If AddElement(ReplaceGr())
            ReplaceGr()\pos = RegularExpressionGroupPosition(RE2, 1) ; позиция
            ReplaceGr()\ngr = ValD(RegularExpressionGroup(RE2, 1)) ; номер группы
            ReplaceGr()\group = RegularExpressionGroup(RE2, 1) ; текст группы
        	EndIf
        Wend
    	EndIf
    EndIf
    SortStructuredList(ReplaceGr(), #PB_Sort_Descending, OffsetOf(ReplaceGr\pos), TypeOf(ReplaceGr\pos))

    
    While NextRegularExpressionMatch(RgEx)
    	Pos = RegularExpressionMatchPosition(RgEx)
    	ForEach ReplaceGr()
        If ReplaceGr()\ngr = 0
        	Replace0$ = ReplaceString(Replace0$,"\0", RegularExpressionMatchString(RgEx), #PB_String_NoCase, ReplaceGr()\pos - 1, 1) ; обратная ссылка \0
        	DeleteElement(ReplaceGr()) 
        EndIf
    	Next
    	Replace$ = Replace0$

    	ForEach ReplaceGr()
        Replace$ = ReplaceString(Replace$, "\" + ReplaceGr()\group, RegularExpressionGroup(RgEx, ReplaceGr()\ngr), #PB_String_NoCase, ReplaceGr()\pos - 1, 1)
    	Next
    	; item() = часть строки между началом и первым совпадением или между двумя совпадениями + результат подстановки групп
    	
    	If AddElement(item())
        item() = Mid(*Result\s, Offset, Pos - Offset) + Replace$
    	EndIf
    	Offset = Pos + RegularExpressionMatchLength(RgEx)
    Wend
    If AddElement(item())
    	item() = Mid(*Result\s, Offset)
    EndIf
    
    ; Формирования текстового списка
    ; Debug "Count = " + Str(ListSize(item()))
;     Count = ListSize(item())
    LenT = 0
    ForEach item()
    	LenT + Len(item()) ; вычисляем длину данных для  вмещения частей текста
    Next
    
    *Result\s = Space(LenT) ; создаём строку забивая её пробелами
    *Point = @*Result\s	   ; Получаем адрес строки
    ForEach item()
    	CopyMemoryString(item(), @*Point) ; копируем очередной путь в указатель
    Next
    ; Конец => Формирования текстового списка

    FreeList(item()) ; удаляем список, хотя в функции наверно это не требуется
	EndIf
EndProcedure


#RegExp = 0
Define Text.string
Text\s = "C:\ProgramData\Microsoft\Windows\Start Menu\Programs\7-Zip\7-Zip File Manager"
CreateRegularExpression(#RegExp , "(^.{3,11}/|.{11})(.*)(/.{6,27}|.{27})$" )
RegexReplace2(#RegExp, @Text, "\1...\3" )
FreeRegularExpression(#RegExp)
Debug Text\s

Text\s = "56868797689645"
CreateRegularExpression(#RegExp , "(\A\d{1,3}(?=(\d{3})+\z)|\d{3}(?=\d))" )
RegexReplace2(#RegExp, @Text, "\1 " )
FreeRegularExpression(#RegExp)
Debug Text\s

Что тут нового:
Два раза переписывал, и пришёл к выводу что со структурой экономичней и точней.
1. Рег.выр. анализируется и все ссылки на группы получают свою информацию в списке. То есть сохраняется группа и позиция где найдено, что позволит потом перейти к этой позиции и заменять 1 раз.
2. Изначально делал массив, удаление дубликатов, сортировку, чтобы \0 был первым в списке, но проблема такого решения оставалась, если я начну заменять точно найденные ссылки, то я могу испортить и не найденные, то есть для каждой группы \1, \2 придётся генерировать свой рег.выр. для его точного поиска. Чтобы такое не делать выгодно сохранить позиции и тогда отпадает необходимость удалять дубликаты и делать регвыр на каждую группу, а использовать ReplaceString() с заменой в позиции 1 раз.
3. Чтобы позиции не нарушались делается сортировка в обратном порядке по позиции и заменяются от конца в начало.

4. Кажется не сложно в этом контексте добавить поиск групп \{1} и условие, если найдено, то не искать группы типа \1, что позволит автоматически переключить рег.выр. на безопасный поиск групп.

Отредактировано AZJIO (20.05.2022 16:35:06)

Поделиться720.05.2022 17:04:26

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+3/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
25.06.2026 19:23:38

AZJIO
Списки, сортировка, вторая регулярка... Как-то всё избыточно и не оптимально, imho.
Хотя мысль предварительно обработать Replace мне понравилась.

Поделиться820.05.2022 17:58:46

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

Надо будет Static использовать, чтобы компилиповать рег.выр один раз. Эта избыточность быстро создается, там же строка замены обычно 10-100 символов, а список из 2-3 элементов. Позже таймером проверю скорость. И надо учитывать, что при обработке текстов всё равно основная нагрузка это обрабатываемый текст, так что привнесение 1% затрат не критично к производительности.

Поделиться921.05.2022 08:37:00

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

Протестировано с \0, это тоже требует позиции, то есть предыдущий вариант имеет гарантированную ошибку.
Добавлено - если группы не найдено то используется нативная функция ReplaceRegularExpression() и выпрыгивание из функции (для быстроты).
Упрощён регвыр "\\\d" для поиска групп, так как предыдущий вариант мог бы использоваться в строке поиска, а не в строке замены, где экранирование не требуется так как это не шаблон регулярного выражения, а просто текст замены, в котором допускаются ссылки группы.
Структура формируется для максимальной готовности, чтобы не делать конкатенацию строк в цикле поиска.

Код:

EnableExplicit

Structure ReplaceGr
  pos.i
  ngr.i
  group.s
EndStructure


; https://www.purebasic.fr/english/viewtopic.php?p=575871
Procedure RegexReplace2(RgEx, *Result.string, Replace0$)
	Protected i, CountGr, Pos, Offset = 1
	Protected Replace$
	Protected NewList item.s()
	Protected LenT, *Point
; 	Static RE2
	Protected RE2
	Protected NewList ReplaceGr.ReplaceGr()

	CountGr = CountRegularExpressionGroups(RgEx)
	; ограничение групп, только обратные ссылки \1 .. \9
	If CountGr > 9
    CountGr = 9
	EndIf

	If ExamineRegularExpression(RgEx, *Result\s)
    
    ; Поиск ссылок на группы в поле замены в регвыр
;     If Not RE2 ; вариант для Static, но неуниверсальность в отдельной функции удаления регвыра
;     	RE2 = CreateRegularExpression(#PB_Any, "\\\d")
;     EndIf
    RE2 = CreateRegularExpression(#PB_Any, "\\\d")
    If RE2
    	If ExamineRegularExpression(RE2, Replace0$)
        While NextRegularExpressionMatch(RE2)
        	If AddElement(ReplaceGr())
            ReplaceGr()\pos = RegularExpressionMatchPosition(RE2) ; позиция
            ReplaceGr()\ngr = ValD(Right(RegularExpressionMatchString(RE2), 1)) ; номер группы
            ReplaceGr()\group = RegularExpressionMatchString(RE2) ; текст группы
        	EndIf
        Wend
    	EndIf
    	FreeRegularExpression(RE2) ; убрать строку при Static
    EndIf
    If Not ListSize(ReplaceGr())
    	*Result\s = ReplaceRegularExpression(RgEx, *Result\s, Replace0$)
    	ProcedureReturn
    EndIf
;     Сортировка по позиции, чтобы делать замены с конца и не нарушались ранее найденные позиции
    SortStructuredList(ReplaceGr(), #PB_Sort_Descending, OffsetOf(ReplaceGr\pos), TypeOf(ReplaceGr\pos))

    While NextRegularExpressionMatch(RgEx)
    	Pos = RegularExpressionMatchPosition(RgEx)
    	Replace$ = Replace0$

    	ForEach ReplaceGr()
        If ReplaceGr()\ngr
        	Replace$ = ReplaceString(Replace$, ReplaceGr()\group, RegularExpressionGroup(RgEx, ReplaceGr()\ngr), #PB_String_NoCase, ReplaceGr()\pos, 1)
        Else
        	Replace$ = ReplaceString(Replace$, ReplaceGr()\group, RegularExpressionMatchString(RgEx), #PB_String_NoCase, ReplaceGr()\pos, 1) ; обратная ссылка \0
        EndIf
    	Next
    	; item() = часть строки между началом и первым совпадением или между двумя совпадениями + результат подстановки групп
    	
    	If AddElement(item())
        item() = Mid(*Result\s, Offset, Pos - Offset) + Replace$
    	EndIf
    	Offset = Pos + RegularExpressionMatchLength(RgEx)
    Wend
    If AddElement(item())
    	item() = Mid(*Result\s, Offset)
    EndIf
    
    ; Формирования текстового списка
    ; Debug "Count = " + Str(ListSize(item()))
;     Count = ListSize(item())
    LenT = 0
    ForEach item()
    	LenT + Len(item()) ; вычисляем длину данных для  вмещения частей текста
    Next
    
    *Result\s = Space(LenT) ; создаём строку забивая её пробелами
    *Point = @*Result\s	   ; Получаем адрес строки
    ForEach item()
    	CopyMemoryString(item(), @*Point) ; копируем очередной путь в указатель
    Next
    ; Конец => Формирования текстового списка

    FreeList(item()) ; удаляем список, хотя в функции наверно это не требуется
	EndIf
EndProcedure


#RegExp = 0
Define Text.string
Text\s = "C:\ProgramData\Microsoft\Windows\Start Menu\Programs\7-Zip\7-Zip File Manager"
CreateRegularExpression(#RegExp , "(^.{3,11}/|.{11})(.*)(/.{6,27}|.{27})$" )
RegexReplace2(#RegExp, @Text, "\1...\3" )
FreeRegularExpression(#RegExp)
Debug Text\s

Text\s = "56868797689645"
CreateRegularExpression(#RegExp , "(\A\d{1,3}(?=(\d{3})+\z)|\d{3}(?=\d))" )
RegexReplace2(#RegExp, @Text, "\1 " )
FreeRegularExpression(#RegExp)
Debug Text\s

Text\s = "\2aa"
CreateRegularExpression(#RegExp , "(\D+\d+)(\D+)" )
RegexReplace2(#RegExp, @Text, "\2\1" )
FreeRegularExpression(#RegExp)
Debug Text\s

Text\s = "\2aa"
CreateRegularExpression(#RegExp , "(\D+\d+)(\D+)" )
RegexReplace2(#RegExp, @Text, "\0\2" )
FreeRegularExpression(#RegExp)
Debug Text\s

Отредактировано AZJIO (02.08.2022 18:06:54)

Поделиться1021.05.2022 12:30:10

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+3/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
25.06.2026 19:23:38

Я потом такой свой вариант опробую - при предварительной обработке Replace заменить обратные ссылки на, например, Chr($F0000), Chr($F0001), Chr($F0002)... - символы юникода для частного использования. Тогда StringReplace заменит эти символы без проблем, конфликта не возникнет.

Поделиться1121.05.2022 13:46:09

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+3/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
25.06.2026 19:23:38

А вообще, надо на ассме пройтись по Replace от первого символа до предпоследнего. Если встречаем \ и за ним \, заменяем на какую-нибудь суррогатную пару (32 бита), которую обработаем уже в самом конце одной StringReplace заменив на \. Остальные пары \+цифра (16+16 бит) заменяем на соответствующую суррогатную пару (те же 32 бита). Как-то так.

Поделиться1221.05.2022 17:16:33

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

Smitis
Вообще то у меня нет предварительной обработки. Я не изменяю переменную Replace, регвыр просто ищет в ней позиции замены. Если мы говорим о производительности, то замены в Replace на 00 и 01 и т.д. в итоге не будут производительны. Если я получил позиции, что предоставляет регвыр, то при замене, как раз таки более производительно встать сразу на указанную позицию по указателю и сделать однократную замену, то есть нет поиска по строке. Второе, зачем обязательно избавляться от регвыр? У нас по функционалу движок уже встроен, и потеря скорости могла бы быть на компиляции регвыр, но мы вполне можем скомпилировать при первом вызове, я уже спросил на офиц.форуме, что #PB_Any при закрытии программы освобождается автоматически, значит мы в функции можем не контролировать закрытие. И даже если не делать так, то компиляция такого простого регвыра без возвратов и ветвистости происходит очень быстро, фактически это статический текст, наклонная черта и за ней символ с кодом от 48 до 57. Третье, замена на 00 и 01 и т.д. ограничивает использование, так как строка всё кроме 00, значит 01 может оказаться в строке.

Поделиться1321.05.2022 18:57:09

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+3/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
25.06.2026 19:23:38

AZJIO
Под предварительной обработкой я имел ввиду создание списка с позициями. Само по себе создания динамического списка, имхо, дело не быстрое. А замена символов по месту будет практически мгновенное. Конечно, выиграем на замене, потеряем немного на StringReplace (немного, потому что в любом случае мы от неё не избавляемся).
И я предлагал заменять не на символы 00, 01, а на суррогатные пары из https://ru.wikipedia.org/wiki/Области_д … льзования. Два обычных символа юникода как раз отлично заменяться на один.

Поделиться1421.05.2022 19:57:27

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

Smitis написал(а):

создания динамического списка, имхо, дело не быстрое

это почему?
Шаг 1. Создаём указатель.
Шаг 2. Добавлением элемента, тоже как добавление переменной, создаём переменную и записываем указатель на неё следующим указателем.
То есть от первого указателя идут указатели на строки, или в начале строки 2 указателя, первый начало, второй на следующий элемент. Но факт что на 2-3 группы (2-3 элемента списка) тратится меньше времени чем присвоение данных локальным переменным.
Самая медленная функция это замена, где мы находим регвыр по шаблону, разбираем его на группы, делаем замену, и потом формируем последовательность кусков. Эта часть кода работает взависимости от размера текста, если мы обрабатываем 100 кб данных, там 1000 найденных для замены. А 3 элемента списка формируются 1 раз. Это медленно если обрабатывать строку из 3 символов, тогда да, обслуживающая часть кода будет работать дольше чем обработка собственно самого 3-х буквенного текста.

Кстати, если задать длину поля строки group.s{2}, то ещё быстрей, там же группы "\1" - 2 символа.

Мы не знаем какой текст будет обрабатываться, если UTF16, то там ширина символов одинаковая и суррогатный символ вполне может быть частью текста, может кто-то тоже умный и использует этот символ для разметки некоторой базы данных в виде текста. Мы ранее на форуме AutoIt3 писали разделитель (функцию Split) с помощью регвыр, так вот там найденное меняли на вот эти на эти 01 или 02 за первый проход, а потом делили уже используя 02 как разделитель, но перед этим сначала в цикле проверяли какой из символов от 01 до 31 отсутствует в тексте и уже потом делали финт. Так что если есть возможность избежать, то лучше избежать или для идеальности проверять что символов нет в тексте, а это уже потеря производительности.

Отредактировано AZJIO (21.05.2022 20:10:46)

Поделиться1522.05.2022 14:06:44

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+3/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
25.06.2026 19:23:38

AZJIO написал(а):

Мы не знаем какой текст будет обрабатываться, если UTF16

Знаем.

AZJIO написал(а):

суррогатный символ вполне может быть частью текста

Эти - не могут.

AZJIO написал(а):

меняли на вот эти на эти 01 или 02 за первый проход, а потом делили уже используя 02 как разделитель

Опять двадцать пять.

Поделиться1622.05.2022 17:15:41

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

Smitis
Хозяин барин )))

Я тут идейку вставил, в функцию добавил флаг-параметр Escaped, чтобы в поле замены поддержать переносы строк и табуляцию, которые иногда интерфейс не позволяет вставить, например в ComboBoxGadget или StringGadget

Код:

, Escaped = 0

Код:

    ; Поиск Esc-символов в поле замены регвыр
    If Escaped
    	Replace0$ = ReplaceString(Replace0$, "\r", #CR$)
    	Replace0$ = ReplaceString(Replace0$, "\n", #LF$)
    	Replace0$ = ReplaceString(Replace0$, "\t", #TAB$)
    	Replace0$ = ReplaceString(Replace0$, "\f", #FF$)
    EndIf

Поделиться1701.08.2022 19:09:29

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

Smitis написал(а):

И зачем эта архаика и возврат к мрачному прошлому, когда в Бейсике не было описания типов переменных?

Вчера прочитал, что infratec, skywalk, Little John предпочитают $.

Поделиться1802.08.2022 06:54:45

Автор: bizdon
Активный участник
Зарегистрирован: 31.07.2020
Приглашений: 0
Сообщений: 83
Уважение: [+0/-0]
Позитив: [+8/-0]
Провел на форуме:
2 дня 7 часов
Последний визит:
Сегодня 19:05:37

AZJIO
Открыл для себя работу с темплейтами. Спасибо Вам за файл "Create Templates.prefs"!!!
Теперь можно "программировать мышкой"!)

Поделиться1902.08.2022 18:22:55

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

В этом посте исправил строку

Код:

*Result\s = ReplaceRegularExpression(RgEx, *Result\s, Replace$)

на

Код:

*Result\s = ReplaceRegularExpression(RgEx, *Result\s, Replace0$)

ошибку выявил в используя прогу RegExpPB, этот код влияет, когда не найдено ссылок-групп, то нет смысла обрабатывать сложным кодом и делаем обычную замену родным ReplaceRegularExpression() и делаем выпрыг из функции, но элементы были заменены не указанным а пустой строкой, тупо удалились, а не заменились, проверил, исходный то текст передаваемый в функцию Replace0$, а не пустышка Replace$ используемый далее для хранения данных замены.

Поделиться2004.08.2022 21:27:52

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+3/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
25.06.2026 19:23:38

AZJIO написал(а):

Вчера прочитал, что infratec, skywalk, Little John предпочитают $.

Ретрограды :crazy:

Поделиться2105.08.2022 05:53:52

Автор: useful
Активный участник
Откуда: Новосибирск
Зарегистрирован: 01.08.2020
Приглашений: 0
Сообщений: 233
Уважение: [+4/-0]
Позитив: [+0/-0]
Возраст: 65 [1961-01-11]
Провел на форуме:
10 дней 0 часов
Последний визит:
25.05.2026 16:57:34

Smitis написал(а):

Ретрограды

https://www.purebasic.fr/english/viewto … 88#p587488
Некоторые вообще умудряются десятки тысяч строк кода писать без EnableExplicit

Поделиться2205.08.2022 16:44:10

Автор: Smitis
Активный участник
Откуда: Санкт-Петербург
Зарегистрирован: 30.08.2020
Приглашений: 0
Сообщений: 331
Уважение: [+3/-0]
Позитив: [+3/-2]
Пол: Мужской
Провел на форуме:
3 дня 13 часов
Последний визит:
25.06.2026 19:23:38

useful написал(а):

Некоторые вообще умудряются десятки тысяч строк кода писать без EnableExplicit

Некоторые и goto массово используют. Сам видел.

Поделиться2318.06.2023 12:28:39

Автор: SeregaZ
Активный участник
Зарегистрирован: 03.05.2021
Приглашений: 0
Сообщений: 52
Уважение: [+0/-0]
Позитив: [+0/-0]
Провел на форуме:
1 день 3 часа
Последний визит:
Сегодня 15:13:21

useful написал(а):

писать без EnableExplicit

я так делаю пока вроде все в порядке... тыщ 150 уже строк. вроде бы нигде еще не запарился

не суть. вопрос про регулярные эти самые... почему эти регулярки смерть как не любят запятую? поначалу думал получать отдельные параметры из строки через StringField. делить по запятой... а потом вспомнил, что бывает параметр "сложный" в виде:
movem.w (a4, d1.w), d2 и соответственно деление по запятой пошло по бороде...
вот попались мне регулярки. о, думаю, еще лучше! с ними даже проще!... угу... щаззззз... блюет она на запятую и не хочет работать:

Код:

Enumeration
  #RegTest
  #RegMovem_110_x_d2 ; movem.w (a4, d1.w), d2
  #RegMovem_110_d2_x ; movem.w d2, (a4, d1.w)
EndEnumeration

CreateRegularExpression(#RegMovem_110_x_d2, "(a[0-7],d[0-7].[w,l]),d[0-7]") ; movem.w (a4, d1.w), d2
CreateRegularExpression(#RegMovem_110_d2_x, "d[0-7],(a[0-7],d[0-7].[w,l])") ; movem.w d2, (a4, d1.w)

CreateRegularExpression(#RegTest, "(a[0-7],d[0-7].[w,l])") ; без запятой перед или за скобками - работает

;text$ = "d2,(a4,d1.w)"
text$ = "d2,(a7,d1.l)"

If MatchRegularExpression(#RegMovem_110_x_d2, text$) 
  Debug "movem.w (a4,d1.w),d2"
ElseIf MatchRegularExpression(#RegMovem_110_d2_x, text$) 
  Debug "movem.w d2,(a4,d1.w)"
ElseIf MatchRegularExpression(#RegTest, text$)  
  Debug "укороченный вариант без запятой"
Else
  Debug "ни фи га"
EndIf

и надо будет кучу ElseIf разводить для каждого варианта? для регулярных выражений нет чего-то типа Select - Case ? а второе я не понял из примеров, но вроде как можно сразу получать сам параметр, то есть цифры в данном случае типа получить из (а4,d1.w) - что а - 4, а d - 1.
но главный вопрос все-таки почему у этих регулярок такая аллергия на запятую? использую PB 5.60. подумал наверное глюк какой-то. попробывал на PB 6.00 - те-же яйца. как правильно эти регулярки составлять, чтоб с этой запятой? да и скобки он тоже не любит. в смысле если одна скобка какая-то не закрытая скажем.

Поделиться2418.06.2023 13:20:00

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

SeregaZ написал(а):

да и скобки он тоже не любит. в смысле если одна скобка какая-то не закрытая скажем

Спасибо посмеялся... Подумаешь 01000,0 руб ты получил зарплату или 0,10000 руб зарплату, главное получил. Подумаешь скорость интернета 1 байт в секунду, главное безлимитка, можно целыми днями качать.

Пытался понять регвыры, в общем скобка является специальным символом и её нельзя указывать как литеральный, все специсимволы, которые являются литеральными в регвыре должны быть экранированы вот так $...$

Поюзай справку в программе RegExp, нажми F1 в окне программы.
До кучи почитай что такое группы в регвыр.

Отредактировано AZJIO (18.06.2023 13:30:40)

Поделиться2518.06.2023 13:28:46

Автор: SeregaZ
Активный участник
Зарегистрирован: 03.05.2021
Приглашений: 0
Сообщений: 52
Уважение: [+0/-0]
Позитив: [+0/-0]
Провел на форуме:
1 день 3 часа
Последний визит:
Сегодня 15:13:21

спасибо. втулил везде и на точке, и на запятых, и на скобках - вроде начало ловить.

Поделиться2623.07.2025 01:47:32

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1428
Уважение: [+32/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Вчера 19:34:47

Обновил функцию тут

Я добавил группы больше 9. Теперь вы можете указать группу \15 или \{15}, а если в тексте будут цифры, которые будут мешать , то вы можете указать номер в фигурных скобках, например так: \{1}5. Здесь группа 1, а не 15.

Страница: 1

RegExpPB	PureBasic для Windows	26.02.2025
AU3toPB преобразование AutoIt3 в PureBasic	PureBasic для Windows	26.09.2022
Что случилось с сайтом purebasic.info?	OffTop	29.03.2023

PureBasic - форум

Меню навигации

Пользовательские ссылки

Информация о пользователе

Ссылки на группы в регулярном выражении

Сообщений 1 страница 26 из 26

Поделиться114.10.2021 10:43:14

Поделиться214.10.2021 12:56:58

Поделиться316.10.2021 16:59:54

Поделиться421.10.2021 21:24:34

Поделиться520.05.2022 14:54:52

Поделиться620.05.2022 16:28:17

Поделиться720.05.2022 17:04:26

Поделиться820.05.2022 17:58:46

Поделиться921.05.2022 08:37:00

Поделиться1021.05.2022 12:30:10

Поделиться1121.05.2022 13:46:09

Поделиться1221.05.2022 17:16:33

Поделиться1321.05.2022 18:57:09

Поделиться1421.05.2022 19:57:27

Поделиться1522.05.2022 14:06:44

Поделиться1622.05.2022 17:15:41

Поделиться1701.08.2022 19:09:29

Поделиться1802.08.2022 06:54:45

Поделиться1902.08.2022 18:22:55

Поделиться2004.08.2022 21:27:52

Поделиться2105.08.2022 05:53:52

Поделиться2205.08.2022 16:44:10

Поделиться2318.06.2023 12:28:39

Поделиться2418.06.2023 13:20:00

Поделиться2518.06.2023 13:28:46

Поделиться2623.07.2025 01:47:32

Похожие темы