XML, ASCII и кириллица

Поделиться127.01.2025 13:57:38

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

Подскажите, пожалуйста.

Если файл xml в кодировке windows-1251, то при использовании библиотеки XML текст
на русском языке считывается в нечитаемом виде (ломается кириллица).
Есть ли какая-то возможность вернуть такой строке правильную кодировку?
Или придется отказаться в этом случае от такого удобного инструмента?
Извлекать необходимые строки по-другому в тысячах таких файлов не хотелось бы...

С уважением, Andruk

0

Поделиться227.01.2025 15:53:38

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1427
Уважение: [+29/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Сегодня 02:19:18

А GetXMLEncoding(#XML) используется? Я не пробовал, но гипотетически кодировка указывается в файле, значит она как то используется при чтении, а если нет, то программист должен получить её и применить при чтении. Кстати где пример использования, в чем ошибку выявлять?

0

Поделиться327.01.2025 16:18:12

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

Ну вот для примера.
Текст файла dada.xml:

<?xml version="1.0" encoding="windows-1251"?>
<maina>
<vira>
<latin>Balalaika</latin>
<russo>Балалайка</russo>
</vira>
</maina>

(Сохраните файл в кодировке windows-1251)

И код для проверки:

Код:

If LoadXML(0, "dada.xml", #PB_Ascii)
  If XMLStatus(0) = #PB_XML_Success
    *Dict = XMLNodeFromPath(MainXMLNode(0), "vira/russo")
    s$ = GetXMLNodeText(*Dict)
    Debug s$
  Else
    Debug XMLError(0)
  EndIf
Else
  Debug "Фигвам!"
EndIf

Отредактировано Andruk (27.01.2025 16:27:48)

0

Поделиться427.01.2025 16:56:27

Автор: Пётр
Активный участник
Зарегистрирован: 14.06.2009
Приглашений: 0
Сообщений: 3189
Уважение: [+105/-5]
Позитив: [+1/-0]
Пол: Мужской
Провел на форуме:
2 месяца 14 дней
Последний визит:
Вчера 15:59:01

Прочитайте данные файла через ReadFile() / ReadData() и перекодируйте строку из ascii в юникод.

Код:

If ReadFile(0, "dada.xml")
  Dim Buff.a(Lof(0))
  ReadData(0, @Buff(), ArraySize(Buff()))
  CloseFile(0)
  Xml.s = PeekS(@Buff(), ArraySize(Buff()), #PB_Ascii)
  
  If ParseXML(0, Xml)
    If XMLStatus(0) = #PB_XML_Success
      *Dict = XMLNodeFromPath(MainXMLNode(0), "vira/russo")
      Debug GetXMLNodeText(*Dict)
    Else
      Debug XMLError(0)
    EndIf
  Else
    Debug "Фигвам!"
  EndIf
  
Else
  Debug "Не удалось прочитать файл!"
EndIf

0

Поделиться527.01.2025 17:35:17

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

О да!
Так работает!
Спасибо огромное!

Было бы неплохо добавить такое решение в справку.
Сам бы я не догадался (ну или лет через пять).

Еще раз спасибо!

Отредактировано Andruk (27.01.2025 18:22:34)

0

Поделиться627.01.2025 19:24:41

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1427
Уважение: [+29/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Сегодня 02:19:18

Ещё так можно

Код:

Procedure ToCP1251(*s.Unicode)
    Protected i
    Protected *ptr.Unicode

    While *s\u
        If *s\u > 127 And *s\u < 256
            *ptr = ?CP1251 + (*s\u - 128) * 2
            *s\u = *ptr\u
        EndIf
        *s + SizeOf(Unicode)
    Wend
EndProcedure

; Здесь вы можете сделать таблицу для символов своего языка и получить содержание на своём языке вместо cp1252.
DataSection
    CP1251:
    Data.u 1026, 1027, 8218, 1107, 8222, 8230, 8224, 8225, 8364, 8240, 1033
    Data.u 8249, 1034, 1036, 1035, 1039, 1106, 8216, 8217, 8220, 8221, 8226
    Data.u 8211, 8212, 152, 8482, 1113, 8250, 1114, 1116, 1115, 1119, 160
    Data.u 1038, 1118, 1032, 164, 1168, 166, 167, 1025, 169, 1028, 171
    Data.u 172, 173, 174, 1031, 176, 177, 1030, 1110, 1169, 181, 182
    Data.u 183, 1105, 8470, 1108, 187, 1112, 1029, 1109, 1111, 1040, 1041
    Data.u 1042, 1043, 1044, 1045, 1046, 1047, 1048, 1049, 1050, 1051, 1052
    Data.u 1053, 1054, 1055, 1056, 1057, 1058, 1059, 1060, 1061, 1062, 1063
    Data.u 1064, 1065, 1066, 1067, 1068, 1069, 1070, 1071, 1072, 1073, 1074
    Data.u 1075, 1076, 1077, 1078, 1079, 1080, 1081, 1082, 1083, 1084, 1085
    Data.u 1086, 1087, 1088, 1089, 1090, 1091, 1092, 1093, 1094, 1095, 1096
    Data.u 1097, 1098, 1099, 1100, 1101, 1102, 1103
EndDataSection


If LoadXML(0, "dada.xml", #PB_Ascii)
  If XMLStatus(0) = #PB_XML_Success
    *Dict = XMLNodeFromPath(MainXMLNode(0), "vira/russo")
    s$ = GetXMLNodeText(*Dict)
    ToCP1251(@s$)
    Debug s$
  Else
    Debug XMLError(0)
  EndIf
Else
  Debug "Фигвам!"
EndIf

0

Поделиться727.01.2025 22:38:05

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

Спасибо! Пригодится.
Но пока предложенное Петром выглядит предпочтительнее.
А там посмотрим, как будет лучше...

0

Поделиться828.01.2025 00:11:55

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1427
Уважение: [+29/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Сегодня 02:19:18

Andruk
Я использую это в Linux, где нет 1251 от слова совсем, даже при использовании #PB_Ascii при чтении файла. Для Windows, кончено же лучше нативный способ.

Загуглил строку "xml encoding какие бывают" выдало что поддерживаются только две кодировки UTF-8 и UTF-16, а значит нельзя туда совать "windows-1251" как в html.

Отредактировано AZJIO (28.01.2025 00:35:16)

0

Поделиться928.01.2025 02:11:39

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

MSXML имеет встроенную поддержку следующих кодировок:

Код:

UTF-8
UTF-16
UCS-2
UCS-4
ISO-10646-UCS-2
UNICODE-1-1-UTF-8
UNICODE-2-0-UTF-16
UNICODE-2-0-UTF-8
It also recognizes (internally using the WideCharToMultibyte API function for mappings) the following encodings:
US-ASCII
ISO-8859-1
ISO-8859-2
ISO-8859-3
ISO-8859-4
ISO-8859-5
ISO-8859-6
ISO-8859-7
ISO-8859-8
ISO-8859-9
WINDOWS-1250
WINDOWS-1251
WINDOWS-1252
WINDOWS-1253
WINDOWS-1254
WINDOWS-1255
WINDOWS-1256
WINDOWS-1257
WINDOWS-1258

А если файлы создавались достаточно давно, то такая кодировка, увы, не редкость....
Ну и в том давнем мире размер файла имел большее значение.

Дело в том, что это Expat поддерживает только 4 кодировки:

UTF-8
UTF-16
ISO-8859-1
US-ASCII

Отредактировано Andruk (28.01.2025 03:01:09)

0

Поделиться1028.01.2025 09:30:44

Автор: egons
Активный участник
Зарегистрирован: 26.07.2021
Приглашений: 0
Сообщений: 275
Уважение: [+1/-0]
Позитив: [+0/-2]
Возраст: 50 [1975-07-05]
Провел на форуме:
1 день 10 часов
Последний визит:
21.06.2026 13:26:39

Может, определить кодировку?
https://g0blinish.ucoz.ru/pb2/utf8det.zip

0

Поделиться1128.01.2025 12:28:57

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

Спасибо, но моя проблема была не в определении кодировки, а в необходимости ее изменения
для того, чтобы парсер не коверкал кириллицу.

0

Поделиться1228.01.2025 19:16:42

Автор: Lin
Активный участник
Зарегистрирован: 18.11.2020
Приглашений: 2
Сообщений: 103
Уважение: [+7/-0]
Позитив: [+4/-0]
Провел на форуме:
5 дней 21 час
Последний визит:
19.08.2025 21:34:09

Пётр
Привет, мне просто интересно почему именно так ты написал

Код:

  Dim Buff.a(Lof(0))
  ReadData(0, @Buff(), ArraySize(Buff()))
  CloseFile(0)
  Xml.s = PeekS(@Buff(), ArraySize(Buff()), #PB_Ascii)

а не например так?

Код:

  *buf=AllocateMemory(Lof(0))
  ReadData(0, *buf, MemorySize(*buf))
  CloseFile(0)
  Xml.s = PeekS(*buf, MemorySize(*buf), #PB_Ascii)
  FreeMemory(*buf)

0

Поделиться1328.01.2025 23:47:50

Автор: Пётр
Активный участник
Зарегистрирован: 14.06.2009
Приглашений: 0
Сообщений: 3189
Уважение: [+105/-5]
Позитив: [+1/-0]
Пол: Мужской
Провел на форуме:
2 месяца 14 дней
Последний визит:
Вчера 15:59:01

Lin написал(а):

а не например так?

Можно и так.

0

Поделиться1429.01.2025 06:20:17

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1427
Уважение: [+29/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Сегодня 02:19:18

Andruk
Полный вариант с выделением памяти. Сделал сразу после поста Петра, но не выкладывал. Массив безопаснее тем что не надо городить кучу условий, чтобы выскочить из процедуры не освободив память (перед каждым return), а массив очищается автоматически как локальный в процедуре, но тратит память на указатели, ага несколько байт.

Код:

EnableExplicit

Define length, bytes, XML$, *mem, *Dict
#File = 0
#XML = 0
If ReadFile(#File, "C:\folder\1.xml")
	length = Lof(#File)
	If length
    *mem = AllocateMemory(length)
    If *mem
    	bytes = ReadData(#File, *mem, length)
    	If bytes
        XML$ = PeekS(*mem, bytes, #PB_Ascii)
        If ParseXML(#XML, XML$)
        	If XMLStatus(#XML) = #PB_XML_Success
            *Dict = XMLNodeFromPath(MainXMLNode(#XML), "vira/russo")
            Debug GetXMLNodeText(*Dict)
        	Else
            Debug XMLError(#XML)
        	EndIf
        	FreeXML(#XML)
        Else
        	Debug "Точно XML?"
        EndIf
    	EndIf
    	FreeMemory(*mem)
    EndIf
	EndIf
	CloseFile(#File)
Else
	Debug "Не удалось прочитать файл!"
EndIf

egons написал(а):

Может, определить кодировку?

Я использую это, но в своём урезанном виде, и выкладывал исходники урезанного в некоторых своих программах, там просто лишние функции убраны, чтобы исполняемый файл был меньше.

Отредактировано AZJIO (29.01.2025 06:48:00)

0

Поделиться1529.01.2025 14:49:15

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

Мне думается лучше заменить Debug "Точно XML?" на Debug "Ошибка памяти!" 8-)
В случае не XML-файла ParseXML все равно сработает, а XMLStatus выдаст ошибку syntax error
А вообще, какова вероятность получить ошибку ParseXML в данном коде?

Отредактировано Andruk (29.01.2025 15:10:16)

0

Поделиться1629.01.2025 15:05:26

Автор: egons
Активный участник
Зарегистрирован: 26.07.2021
Приглашений: 0
Сообщений: 275
Уважение: [+1/-0]
Позитив: [+0/-2]
Возраст: 50 [1975-07-05]
Провел на форуме:
1 день 10 часов
Последний визит:
21.06.2026 13:26:39

AZJIO написал(а):

Я использую это, но в своём урезанном виде, и выкладывал исходники урезанного в некоторых своих программах, там просто лишние функции убраны, чтобы исполняемый файл был меньше.

Для кодировок вещь полезная. Только UTF-8 не всегда попадается с BOM.

0

Поделиться1729.01.2025 18:56:09

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1427
Уважение: [+29/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Сегодня 02:19:18

egons написал(а):

Только UTF-8 не всегда попадается с BOM

Надеюсь понимаешь, что ссылку, которую я дал решает эту проблему? А то выглядит как будто нет...

Andruk написал(а):

"Ошибка памяти!"

Это из справки? даже пустая строка не даёт ошибки Debug ParseXML(0, "")
Наверно нужен XML в 1 Гб, чтобы не удалось выделить память.

Andruk написал(а):

В случае не XML-файла ParseXML все равно сработает, а XMLStatus выдаст ошибку syntax error

ну да, в справке же это написано, а мы читатели.

Отредактировано AZJIO (29.01.2025 18:58:12)

0

Поделиться1829.01.2025 19:20:07

Автор: egons
Активный участник
Зарегистрирован: 26.07.2021
Приглашений: 0
Сообщений: 275
Уважение: [+1/-0]
Позитив: [+0/-2]
Возраст: 50 [1975-07-05]
Провел на форуме:
1 день 10 часов
Последний визит:
21.06.2026 13:26:39

AZJIO написал(а):

Надеюсь понимаешь, что ссылку, которую я дал решает эту проблему? А то выглядит как будто нет...

"Надежды юношей питают"(с)

0

Поделиться1929.01.2025 19:48:47

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1427
Уважение: [+29/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Сегодня 02:19:18

egons написал(а):

"Надежды юношей питают"(с)

То есть я не должен надеяться что ты понимаешь?

0

Поделиться2030.01.2025 00:20:45

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

AZJIO написал(а):

Это из справки? даже пустая строка не даёт ошибки Debug ParseXML(0, "")
Наверно нужен XML в 1 Гб, чтобы не удалось выделить память.

ну да, в справке же это написано, а мы читатели.

Извените, AZJIO, если вас как-то задел мой комментарий.
У меня нет опыта в программировании. Лет эдак 20 назад я пробывал что-то делть
на PureBasic и вот теперь на старости лет вдруг решил вернутся к нему.
Потому и нахожусь собственно на стадии изучения справки.
Так-что мои комментарии вполне себе могут выглядеть глуповато...

0

Поделиться2130.01.2025 00:54:13

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

И все-таки по теме.
Может быть я ошибаюсь, но мне кажется, что после предыдущих условий
XML$ не может быть меньше чем length и больше чем *mem.
И поэтому ParseXML не может выдать ошибку. Или это не так?

А-а. Все понял - парсеру ведь тоже потребуется память, а ее может не хватить (теоретически).
Извиняюсь за несообразительность!

Отредактировано Andruk (30.01.2025 01:07:22)

0

Поделиться2230.01.2025 02:41:31

Автор: Пётр
Активный участник
Зарегистрирован: 14.06.2009
Приглашений: 0
Сообщений: 3189
Уважение: [+105/-5]
Позитив: [+1/-0]
Пол: Мужской
Провел на форуме:
2 месяца 14 дней
Последний визит:
Вчера 15:59:01

Andruk написал(а):

И поэтому ParseXML не может выдать ошибку.

В справке написано

Эта функция возвращает 0 только в случае ошибок с памятью.

То есть если не получится выделить память.

+1

Поделиться2330.01.2025 04:44:20

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

Один вопрос. Только не ругайтесь.
Если я делаю для себя узконаправленную утилиту и точно знаю, что не будут обрабатываться
файлы нулевого размера и размер одного файла не больше 30 Мб, то можно ли обойтись
примерно такой конструкцией?

Код:

If ReadFile(0, "dada.xml")
  sz = Lof(0)
  *buf = AllocateMemory(sz, #PB_Memory_NoClear)
  ReadData(0, *buf, sz)
  CloseFile(0)
  Xml.s = PeekS(*buf, sz, #PB_Ascii)
  FreeMemory(*buf)
  ParseXML(0, Xml)
  Xml = ""
  If XMLStatus(0) = #PB_XML_Success
    *Dict = XMLNodeFromPath(MainXMLNode(0), "vira/russo")
    Debug GetXMLNodeText(*Dict)
    ; ...
  Else
    Debug XMLError(0)
  EndIf
  FreeXML(0)
Else
  Debug "Не удалось прочитать файл!"
EndIf

Я имею ввиду излишние (в таком случае) проверки на ошибки.

Отредактировано Andruk (30.01.2025 05:16:27)

0

Поделиться2430.01.2025 19:18:25

Автор: Пётр
Активный участник
Зарегистрирован: 14.06.2009
Приглашений: 0
Сообщений: 3189
Уважение: [+105/-5]
Позитив: [+1/-0]
Пол: Мужской
Провел на форуме:
2 месяца 14 дней
Последний визит:
Вчера 15:59:01

Проверки лишними обычно не бывают. При определенных обстоятельствах "лишняя" проверка может защитить от падения программу и от выдачи неправильного результата.

0

Поделиться2530.01.2025 20:19:25

Автор: AZJIO
Активный участник
Зарегистрирован: 07.08.2020
Приглашений: 0
Сообщений: 1427
Уважение: [+29/-0]
Позитив: [+16/-0]
Провел на форуме:
28 дней 20 часов
Последний визит:
Сегодня 02:19:18

Лишние проверки избавят от определённого типа ошибок, которые кажутся почти невозможны. В теории пользователь может просто убить программу если она повисла. Худший вариант если прога испортит другие данные в памяти или на диске. Не смотря на то что код кажется проще и понятней, на самом деле он менее устойчивый. Не зря автор закладывает возвращение ошибок, зная что каждая функция может не выполнится. К примеру повреждение файла, вероятность 1 на миллион, вероятно поэтому ReadData() имеет возврат длины прочитанного. В MFT указан размер, но нет ссылок на все сектора файла на жёстком диске. Также использование указателя *Dict без проверки более вероятный сбой. Только вчера на оф.форуме выложенный код выдал у меня сбой из-за отсутствия проверки указателя.

+1

Поделиться2630.01.2025 22:36:32

Автор: Andruk
Активный участник
Зарегистрирован: 27.01.2025
Приглашений: 0
Сообщений: 94
Уважение: [+1/-0]
Позитив: [+8/-0]
Провел на форуме:
3 дня 11 часов
Последний визит:
16.06.2026 23:44:58

Спасибо большое!
Придется предохраняться...

Отредактировано Andruk (30.01.2025 22:40:23)

0

PureBasic - форум

Меню навигации

Пользовательские ссылки

Информация о пользователе

XML, ASCII и кириллица

Сообщений 1 страница 26 из 26

Поделиться127.01.2025 13:57:38

Поделиться227.01.2025 15:53:38

Поделиться327.01.2025 16:18:12

Поделиться427.01.2025 16:56:27

Поделиться527.01.2025 17:35:17

Поделиться627.01.2025 19:24:41

Поделиться727.01.2025 22:38:05

Поделиться828.01.2025 00:11:55

Поделиться928.01.2025 02:11:39

Поделиться1028.01.2025 09:30:44

Поделиться1128.01.2025 12:28:57

Поделиться1228.01.2025 19:16:42

Поделиться1328.01.2025 23:47:50

Поделиться1429.01.2025 06:20:17

Поделиться1529.01.2025 14:49:15

Поделиться1629.01.2025 15:05:26

Поделиться1729.01.2025 18:56:09

Поделиться1829.01.2025 19:20:07

Поделиться1929.01.2025 19:48:47

Поделиться2030.01.2025 00:20:45

Поделиться2130.01.2025 00:54:13

Поделиться2230.01.2025 02:41:31

Поделиться2330.01.2025 04:44:20

Поделиться2430.01.2025 19:18:25

Поделиться2530.01.2025 20:19:25

Поделиться2630.01.2025 22:36:32