Inhalte vergleichen (TC8.50 32bit): Schreibg ignorien Umlaut

German support forum

Moderators: Hacker, Stefan2, white

pba
Junior Member
Junior Member
Posts: 66
Joined: 2011-09-12, 07:35 UTC
Location: Friedberg (Hessen)

Inhalte vergleichen (TC8.50 32bit): Schreibg ignorien Umlaut

Post by *pba »

Wenn bei "Inhalte vergleichen" die Eigenschaft "Groß-/Kleinschreibung beachten" nicht aktiviert ist, werden trotzdem Umlaute in unterschiedlicher Schreibweise als unterschiedlich betrachtet.

Beispiel:
1 Hügel 2 HÜGEL: Unterschiedlich wg. ü/Ü
1 Huegel 2 HUEGEL: Kein Unterschied
Last edited by pba on 2019-02-25, 14:28 UTC, edited 1 time in total.
PBA #53713 (personal)
User avatar
Dalai
Power Member
Power Member
Posts: 9974
Joined: 2005-01-28, 22:17 UTC
Location: Meiningen (Südthüringen)

Post by *Dalai »

Zeichensatz unterschiedlich, also z.B. eine Datei als ANSI codiert, die andere als UTF-8? Der Vergleicher zeigt das an.

MfG Dalai
#101164 Personal licence
Ryzen 5 2600, 16 GiB RAM, ASUS Prime X370-A, Win7 x64

Plugins: Services2, Startups, CertificateInfo, SignatureInfo, LineBreakInfo - Download-Mirror
pba
Junior Member
Junior Member
Posts: 66
Joined: 2011-09-12, 07:35 UTC
Location: Friedberg (Hessen)

Character set

Post by *pba »

Es schaut aus, als ob beide Files normaler Ein-Byte Code wäre. Ich habe es in einem Test mit dem Editor Textpad (Öffnen, binär) angeschaut und bekomme folgendes

LÄNDER
4C C4 4E 44 45 52
länder
6C E4 6E 64 65 72

Werte in Hex.

Ein Kollege meinte noch, vielleicht müsse man noch irgendwo einen Ländercode einstellen?
PBA #53713 (personal)
User avatar
Lefteous
Power Member
Power Member
Posts: 9537
Joined: 2003-02-09, 01:18 UTC
Location: Germany
Contact:

Post by *Lefteous »

2pba
LÄNDER
4C C4 4E 44 45 52
länder
6C E4 6E 64 65 72
Also bei mir werden da keine Unterschiede gefunden, solange ich das Häkchen bei "Groß- und Kleinschreibung beachten" nicht setze.
pba
Junior Member
Junior Member
Posts: 66
Joined: 2011-09-12, 07:35 UTC
Location: Friedberg (Hessen)

jetzt muss ich erst einmal weitersuchen

Post by *pba »

Vielleicht liegt es daran, dass es sich um HTML-Files handelt (das eine ein mustergültiges HTML-File, validiert mit Tools, mindestens HTML strict). Das andere ist fast HTML (Katalogwerte generiert aus der Datenbank). Ich benutze Inhalte vergleichen, um festzustellen, welche Änderungen der Katalogverantwortliche seit der letzten Veröffentlichung der Dokumentation (die in HTML vorliegt; 1. Dokument) vorgenommen hat.

Ich melde mich, wenn ich weitere Infos habe.
PBA #53713 (personal)
User avatar
Lefteous
Power Member
Power Member
Posts: 9537
Joined: 2003-02-09, 01:18 UTC
Location: Germany
Contact:

Post by *Lefteous »

2pba
Bei HTML werden verschiedene Zeichen mit sogenannten HTML-Escapes dargestellt. In deinem Fall ü für ü und Ü für Ü. Das sollte im TC also genau funktionieren wie ohne HTML-Escapes, weil ja auch hier nur ein einziger Unterschied zwischen Groß- und Kleinschreibung besteht.

Vielleicht wird bei dem zweiten Dokument nicht korrekt mit HTML-Escapes gearbeitet?
pba
Junior Member
Junior Member
Posts: 66
Joined: 2011-09-12, 07:35 UTC
Location: Friedberg (Hessen)

HTML Escapes

Post by *pba »

Hallo,
nein, es ist so, dass die deutschen Umlaute nicht escaped sind, sondern entsprechend der Codes dargestellt wird (wie in meinem Beispiel). Das ist in dem Dokument aus historischen Gründen so. Interessanterweise funktioniert die Darstellung nicht nur auf Windows, sondern auch auf Unix-Systemen (angeblich, dafür arbeite ich ja in HTML, habe aber selbst kein Unix-System zum Testen). Ich habe daher eher in Verdacht, dass im Header der HTML-Datei etwas über den Zeichensatz steht, was "Inhalte vergleichen" irgendwie berücksichtigt.
PBA #53713 (personal)
User avatar
Lefteous
Power Member
Power Member
Posts: 9537
Joined: 2003-02-09, 01:18 UTC
Location: Germany
Contact:

Post by *Lefteous »

2pba
Also als html strict geht das ohne HTML Escapes nicht durch - never ever.
User avatar
Dalai
Power Member
Power Member
Posts: 9974
Joined: 2005-01-28, 22:17 UTC
Location: Meiningen (Südthüringen)

Post by *Dalai »

Welche Zeichensätze zeigt denn das Vergleichstool nun an?

MfG Dalai
#101164 Personal licence
Ryzen 5 2600, 16 GiB RAM, ASUS Prime X370-A, Win7 x64

Plugins: Services2, Startups, CertificateInfo, SignatureInfo, LineBreakInfo - Download-Mirror
pba
Junior Member
Junior Member
Posts: 66
Joined: 2011-09-12, 07:35 UTC
Location: Friedberg (Hessen)

Präzisere Beschreibung / KEINE ZEICHENSATZPROBLEMATIK

Post by *pba »

Ich habe mir ein paar Beispielfiles gebastelt. Und bin frustriert, weil meine Beschreibung nicht vollständig war. Wenn ich wüsste, wie man Dateien in das Form lädt, könnte ich die Beispielfiles zur Verfügung stellen.

Ich versuche mal die Situation zu beschreiben.

File 1: <!-- Hier kommen noch weitere ca. 200 Einträge -->
File 2: <!-- Weitere EintrÄge -->

Unterschiede bei "Inhalte vergleichen" - rote Markierung der Unterschiede wird als unterstrichen dargestellt.

File 1: <!-- Hier kommen noch weitere ca. 200 Einträge -->
File 2: <!-- Weitere EintrÄge -->

D. h. die normale Klein- / Grossschreibung wird bei Umlauten richtig erkannt (das habe ich in meinen Testfiles auch so gesehen), wenn der Text vollständig identisch ist. Bei nicht identischen Textteilen ist für den Benutzer nicht ersichtlich, warum Einträge und EintrÄge nicht als identisch erkannt werden (bei weitere hat es ja auch funktioniert).
PBA #53713 (personal)
User avatar
ghisler(Author)
Site Admin
Site Admin
Posts: 50563
Joined: 2003-02-04, 09:46 UTC
Location: Switzerland
Contact:

Post by *ghisler(Author) »

Hmm, wurde eine der Dateien auf einem Apple Mac erzeugt?
Der speichert Umlaute sehr seltsam als 2 Zeichen ab:
¨A statt Ä.
Author of Total Commander
https://www.ghisler.com
pba
Junior Member
Junior Member
Posts: 66
Joined: 2011-09-12, 07:35 UTC
Location: Friedberg (Hessen)

Post by *pba »

Hallo,
nein, beide Dateien werden auf einem (den gleichen) Windows-System gepflegt (editiert mit Textpad) bzw. generiert (aus Oracle Datenbank) mit entsprechender Einstellung. Die Zeichen werden als ein Byte dargestellt (auch im Lister, Option 3 / Hexadezimal).

Was mich auch irritiert ist, dass die Darstellung der Umlaute trotz strict funktioniert (Mail von Lefteous vom Do Apr 09, 2015 8:44 am) - auf einem Windows-System (Windows hat ja einige Besonderheiten). Dazu werde ich morgen ein paar Versuche machen. Aber das ist vermutlich nicht das eigentliche Problem. Mac-Rechner sind auf jeden Fall definitiv nicht "beteiligt".

Kann es sein, dass beim Vergleich-Tool und der Option zum Ignorieren der Klein-/Grossschreibung beim Einebnen der Schreibweise nur ASCII berücksichtigt wird (also nur bis 127)? Ein ähnliches Problem hatte ich in der Datenbank (Oracle PL/SQL) auch einmal. Bei ISO 8859-x müsste man dann explizit die einzelnen Fälle ausprogrammieren (da gibt es keine ganz so einfache Ersetzungsregel wie bei ASCII

Code: Select all

65..90
gleich (paarweise)

Code: Select all

97..122
).
PBA #53713 (personal)
User avatar
ghisler(Author)
Site Admin
Site Admin
Posts: 50563
Joined: 2003-02-04, 09:46 UTC
Location: Switzerland
Contact:

Post by *ghisler(Author) »

Machen Sie mal folgendes:
1. 1x auf Datei klicken
2. Shift+F6 (Umbenennen)
3. Strg+C Namen kopieren, dann Escape drücken
4. Name in Notepad einfügen
5. Als Unicode speichern
6. Dasselbe mit der andrern Datei
7. Die 2 Unicode-Textdateien im Lister anzeigen, auf '3' (Hex) umstellen und vergleichen.
Author of Total Commander
https://www.ghisler.com
pba
Junior Member
Junior Member
Posts: 66
Joined: 2011-09-12, 07:35 UTC
Location: Friedberg (Hessen)

Files als Unicode abspeichern

Post by *pba »

Hallo,
wenn ich es richtig verstehe, sollen die Files als Unicode abgespeichert werden (nicht die Filenamen, was die Anleitung zu sagen scheint).

Ergebnis:
Die beiden Unicode-Dateien sind gleich. Beide Dateien verdoppeln die Dateigröße. Ein Vergleich gibt nun keinen Unterschied mehr bzgl. des ä/Ä.

Codes (Anzeige im Lister, auf 3 / Hex umgestellt):
ä - E4 00
Ä - C4 00

Grüße
pba
PBA #53713 (personal)
User avatar
ghisler(Author)
Site Admin
Site Admin
Posts: 50563
Joined: 2003-02-04, 09:46 UTC
Location: Switzerland
Contact:

Post by *ghisler(Author) »

Ich kann mir das nur noch so erklären, dass bei Ihnen die Windows-Tabellen für die Gross-/Kleinschreibungsumwandlung defekt sind oder fehlen.

Gehen Sie mal in die Systemsteuerung -Region und Sprache (bzw. bei Windows 8 nur Region), dann Tab "Verwaltung" - "Gebietsschema ändern". Stellen Sie das auf "Deutsch (Deutschland)". Falls es schon auf "Deutsch (Deutschland)" steht, ändern Sie es auf "Englisch (USA)", dann zurück auf "Deutsch (Deutschland)". Möglicherweise korrigiert das die Tabellen.
Author of Total Commander
https://www.ghisler.com
Post Reply