Unicode bzw. UTF-Probleme mit RAR-Archivdateien

German support forum

Moderators: Hacker, Stefan2, white

Post Reply
Benno Gaul
Junior Member
Junior Member
Posts: 19
Joined: 2004-06-10, 13:07 UTC

Unicode bzw. UTF-Probleme mit RAR-Archivdateien

Post by *Benno Gaul »

Hallo zusammen!

Bei manchen download-RAR-Archiven, vermutlich von amerikanischen Servern, sind manche Vokale in den entpackten Datei-Namen nur als dicke senkrechte Striche dargestellt. Nicht alle, manche! Das schafft einige Probleme bzgl Dateienmanagement und Aufrufe. Werden teilweise nicht mehr erkannt. Das RAR-Archiv selbst (also "außen") hat häufig den gleichen Namen wie der gepackte Inhalt, in diesem Dateinamen sind die Vokale und auch alles andere IMMER korrekt dargestellt. Merkwürdig.

Deshalb will ich die entpackten Dateien gerne umbenennen/korrigieren. "Zu Fuß" ist das kein Problem. Würde aber gerne wie üblich das Mehrfach-Umbenenntool verwenden. Aber komisch: Innerhalb des Tools werden diese Dateien plötzlich mit korrekten Vokalen angezeigt, jedoch ist es nicht möglich, sie umzubenennen. Wobei ich ja streng genommen gar nicht umbenennen will, sondern nur konvertieren.

Auch komisch: Wenn ich so einen Dateinamen als Text kopiere, und dann im EditPad (mein uralter heißgeliebter Editor) einfüge, dann ist plötzlich alles richtig. Wenn ich da den Dateinamen nun neu markiere und kopiere, und dann kopierenderweise zum ursprünglichen Dateinamen (im TC-Fenster) zurückbringe/drüberkopiere, dann ist es nun auch da richtig. Hokus Pokus. Funktioniert aber nur mit Editpad, nicht mit dem orig. Editor von Windows.

Was ich gerne hätte: Daß bereits beim RAR-Entpacken alle Vokale in Dateinamen richtig konvertiert erscheinen. Oder auch ein Mehrfachkonvertier-Tool, das mir das erledigen kann.

Habe googelnd nix gefunden, und auch nicht im TC. Dort wird zwar Unicode und UTF-8 erklärt und besprochen, aber nur für den Viewer. Ich weiß ja nicht mal genau, ob das nun ein Unicode-Thema ist. Auch WinRAR bietet für das Entpacken nichts Relevantes in den Einstellungen an.

In dem neuen TC-Wicki habe ich zwar die Warnmöglichkeit in der ini für solche Dateinamen - UnicodeListWarn=1 - gefunden. Das ist sehr schön. Behebt aber das Problem noch nicht.

Benutze Windows 2000, ist soweit ich schon recherchiert habe, möglicherweise wichtig in diesem Zusammenhang. TC-Version ist die aktuelle 7.50a

Wer hilft mir bitte weiter? Danke!

Benno
User avatar
ghisler(Author)
Site Admin
Site Admin
Posts: 50746
Joined: 2003-02-04, 09:46 UTC
Location: Switzerland
Contact:

Post by *ghisler(Author) »

TC unterstützt eigentlich schon lange das Unicode-Namensformat von RAR-Dateien. Möglicherweise handelt es sich um ein neues, mir noch unbekanntes Format. Wo kann ich eine Testdatei finden? Falls sie nicht grösser als 500 kByte ist, können Sie sie mir auch per e-mail an beta at ghisler dot com schicken, dann sehe ich mir das mal an.
Author of Total Commander
https://www.ghisler.com
Benno Gaul
Junior Member
Junior Member
Posts: 19
Joined: 2004-06-10, 13:07 UTC

Post by *Benno Gaul »

Danke für die Antwort!

Das ist schon ein merkwürdiges Phänomen, ich vermute, daß der Ersteller der Archive/Dateien absichtlich eine Art Verscheierung implementiert, um die Dateien vor unerwünschtem Zugriff zu schützen. Nur eine Vermutung.

Habe also folgendes untersucht:

Es werden nur die Vokale a i o u verändert, niemals das e. Die Veränderung wird im Windows-Editor derart sichtbar, daß über jedem dieser Vokale ein kurzer Querstrich ist. Diese Änderung bewirkt im TC-Dateifenster (aber auch im Explorer), daß der Vokal nur mit einem Strich angezeigt wird. Und dort ist es hartnäckig konstant. Hingegen in einem Editor ist es sehr "flüchtig": Im Editpad ist das Phänomen sofort weg, im Windows-Editor zunächst nicht, aber nach Speichern und erneutem Öffnen der Datei ist es auch da weg. Also alles normal dann.

Dazu kommt, daß in einer solchen Dateinamen-Zeichenkette durchaus nicht jeder dieser Vokale verändert erscheint, es können normale u und "unicodierte" dabei sein usw.

Hier nun der Praxistest: a i o u, per Zwischenablage aus dem Windows-Editor - also mit den Querbalken drauf - hier eingefügt (folgt jetzt sofort und wird auch genauso wie im Editor dargestellt):

ā ī ō ū

in der Vorschau - immer noch so - aber im Forum-Editor darunter erscheint dann plötzlich:

& # 257; & # 299; & # 333; & # 363;

Ich muß hier absichtlich Leerstellen vor und nach dem # einfügen, sonst stellt das Original im Forum immer nur die Vokale mit Oberstrichen dar, die im TC-Fenster alle als einheitlich gleiche senkrechte dicke Striche erscheinen, und von denen ich nicht mal jetzt definitiv weiß, was Sie, lieber Forumsleser, nun tatsächlich zu Gesicht bekommen.

Dieser Text geht als mail auch an beta at ghisler dot com. Was da dann dargestellt wird - keine Ahnung. Ein überaus flüchtiges aber auch sehr hartnäckiges Phänomen.

Grüße, Benno

Nachtrag nach "Absenden":
Hier im Forum werden die Vokale mit Querbalken oben dargestellt, wie geschrieben und gewollt bzw. vom Win-Edit kopiert. In der beta at ghisler dot com jedoch erscheint die Zeichekette mit den & und # usw.
Post Reply