Inhaltsplugin für Datei-Speichercodierung?

German support forum

Moderators: white, Hacker, Stefan2

Post Reply
User avatar
Peter
Power Member
Power Member
Posts: 2064
Joined: 2003-11-13, 13:40 UTC
Location: Schweiz

Inhaltsplugin für Datei-Speichercodierung?

Post by *Peter »

Ich habe diverse Plugins, um an verschiedene Dateiinhalte zu gelangen - auch TRid (http://mark0.net/soft-trid-e.html) - aber wie komme ich an die Infos über die "Speicherart"

- ASCII
- UTF8
- UTF16
- mit / ohne BOM
- CR / CRLF

Ich habe das bisher nur in UltraEdit (und tw. WinMerge) gefunden. In welchen Plugins finde ich das?

Grüsse

Peter
Last edited by Peter on 2017-05-27, 08:02 UTC, edited 1 time in total.
TC 10.xx / #266191
Win 10 x64
phantom
Power Member
Power Member
Posts: 671
Joined: 2003-11-21, 15:34 UTC

Post by *phantom »

Cosierung - was ist das? Dieses Wort habe ich noch nie gehört.
User avatar
milo1012
Power Member
Power Member
Posts: 1158
Joined: 2012-02-02, 19:23 UTC

Re: Inhaltsplugin für Datei-Speichercosierung?

Post by *milo1012 »

Peter wrote:...aber wie komme ich an die Infos über die "Speicherart"...
Um einen eigenen alten Post zu zitieren:
UTF-8 lässt sich vergleichsweise zuverlässig erkennen, UTF-16 schon weniger zuverlässig, geht aber auch.
ASCII bezieht sich immer auf die 7-Bit-Kodierung (und wird hier im Forum und im TC gerne mal als falsche Bezeichnung für die alten DOS-Codepages benutzt, das nennt sich aber OEM-Kodierung - ASCII ist und war immer sieben Bit, das hat mit DOS/OEM erstmal nix zu tun). Was also auch geht, ist zu erkennen, ob eine Datei eine nicht-Unicode-Kodierung hat. Was das dann genau ist (OEM, ANSI, Binärdatei, sonstwas), lässt sich dann nur sehr ungenau feststellen und funktioniert (wenn überhaupt) nur mit genauen Statistiken über die Sprache, in der eine Textdatei verfasst ist.

Zu den Plugins:
Ich kenne nur zwei, die das können.

EncInfo. Das erschlägt:
- UTF8 (mit / ohne BOM)
- UTF16
- Binärdatei oder nicht (ist eine binäre Null enthalten oder nicht)
- versucht auch festzustellen, ob eine Datei OEM(DOS) oder ANSI ist, scheitert aber entsprechend oft

Mein eigenes PCREsearch, das erschlägt:
- UTF8 (keine BOM-Unterscheidung)
- UTF16
- nicht-Unicode

Für CR / CRLF reicht TC theoretisch schon alleine aus (ist bei großen Dateien aber ein Problem), oder nimm halt Plugins, siehe
http://www.ghisler.ch/board/viewtopic.php?t=46552
TC plugins: PCREsearch and RegXtract
User avatar
van Dusen
Power Member
Power Member
Posts: 684
Joined: 2004-09-16, 19:30 UTC
Location: Sinzig (Rhein), Germany

Post by *van Dusen »

Hallo Peter,

schau mal, ob mein Script CheckEncoding.vbs für Lev Freidins Script Content Plugin für Dich in Frage kommt:
http://ghisler.ch/board/viewtopic.php?p=179647#179647

Viele Grüße, van Dusen
User avatar
Peter
Power Member
Power Member
Posts: 2064
Joined: 2003-11-13, 13:40 UTC
Location: Schweiz

Post by *Peter »

phantom wrote:Cosierung - was ist das? Dieses Wort habe ich noch nie gehört.
Sorry - habe es auf Codierung geändert.

Danke an alle, werde es mir anschauen.
TC 10.xx / #266191
Win 10 x64
Post Reply