Jakobus Schuerz
2006-05-13 11:17:09 UTC
Hi!
Ich wurde mit meinem Anliegen in diese Gruppe verwiesen, daher bitte ich
über dass doppelte Posting (d.c.o.u.l.misc wie hier) hinwegzusehen.
Ich sollte aus einer riesig-langen Liste aus einer Spalte die sämtliche
unterschiedliche Wörter herausfiltern, sie zählen und in einer Art
Histogramm ablegen, damit ich aus den häufigsten einen Stichwortkatalog
erstellen kann und die div. verschiedenen Schreibweisen der Worte (z.B.
Ans., Ansuchen, ...) vereinheitlichen kann.
Dabei ergeben sich für mich zwei Probleme:
Die Datei wurde ursprünglich mit MS-Excel 2003 erstellt. Ich hab sie mit
Open Office als csv (Kommagetrennte Listendatei) abgespeichert. Ich kann
wunderbar mit cat und cut die betreffende Spalte extrahieren. Sobald ich
aber über eine Pipe in eine Datei oder less schreibe kommt eine Anzeige
raus, wo zwischen JEDEM Zeichen der ursprünglichen Datei "^@" zu sehen ist.
Wenn ich im Konquerer über ein Plugin die ursprüngliche Datei ansehen
lasse, zeigt der das Ganz "normal" an. Kopiere ich dort den Text und
füge ihn in ein KWrite oder Kate oder Emacs-file ein, dann werden
zwischen jedem Zeichen der ursprünglichen Datei Leerzeichen eingefügt.
Versuche ich die csv-Datei mit KWrite (oder einem anderen Editor) zu
öffnen, dann bekomme ich den Warnhinweis, dass die Datei binär sei und
ein allfälliges Speichern zu einer schadhaften Datei führe...
Dieses Problem ist zwar nicht schön, aber ich hab im Ursprünglichen
Excel die Datei als .cvs exportiert, und damit ist glücklicherweise der
Binär-Schei... nicht mehr vorhanden.
Aber es geht weiter.
Ich hab die Datei mit ISO-8859-15-Zeichensatz exportiert. Die Datei wird
sowohl in einem Editor (like Kate...) als auch in VIM wunderbar mit
allen ihren Umlauten und Sonderzeichen dargestellt.
Sobald ich aber ein cat oder cut drüberlaufen lasse, werden die Umlaute
durch eine Zahlenfolge dargestellt mit der ich naturgemäß nicht viel
anfangen kann. Ich will ja die verschiedenen Wörter und Schreibweisen in
der Spalte katalogisieren und zählen.
Kann ich der bash irgendwo den zu verwendenen Zeichensatz mitteilen oder
muss ich damit leben, dass die bash-Befehle die deutschen Sonderzeichen
und Umlaute nicht kennt?
Und jetzt zum Kernproblem:
Welche Befehle kann/muss ich verwenden, damit mir eine Liste ausgegeben
wird, in der die verschiedenen Wörter, in ihren verschiedene
Schreibweisen aufgelistet werden, und in einer zweiten Spalte deren
Häufigkeit notiert ist?
So geübt bin ich im bash-programmieren noch nicht und bitte euch daher
um Hilfe.
lg jakob
Jakobus Schürz
mail: ***@onemail.at
Ich wurde mit meinem Anliegen in diese Gruppe verwiesen, daher bitte ich
über dass doppelte Posting (d.c.o.u.l.misc wie hier) hinwegzusehen.
Ich sollte aus einer riesig-langen Liste aus einer Spalte die sämtliche
unterschiedliche Wörter herausfiltern, sie zählen und in einer Art
Histogramm ablegen, damit ich aus den häufigsten einen Stichwortkatalog
erstellen kann und die div. verschiedenen Schreibweisen der Worte (z.B.
Ans., Ansuchen, ...) vereinheitlichen kann.
Dabei ergeben sich für mich zwei Probleme:
Die Datei wurde ursprünglich mit MS-Excel 2003 erstellt. Ich hab sie mit
Open Office als csv (Kommagetrennte Listendatei) abgespeichert. Ich kann
wunderbar mit cat und cut die betreffende Spalte extrahieren. Sobald ich
aber über eine Pipe in eine Datei oder less schreibe kommt eine Anzeige
raus, wo zwischen JEDEM Zeichen der ursprünglichen Datei "^@" zu sehen ist.
Wenn ich im Konquerer über ein Plugin die ursprüngliche Datei ansehen
lasse, zeigt der das Ganz "normal" an. Kopiere ich dort den Text und
füge ihn in ein KWrite oder Kate oder Emacs-file ein, dann werden
zwischen jedem Zeichen der ursprünglichen Datei Leerzeichen eingefügt.
Versuche ich die csv-Datei mit KWrite (oder einem anderen Editor) zu
öffnen, dann bekomme ich den Warnhinweis, dass die Datei binär sei und
ein allfälliges Speichern zu einer schadhaften Datei führe...
Dieses Problem ist zwar nicht schön, aber ich hab im Ursprünglichen
Excel die Datei als .cvs exportiert, und damit ist glücklicherweise der
Binär-Schei... nicht mehr vorhanden.
Aber es geht weiter.
Ich hab die Datei mit ISO-8859-15-Zeichensatz exportiert. Die Datei wird
sowohl in einem Editor (like Kate...) als auch in VIM wunderbar mit
allen ihren Umlauten und Sonderzeichen dargestellt.
Sobald ich aber ein cat oder cut drüberlaufen lasse, werden die Umlaute
durch eine Zahlenfolge dargestellt mit der ich naturgemäß nicht viel
anfangen kann. Ich will ja die verschiedenen Wörter und Schreibweisen in
der Spalte katalogisieren und zählen.
Kann ich der bash irgendwo den zu verwendenen Zeichensatz mitteilen oder
muss ich damit leben, dass die bash-Befehle die deutschen Sonderzeichen
und Umlaute nicht kennt?
Und jetzt zum Kernproblem:
Welche Befehle kann/muss ich verwenden, damit mir eine Liste ausgegeben
wird, in der die verschiedenen Wörter, in ihren verschiedene
Schreibweisen aufgelistet werden, und in einer zweiten Spalte deren
Häufigkeit notiert ist?
So geübt bin ich im bash-programmieren noch nicht und bitte euch daher
um Hilfe.
lg jakob
Jakobus Schürz
mail: ***@onemail.at
--
Soweit im Mail personenbezogene Bezeichnungen nur in weiblicher Form
angeführt sind, beziehen sie sich auf Frauen und Mäner in gleicher
Weise. Bei Anwendung auf bestimmte Personen ist die jeweils
geschlechtsspezifische Form verwendet.
(In Anlehnung an §1 der Geschäftsordnung des Landtages für Wien vom 18.
Juli 2001)
Soweit im Mail personenbezogene Bezeichnungen nur in weiblicher Form
angeführt sind, beziehen sie sich auf Frauen und Mäner in gleicher
Weise. Bei Anwendung auf bestimmte Personen ist die jeweils
geschlechtsspezifische Form verwendet.
(In Anlehnung an §1 der Geschäftsordnung des Landtages für Wien vom 18.
Juli 2001)