ꜛ Daten in PQ importieren → Aus CSV / Text (1)

Xtract: Import von Dat­en ein­er exter­nen Datei im Text-For­mat (*.csv, *.txt, *.prn, …) mit­tels Pow­er Query. Dieser Beitrag ist für absolute Ein­steiger ohne Vor­wis­sen geeignet. Teil 1, *.csv ohne Beson­der­heit­en.

Wis­sens­stand: Lev­el 1 ⇒ Pow­er Query für Ein­steiger – Keine Vorken­nt­nisse in PQ

Pro­log

Zu Be­ginn ist es wich­tig dass Sie ei­nes wis­sen: Files mit der En­dung *.csv wer­den typ­is­cher­weise in Win­dows zwar mit ei­nem Excel-Sym­bol dar­ge­stellt und per De­fault bei ei­nem Dop­pelk­lick auch mit Ex­cel ge­öff­net, aber es sind und blei­ben rei­nen Text-Da­tei­en. Dar­um soll­ten Sie die­se Da­tei­en nie mit die­ser Exten­sion mit Ex­cel öff­nen son­dern stets (auch ohne PQ) im­por­tie­ren. Und wenn Sie auf Pow­er Que­ry verzicht­en und den „klas­sis­chen” Weg ge­hen wol­len, dann wäh­len Sie den pas­sen­den Lega­cy-Assis­ten­ten im Menü Dat­en | Dat­en ab­ru­fen. Spä­ter dazu mehr…

Da­ten­im­port *.csv (com­ma se­pa­ra­ted va­lu­es)

Sie wol­len Dat­en ei­nes Files mit der En­dung *.csv in den Pow­er Que­ry-Edi­tor im­por­tie­ren. Und gle­ich zu Be­ginn der Hin­weis, dass das Wort „com­ma” prinzip­iell nur für die US-Vari­ante gilt. Hier in Deutsch­land (und di­ver­sen an­de­ren europäis­chen Län­dern) wird das Semi­kolon ; statt des Kom­mas als Trennze­ichen zwis­chen den (kün­fti­gen) Spal­ten ver­wen­det. Der Hin­ter­grund ist, dass das Kom­ma bei uns ja als Dez­i­mal­tren­ner ge­nutzt wird (in den USA ist es der Punkt). Wie Sie gut fest­stellen kön­nen, welch­er Tren­ner nun der rich­ti­ge ist, wer­den Sie gle­ich erken­nen.

Da­mit Sie mit den gle­ichen Dat­en arbeit­en wie ich hier im Script, kön­nen Sie (jet­zt oder et­was spä­ter) die­ses File von un­se­rem Serv­er herun­ter­laden. Sie ge­hen (even­tu­ell nach dem Down­load) den Weg über Dat­en | Ab­ru­fen und trans­formieren und Klick­en dann typ­is­cher­weise auf das Sym­bol Aus Text/csv oder im Men­üband über das Sym­bol Dat­en ab­ru­fen | Aus Da­tei | Aus Text/csv. An­schlie­ßend öff­net sich der File-Dia­log, wo Sie die zu importieren­den Dat­en aus­wäh­len kön­nen. Nach der Aus­wahl des Files wird Ih­nen der durch PQ „erkan­nte” Vor­schlag für den kün­fti­gen Im­port ange­boten:

Beispiel­hafter Import-Dia­log di­rekt nach der Aus­wahl des Files

Hin­weis: Wenn Sie ex­akt die hier­über ge­zeig­ten Dat­en im­por­tie­ren möcht­en, dann la­den Sie die­se hier von un­se­rem Serv­er (Bun­des­tags­mit­glie­der_un­sor­tiert.csv) her­un­ter. Mein Vor­schlag: Sie wer­den (ver­mut­lich) noch ei­ni­ge weit­ere Text­dateien im csv-For­mat herun­ter­laden wol­len. In die­ser zip-Da­tei find­en Sie all jene *.csv, wel­che hier disku­tiert wer­den. Hin­ter dem Link zur einzel­nen Da­tei find­en Sie in Klam­mern und kur­siv den ei­gent­li­chen File­na­men, wie er nach dem ent­pack­en vorhan­den ist.

Zu­ge­ge­ben, es gibt prak­tisch kei­ne Ähn­lichkeit zwis­chen die­sem Dia­log und dem Import-Fen­ster in Plain Ex­cel. Aber da­für „erken­nt” Pow­er Que­ry schon ver­schiedene Para­me­ter, die Sie in Ex­cel per Hand aus­wäh­len müs­sen. Trotz die­ser Pseu­do-Intel­li­genz ha­ben Sie natür­lich die Mög­lich­keit, die­se oder jene Ein­stel­lung nach­zu­bes­sern.

Dateiur­sprung
Ich weiß nicht, wer den ei­gent­li­chen, US-mut­ter­sprach­lichen Be­griff so ein­ge­deutscht hat. Aber all­ge­mein ist der englis­che Be­griff Code­page gebräuch­lich und der wird auch inter­na­tion­al angewen­det (und auch über­all rich­tig ver­standen). Grob, ja sehr grob erk­lärt: Unter­schiedliche Sys­teme spe­ich­ern Zei­chen außer­halb des inter­na­tionalen Zeichen­satzes (also Zif­fern und A bis Z, a bis z, Satzze­ichen, bes­timmte Son­derze­ichen aber kei­ne Um­lau­te) auf unter­schiedliche Wei­se ab. Je­des Zei­chen hat im Zeichen­satz eine Zif­fer, die im eben beschriebe­nen all­ge­meinen Zeichen­satz auch im­mer gle­ich ist. So ste­ht die Zahl 65 im­mer für das gro­ße A. Aber beispiel­sweise un­se­re Um­lau­te ha­ben auf dem Mac® (Ap­ple-Ge­rät) eine an­de­re Num­mer und das kann dazu füh­ren, dass die­se Zei­chen nicht kor­rekt an­ge­zeigt wer­den.

Hier ste­ht der Wert 1252: Wes­teu­ropäisch (Win­dows) im Aus­wahl-Feld und der ist auch kor­rekt. Schau­en Sie sich in der Vor­schau-Ta­bel­le ein­mal die Ein­träge mit Umlaut­en an und Sie wer­den erken­nen, dass die Na­men kor­rekt dar­ge­stellt wer­den. Än­dern Sie ver­such­sweise ein­mal die Ein­stel­lung des Dateiur­sprungs im Drop­Down auf die Zei­le dar­über, also 10000: Wes­teu­ropäisch (Mac):

Bei Umlaut­en sind deut­liche Unter­schiede sicht­bar

Bei der Frak­tion­s­ge­mein­schaft Bünd­nis 90/Die Grü­nen (und auch an an­de­ren Stel­len) ist klar zu erken­nen, dass die Um­lau­te nicht rich­tig dar­ge­stellt wer­den. Und Frau Schmidt (drit­tun­ter­ste sicht­bare Zei­le) kommt übri­gens aus Ühlin­gen… Dar­um wech­seln Sie wie­der rasch zu 1252… 💡 

Trennze­ichen
Hier hat Pow­er Que­ry selb­st­ständig kor­rekt erkan­nt, dass die einzel­nen Spal­ten durch ein Semi­kolon getren­nt sind. Dar­um sind die Spal­ten dar­un­ter auch „sau­ber” getren­nt. Soll­ten ein­mal an­de­re Tren­ner in der *.csv ver­wen­det wor­den sein und PQ erken­nt die­se nicht oder nicht kor­rekt, erweit­ern Sie das Text­feld und tre­f­fen die pas­sen­de Aus­wahl:

Die Aus­wahl –Be­nut­zer­de­fi­niert– gibt Ih­nen alle Frei­heit­en…

Daten­type­r­ken­nung
Ich räu­me ein, dass ich hier so gut wie nie eine Än­de­rung vor­neh­me. Zumin­d­est nicht an die­ser Stel­le im Edi­tor. Ich be­hal­te mir vor, den Daten­typ nach dem Im­port in den Edi­tor bei Be­darf mei­nen Wün­schen anzu­passen.

Schalt­fläche „La­den”
Ein Klick auf die­se Schalt­fläche führt dazu, dass die Dat­en in die­ser Form in eine Ab­fra­ge im­por­tiert und so­fort in ein neu­es Tabel­len­blatt in der Ex­cel Ar­beits­map­pe ge­schrie­ben wer­den. Wenn Sie die­sen But­ton durch ei­nen Klick auf das Sym­bol erweit­ern ha­ben Sie die Mög­lich­keit, La­den in… zu wäh­len. Dann kön­nen Sie beispiel­sweise über den Punkt Nur Ver­bin­dung er­stel­len vor­ge­ben, dass die Dat­en zwar in eine Ab­fra­ge im­por­tiert aber nach dem Schlie­ßen nicht di­rekt in ein neu­es Arbeits­blatt ge­schrie­ben wer­den. In bei­den Fäl­len wird sich je­doch der Import-Edi­tor schlie­ßen und sie befind­en sich entwed­er im ak­tu­el­len (even­tu­ell noch lee­ren) oder im neu erstell­ten Arbeits­blatt mit der erstell­ten Ta­bel­le mit den Dat­en der Ab­fra­ge. Sie erken­nen je­doch, dass in je­dem Fall ein recht­es Seit­en­fen­ster hinzuge­fügt wor­den ist, wo die Ab­fra­ge aufge­führt ist:

Nach ei­nem direk­ten Klick auf die Schalt­fläche La­den

Schalt­fläche „Dat­en trans­formieren”
In den meis­ten Fäl­len ist die­ses der bes­te Weg. Ein Klick auf die Schalt­fläche be­wirkt, dass die Dat­en di­rekt in den Edi­tor im­por­tiert wer­den und Ih­nen für die weit­ere Bear­beitung zur Ver­fü­gung ste­hen. Ich nut­ze die­se Mög­lich­keit so gut wie im­mer. Schau­en Sie sich an, wie das di­rekt nach dem aus­führen den des Im­ports aus­sieht:

Nach dem Im­port der Dat­en stellt sich der Edi­tor so dar

Im Mo­ment ist das rech­te Seit­en­fen­ster das Ob­jekt Ih­res Inter­ess­es. Bei der Über­schrift Eigen­schaften wur­de der Name der Ab­fra­ge automa­tisch ver­ge­ben. Es ist der ei­gent­li­che Name der im­por­tier­ten *.csv. Selb­stre­dend kön­nen Sie die­sen Na­men nach eige­nen Wün­schen an­pas­sen. Im gro­ßen Feld dar­un­ter Angewen­dete Schrit­te sind zwei Zei­len (sprich Schrit­te) einge­fügt: Quel­le und Geän­dert­er Typ. Die­se Auflis­tung wird bei jed­er durch Sie oder Pow­er Que­ry ini­ti­ierten Ak­ti­on automa­tisch erweit­ert. Im Anfangssta­di­um sind die­se Ein­träge für Sie nicht ganz so wich­tig; Aus­nah­men bestäti­gen allerd­ings die Re­gel. 💡 

Was Ih­nen aber ge­wiss aufall­en wird: Pow­er Que­ry hat automa­tisch Über­schriften ver­ge­ben, hier Co­lum­n1 bis Co­lum­n3. Jede Spal­te ein­er Ta­bel­le muss eine ein­deutige Über­schrift ha­ben. Aber für den Betra­chter ist es offen­sichtlich, dass schon „spre­chen­de” Über­schriften exis­tie­ren. Allerd­ings sind die­se in Zei­le1 der Ta­bel­le. Der Import-Assis­tent kann nicht in je­dem Fall unter­schei­den, ob die Tex­te in der ers­ten Zei­le nun Über­schriften sind oder Dat­en. Wenn eine ein­deutige Unter­schei­dung mög­lich ist, weil im Daten­bere­ich Zah­len ste­hen, dann wird der Assis­tent die ers­te Zei­le auch automa­tisch als Über­schrift einord­nen. Aber natür­lich bie­tet Ih­nen PQ auch in die­sem Fall, wo Über­schrift und Dat­en aus Tex­ten beste­hen, ei­nen leicht zu beschre­i­t­en­den Aus­weg an. Im Menü Start gibt es in der Grup­pe Trans­formieren eine Schalt­fläche mit der Beze­ich­nung Ers­te Zei­le als Über­schriften ver­wen­den. Ein Klick dar­auf und Sie ha­ben eine rich­tig schi­cke Ta­bel­le (ge­nau­er ge­sagt: Ab­fra­ge), wel­che den Re­geln und Ih­ren Vorstel­lun­gen ent­spricht. Der ei­gent­li­che Im­port ist da­mit been­det und Sie kön­nen mit den Dat­en nach Her­zens­lust arbeit­en.

▲ nach oben …

Hat Ihnen der Beitrag gefallen?
Erleichtert dieser Beitrag Ihre Arbeit?

Dann würde ich mich über einen Beitrag Ihrer­seits z.B. 1,50  freuen …

Dieser Beitrag wurde unter a) Keine Vorkenntnisse, File-Handling, Power Query, PQ für Einsteiger, PQ-Basics, PQ-Import en détail, Text-Behandlung abgelegt und mit , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.