Dubletten entfernen mit Power Query

PQQ ‑Doppelte Datensätze mittels Power Query entfernen

Wenn Sie für eine Auswer­tung sowieso Pow­er Query ein­set­zen, dann wer­den Sie gewiss auch den Schritt des Ent­fer­nens von Dublet­ten mit diesem Tool durch­führen wollen. Nicht nur, dass dann alles „aus einem Guss” ist, sie haben ja auch mehr Möglichkeit­en mit diesem Tool und ger­ade bei größeren Daten­men­gen ist Pow­er Query so gut wie immer um einiges schneller.

Laden Sie am besten diese Beispiel-Datei um die gezeigten Beispiele bess­er nachvol­lziehen zu kön­nen. Auf dem Blatt Tabelle1 erken­nen sie, dass jew­eils 2 Daten­sätze mit der ID 3 und ID 4 vorhan­den sind. Dass dabei die ID 4 mit unter­schiedlichen Dat­en vorhan­den ist, soll in diesem Moment unbeachtet bleiben.

Im ersten Durch­gang sollen auss­chließlich die Zeilen mit den dop­pel­ten IDs gelöscht wer­den. Also unab­hängig von den Dat­en die weit­er in der Zeile ste­hen wird auss­chließlich die Spalte ID bew­ertet. Im Nor­mal­fall wird ja auch 1 ID immer nur für 1 Daten­satz vergeben. 🙄

Begin­nen Sie damit, irgend­wo in die Tabelle zu Klick­en und die Pow­er Query Funk­tion­al­ität zu aktivieren. Anschließend rufen Sie im Menüband den Punkt Aus Tabelle bzw. Aus Tabelle/Bereich auf und es öffnet sich das Abfrage-Fen­ster. Die Spalte mit der ID ist ‑weil es ja die 1. Spalte ist- bere­its per Default markiert. Nun ein Klick auf das Sym­bol oder den Text Zeilen ver­ringern. Jet­zt auf Zeilen ent­fer­nen und let­z­tendlich noch auf Dup­likate ent­fer­nen. In neueren PQ-Ver­sio­nen genügt es, die betr­e­f­fend­en Spalte(n) durch einen Klick in die Über­schrift zu markieren (mehrere Spal­ten mit Strg oder Shift) und dann per Recht­sklick im Kon­textmenü Dup­likate ent­fer­nen anklick­en. 🙂  

Jet­zt sind die bei­den Dup­likate ent­fer­nt wor­den, sodass jew­eils nur 1 Daten­satz jed­er ID in der Liste enthal­ten ist. Inter­es­sant ist aber, welch­er Daten­satz bei Dublet­ten gelöscht wird. An der ID 4 kön­nen Sie sehr schön erken­nen, dass der Daten­satz der ersten ID erhal­ten geblieben ist. Soll ein­mal ‑aus welchen Grün­den auch immer- der let­zte Daten­satz erhal­ten bleiben, dann kön­nen Sie im Reg­is­ter Trans­formieren die Rei­hen­folge aller Dat­en per Klick auf Zeilen umkehren genau dieses tun, die Dup­likate löschen und auf gle­ichem Wege wiederum die Rei­hen­folge umkehren. – Zum Schluss ein Klick auf Schließen & laden und die bere­inigte Abfrage wird als Tabelle in ein neues Arbeits­blatt geschrieben. Hin­weis: In manchen (Aus­nahme-) Fällen ist es erforder­lich, dass Sie tem­porär eine Index-Spalte anle­gen. Im Bedarfs­fall ein­fach ein­mal pro­bieren… 😉 

Im Arbeits­blatt Tabelle2 erken­nen sie, dass nur die ID 3 markiert ist. Das Ziel ist dieses Mal, abso­lut iden­tis­ch­er Daten­sätze zu find­en und die dop­pel­ten zu löschen. Erstellen Sie auch aus dieser Liste eine Abfrage und markieren Sie alle Über­schriften. Beispiel­sweise durch einen Klick in die erste Über­schrift, Shift und dann in die let­zte Über­schrift. Jet­zt die gle­iche Vorge­hensweise wie eben beim löschen der Dup­likate durch­führen und sie wer­den erken­nen, dass nur die Daten­sätze gelöscht wor­den sind, die sich in keinem einzi­gen Punkt von dem oder den vorheri­gen unter­schei­den. Auch diese Abfrage wer­den sie vielle­icht spe­ich­ern.

Auch im Work­Sheet Tabelle3 wer­den sie in die Dat­en Klick­en um daraus eine Abfrage darstellen. Aber zuvor soll­ten Sie erken­nen, dass hier offen­sichtlich 2 iden­tis­che Per­so­n­en mit unter­schiedlichen IDs erfasst wor­den sind. Tat­säch­lich ist Peter Lustig unter 2 ver­schiede­nen IDs, näm­lich der ID 1 als auch der 5 erfasst. Wenn solch eine Gefahr beste­ht oder auch nachgewiesen ist, soll­ten Sie in der Abfrage alle Spal­ten mit Aus­nahme der ersten markieren und dann die Dup­likate nach gehabtem Muster ent­fer­nen. Anschließend kön­nen Sie natür­lich auch wieder spe­ich­ern.

Hin­weis: An ver­schiede­nen Stellen des Blogs ist das The­ma „dop­pelte Daten­sätze” ange­sprochen. Nutzen Sie ein­fach die Suche… Wenn Sie die Dublet­ten nur markieren aber nicht löschen wollen, dann hil­ft Ihnen gewiss dieser Beitrag weit­er.

▲ nach oben …

Hat Ihnen der Beitrag gefallen?
Erleichtert dieser Beitrag Ihre Arbeit?

Dann würde ich mich über einen Beitrag Ihrer­seits z.B. 2,00  freuen … (← Klick mich!)

Dieser Beitrag wurde unter Filtern & Sortieren, Musterlösungen, Ohne Makro/VBA, Power Query, PQ-Quickies abgelegt und mit , , , , , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.