Dubletten entfernen mit Power Query

PQQ -Doppelte Datensätze mittels Power Query entfernen

Wenn Sie für eine Auswertung sowieso Power Query einsetzen, dann werden Sie gewiss auch den Schritt des Entfernens von Dubletten mit diesem Tool durchführen wollen. Nicht nur, dass dann alles „aus einem Guss“ ist, sie haben ja auch mehr Möglichkeiten mit diesem Tool und gerade bei größeren Datenmengen ist Power Query so gut wie immer um einiges schneller.

Laden Sie am besten diese Beispiel-Datei um die gezeigten Beispiele besser nachvollziehen zu können. Auf dem Blatt Tabelle1 erkennen sie, dass jeweils 2 Datensätze mit der ID 3 und ID 4 vorhanden sind. Dass dabei die ID 4 mit unterschiedlichen Daten vorhanden ist, soll in diesem Moment unbeachtet bleiben.

Im ersten Durchgang sollen ausschließlich die Zeilen mit den doppelten IDs gelöscht werden. Also unabhängig von den Daten die weiter in der Zeile stehen wird ausschließlich die ID bewertet. Im Normalfall wird ja auch 1 ID immer nur für 1 Datensatz vergeben. 🙄

Beginnen Sie damit, irgendwo in die Tabelle zu klicken und die Power Query Funktionalität zu aktivieren. Anschließend rufen Sie im Menüband den Punkt Aus Tabelle auf und es öffnet sich das Abfrage-Fenster. Die Spalte mit der ID ist -weil es ja die 1. Spalte ist- bereits per Default markiert. Nun ein Klick auf das Symbol oder den Text Zeilen verringern. Jetzt auf Zeilen entfernen und letztendlich auf Duplikate entfernen.

Jetzt sind die beiden Duplikate entfernt worden, sodass jeweils nur 1 Datensatz jeder ID in der Liste enthalten ist. Interessant ist aber, welcher Datensatz bei Dubletten gelöscht wird. An der ID 4 können Sie sehr schön erkennen, dass der Datensatz der ersten ID erhalten geblieben ist. Soll einmal -aus welchen Gründen auch immer- der letzte Datensatz erhalten bleiben, dann können Sie im Register Transformieren die Reihenfolge aller Daten umkehren, die Duplikate löschen und wiederum die Reihenfolge umkehren. – Zum Schluss ein Klick auf Schließen & laden und die bereinigte Abfrage wird als Tabelle in ein neues Arbeitsblatt geschrieben.

Im Arbeitsblatt Tabelle2 erkennen sie, dass nur die ID 3 markiert ist. Das Ziel ist dieses Mal, absolut identischer Datensätze zu finden und die doppelten zu löschen. Erstellen Sie auch aus dieser Liste eine Abfrage und markieren Sie alle Überschriften. Beispielsweise durch einen Klick in die erste Überschrift, Shift und dann in die letzte Überschrift. Jetzt die gleiche Vorgehensweise wie eben beim löschen der Duplikate durchführen und sie werden erkennen, dass nur die Datensätze gelöscht worden sind, die sich in keinem einzigen Punkt von dem oder den vorherigen unterscheiden. Auch diese Abfrage werden sie vielleicht speichern.

Auch im Worksheet Tabelle3 werden sie in die Daten klicken um daraus eine Abfrage darstellen. Aber zuvor sollten Sie erkennen, dass hier offensichtlich 2 identische Personen mit unterschiedlichen IDs erfasst worden sind. Tatsächlich ist Peter Lustig unter 2 verschiedenen IDs, nämlich der 1 als auch der 5 erfasst. Wenn solch eine Gefahr besteht oder auch nachgewiesen ist, sollten Sie in der Abfrage alle Spalten mit Ausnahme der ersten markieren und dann die Duplikate nach gehabtem Muster entfernen. Anschließend können Sie natürlich auch wieder speichern.

Hinweis: An verschiedenen Stellen des Blogs ist das Thema „doppelte Datensätze“ angesprochen. Nutzen Sie einfach die Suche… Wenn Sie die Dubletten nur markieren aber nicht löschen wollen, dann hilft Ihnen gewiss dieser Beitrag weiter.

▲ nach oben …

Dieser Beitrag wurde unter Filtern & Sortieren, Musterlösungen, Ohne Makro/VBA, Power Query, PQ-Quickies abgelegt und mit , , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.