Dubletten löschen (2)

Dubletten bei gegebenen Bedingungen löschen

Das löschen von doppelten Werten oder Einträgen mit Power Query ist bereits in diesem Beitrag erklärt worden. Nun gibt es aber Situationen, wo beispielsweise die Index-Spalte diverse doppelte Werte enthält und das prinzipielle Ziel ist, jeden Wert nur ein Mal stehen zu lassen; aber es soll nicht immer die erste Zeile bestehen bleiben und die restlichen Zeilen gelöscht werden. Sehen Sie sich diese Musterdatei an und erkennen sie, dass in verschiedenen Zeilen der Spalte Hinweis ein Text eingefügt ist. Diese Zeilen sollen in jedem Fall bestehen bleiben.

Beginnen Sie damit, dass sie diese Auflistung in Power Query als Tabelle einlesen. Nach dem öffnen des Abfrage-Editor wird Ihnen gewiss auffallen, dass die Produkt-ID als Zahl und nicht als Text dargestellt wird. Sie erkennen das daran, dass die führenden Nullen entfernt worden sind und der Datentyp ist hier Dezimalzahl. Der einfachste Weg wäre zwar, im rechten Seitenfenster bei Angewendete Schritte den Eintrag Geänderter Typ einfach zu löschen. Ich ziehe es vor, diese Spalte explizit den Datentyp Text zuzuweisen. An dieser Stelle sollten Sie jedoch (erst einmal) den derzeitigen Zustand belassen, also auch nichts zu löschen.

Da mich beim Erfassungs-Datum die Zeitangabe 00:00:00 stört, weise ich dieser Spalte den Datentyp Datum zu, auch wenn es nicht erforderlich ist. Jetzt ein Klick in die Überschrift Hinweis und die Spalte absteigend (Z..A) sortieren. Das führt dazu, dass nun die Zeilen mit den Hinweistexten ganz oben stehen.

Jetzt (und auch wirklich erst jetzt) werden sie den Datentyp der ersten Spalte ändern. Das geht recht gut über einen Rechtsklick in die Überschrift Produkt-ID und dann im Kontextmenü über Typ ändern | Text die Zuweisung vornehmen. Dass das erst an dieser Stelle geschieht liegt darin begründet, dass offensichtlich nur so gewährleistet ist, dass beim Entfernen der Dubletten auch wirklich die oben stehenden Zeilen mit den Texten in der Spalte Hinweis stehen bleiben. Als ich die Typzuweisung gleich zu Beginn vorgenommen hatte, wurden die oberen, in den Text enthaltenden Zeilen dann auch gelöscht. Warum auch immer …

Nun ein Rechtsklick in die Überschrift Produkt-ID und wählen Sie im Kontextmenü den Punkt Duplikate entfernen. Es bleiben 10 Zeilen mit einmaligen Produkt-IDs erhalten. Im letzten Schritt wird noch genau dieser Spalte sortiert. Typischerweise ist die Überschrift noch in einem dunkleren Grün markiert, also aktiviert. Am einfachsten jetzt im Menü-Register ein Klick auf die Schaltfläche A↑Z und die Daten werden nach der ID aufsteigend sortiert.

Wollen Sie die durch die Abfrage erzeugte Tabelle in ein neues Blatt speichern, dann reicht ein Klick auf Schließen & laden; möchten Sie die Daten beispielsweise im gleichen Arbeitsblatt platzieren, dann klicken Sie auf den Text Schließen & laden unterhalb des Symbols und wählen den Menüpunkt Schließen & laden in… Anschließend können Sie die linke obere Zelle auswählen bzw. in das entsprechende Feld eintragen, wo die Daten positioniert werden. Die Aufgabe ist damit gelöst.

Sollten Sie mit dem Gedanken spielen, nun die Ausgangstabelle zu löschen zu bedenken Sie bitte eins: Die erzeugte Abfrage basiert auf genau diesen Daten. Wenn es eine einmalige Aktion ist, dann können Sie die Ursprungsdaten problemlos löschen. Soll diese Datenbasis jedoch später verändert und dann erneut für das Entfernen von Duplikaten genutzt werden, dann muss die Liste unbedingt erhalten bleiben und der Name der Tabelle darf auch nicht geändert worden sein.

▲ nach oben …

Dieser Beitrag wurde unter Allgemein, Verschiedenes, Datentyp anpassen, Power Query abgelegt und mit , , , , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

Schreibe einen Kommentar