Przekształcanie informacji w dane. Na co uważać na przykładzie RWDZ?


Kilka lat temu poszukując klientów z branży budowlanej trafiłem na wyszukiwarkę RWDZ, czyli umieszczoną na stronie Głównego Urzędu Nadzoru Budowlanego wyszukiwarkę Rejestru Wniosków, Decyzji i Zgłoszeń. Samo w sobie stworzenie tego systemu jest nie lada osiągnięciem. Baza zawiera rekordy od początku 2016 r. i na marzec 2022 tylko województwo pomorskie zawiera ich ponad 180 tysięcy.

Prawdziwe pole do analityki daje możliwość pobrania bazy w postaci pliku CSV. Analiza pliku pokazuje, że system działa i samo to jest sukcesem. Natomiast rzut oka na pobrane dane wskazuje na brak spójności na etapie ich wprowadzania, co wydaje się jednym z podstawowych wyzwań digitalizacji. O spójność najtrudniej w polach tekstowych wprowadzanych „z ręki”, gdzie użytkownik musi wpisać jakiś tekst i nie jest w tym zbytnio kontrolowany. Bez jasnej wytycznej wpisze cokolwiek. W przypadku wspomnianej bazy, najbardziej rzucające się w oczy są pola związane z numerem decyzji. Czasem są to numery pism (zwykle znajdujące się w lewym gónym rogu, identyfikujące autora), a czasem to numery decyzji (w tytule). Numery decyzji z kolei czasem występują same, a czasem są okraszone przedrostkiem „Dec nr”. Inną problematyczną kolumną jest nr uprawnień. Czasem wpisywany jest faktyczny numer uprawnień (którego składnia zmieniała się na przestrzeni dziejów), a czasem nr członka izby zawodowej. Można sobie wyobrazić, że próba budowy systemu automatycznie weryfikującego aktualność opłaconego ubezpieczenia generowałaby potencjalne problemy.

Powyższy przykład pokazuje jak ważnym jest wzięcie pod uwagę osoby wporwadzającej dane do systemu i ograniczenie jej swobody. Zasadniczo proste rozwiązania są dwa. Szkolenie i kontrolowanie operatora, co przy setkach urzędów powiatowych w Polsce jest prawdopodobnie niemożliwością lub przez systemowe ograniczanie wyboru. To drugie z kolei wiąże się z koniecznoscią przyjecia globalnego standardu, który pozwalałby na systemową weryfikację wprowadzonych danych w odniesieniu do ustalonego wzorca. Takie „dogadanie się” jest prawdopodobnie trudne na poziomie ogólnopolskim, ale na poziomie budowy, czy firmy jest dużo prościej. Natomiast posiadanie spójnych danych stanowi ogromną wartość analityczną w dzisiejszym świecie.

Powyższy wywód służy przekonaniu czytelnika, że digitalizując jakiś proces warto przeanalizować potencjał niespójności danych wynikających z pozostawienia zbyt dużej swobody użytkownikowi. Dostępne powszechnie systemy biurowe pozwalają dziś na tworzenie „ad hoc” rozwiązań pozwalajacych na zbieranie lub uzupełnianie danych i późniejsze ich przetwarzanie. Budując aplikację warto zastanowić się jak zpewnić spójność danych aby nie poświęcać zbyt dużo czasu na ich „czyszczenie” przed dalszym ich przetwarzaniem.

Komentarze

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *