
Excel to dla wielu studentów pierwsze i najczęściej jedyne narzędzie, w którym lądują wyniki badań — i bardzo dobrze, bo do większości prac dyplomowych w zupełności wystarcza. Problem w tym, że sposób, w jaki dane zostaną wprowadzone na samym początku, przesądza o tym, czy późniejsza analiza będzie prosta, czy zamieni się w godziny ręcznego poprawiania. Źle zbudowany arkusz potrafi uniemożliwić policzenie najprostszej statystyki. Dlatego warto poświęcić chwilę na poprawne wprowadzenie danych — to inwestycja, która zwraca się przy każdym kolejnym kroku analizy.
Krok 1 — zbuduj poprawną strukturę arkusza
Fundamentem jest właściwy układ tabeli, oparty na jednej żelaznej zasadzie: każdy wiersz to jeden badany przypadek (jedna ankieta, jedna osoba), a każda kolumna to jedna zmienna (jedno pytanie lub jedna cecha). To tzw. macierz danych i taki układ rozumieją wszystkie programy — od Excela po SPSS.
Pierwszy wiersz przeznacza się na nagłówki kolumn — krótkie, jednoznaczne nazwy zmiennych. Pierwsza kolumna zwykle zawiera numer identyfikacyjny respondenta (ID), co pozwala później wrócić do konkretnej ankiety w razie wątpliwości. Od drugiego wiersza w dół wprowadza się dane — wiersz po wierszu, ankieta po ankiecie. Kluczowa zasada: jedna komórka = jedna informacja. Nie wpisuje się dwóch odpowiedzi do jednej komórki ani nie łączy się danych, które później trzeba będzie rozdzielać.
Krok 2 — nazwij zmienne z głową
Nazwy kolumn powinny być krótkie, ale czytelne. Zamiast wpisywać w nagłówek całe pytanie ankietowe („Jak ocenia Pan/Pani jakość obsługi w naszym sklepie?"), stosuje się skrót — na przykład obsluga_ocena albo P5 (pytanie 5). Warto unikać polskich znaków, spacji i znaków specjalnych w nazwach zmiennych, bo bywają problematyczne przy eksporcie do innych programów; zamiast spacji używa się podkreślnika.
Dobrym zwyczajem jest prowadzenie osobnego arkusza-słownika (kodowej książki), w którym zapisuje się, co oznacza każda nazwa zmiennej i każdy kod. Dzięki temu po tygodniach wiadomo, że P5 to pytanie o jakość obsługi, a w kolumnie plec wartość 1 oznacza kobietę, a 2 mężczyznę. To prosta praktyka, która ratuje przed chaosem przy większych zbiorach.
Krok 3 — koduj odpowiedzi liczbowo
Programy statystyczne (a często i sam Excel przy obliczeniach) lepiej radzą sobie z liczbami niż z tekstem. Dlatego odpowiedzi jakościowe warto zakodować liczbowo. Płeć zapisuje się jako 1 i 2 zamiast „kobieta" i „mężczyzna", a odpowiedzi ze skali Likerta — jako liczby od 1 do 5 (gdzie 1 = „zdecydowanie się nie zgadzam", a 5 = „zdecydowanie się zgadzam").
Trzeba przy tym konsekwentnie pamiętać o jednym: te liczby przy zmiennych nominalnych to tylko etykiety, a nie wartości do liczenia. Z kodu płci (1 i 2) nie wolno liczyć średniej — „średnia płeć 1,4" nie ma sensu. Kodowanie służy wygodzie i zgodności z programami, ale nie zmienia natury zmiennej. To, co wolno z daną kolumną zrobić, zależy od typu zmiennej, a nie od tego, że zapisano ją cyframi.
Krok 4 — ustal sposób oznaczania braków danych
Braki danych (gdy respondent nie odpowiedział na pytanie) trzeba oznaczać w jeden, ustalony sposób — i nigdy nie zostawiać komórki „po prostu pustej" bez świadomej decyzji. Najprościej pozostawić komórkę pustą, ale konsekwentnie w całym zbiorze, albo wpisać umowny kod braku (np. 99 lub −1), pod warunkiem że ten kod nie myli się z realną odpowiedzią i jest opisany w słowniku.
Najgorsze, co można zrobić, to wpisywać w braki zero — bo zero to często prawdziwa wartość liczbowa, którą program weźmie do obliczeń i zafałszuje średnie. Spójne oznaczanie braków pozwala później świadomie zdecydować, jak je potraktować w analizie, i opisać tę decyzję w metodologii.
Krok 5 — formatuj komórki poprawnie
Excel bywa nadgorliwy i sam „interpretuje" wpisywane dane, co potrafi narobić szkód. Liczby z przecinkiem dziesiętnym trzeba wpisywać zgodnie z ustawieniami regionalnymi (w polskiej wersji to przecinek, nie kropka), inaczej program potraktuje je jak tekst i nie policzy. Wartości, które mają być liczbami, muszą mieć format liczbowy, a nie tekstowy.
Uwaga także na dane, które wyglądają jak coś innego — kody zaczynające się od zera (jak numery) Excel obetnie, a wpisy przypominające daty sam zamieni na daty. W takich przypadkach komórki formatuje się wcześniej jako tekstowe. Dobrą praktyką jest też trzymanie surowych danych na osobnym arkuszu i wykonywanie obliczeń na kopii — żeby pierwotny zbiór pozostał nietknięty na wypadek pomyłki.
Krok 6 — sprawdź dane po wprowadzeniu
Po wprowadzeniu wszystkich ankiet następuje kontrola, zanim ruszy analiza. Warto przejrzeć każdą kolumnę pod kątem wartości spoza dopuszczalnego zakresu — jeśli skala szła od 1 do 5, a pojawia się 7 albo 55, to literówka. Pomaga w tym narzędzie filtrów lub funkcje sprawdzające wartości minimalne i maksymalne w kolumnie. Szuka się też duplikatów (przypadkowo wprowadzonej dwa razy tej samej ankiety) i sprawdza, czy liczba wierszy zgadza się z liczbą zebranych ankiet.
Ten etap weryfikacji wyłapuje błędy, które na zaśmieconych danych dałyby później całkowicie fałszywe wyniki. Lepiej poświęcić pół godziny na kontrolę niż interpretować analizę opartą na błędnych liczbach.
Krok 7 — przejdź do obliczeń
Dopiero na czystych, poprawnie wprowadzonych danych zaczyna się właściwa praca. W Excelu podstawowe statystyki liczą gotowe funkcje: ŚREDNIA dla średniej, MEDIANA dla mediany, ODCH.STANDARD.PRÓBKI dla odchylenia standardowego, LICZ.JEŻELI do zliczania odpowiedzi danej kategorii. Do podsumowań rozkładów i tabel krzyżowych świetnie sprawdza się tabela przestawna (PivotTable), która bez jednej formuły pozwala policzyć liczebności i procenty w przekrojach. Wykresy buduje się na podstawie tych zestawień, dbając o czytelność i opis.
Jeśli badanie wymaga testów statystycznych, których Excel nie ma wygodnie wbudowanych, to moment, by rozważyć eksport poprawnie przygotowanego arkusza do SPSS czy innego programu — a dobrze zbudowana macierz danych sprawia, że taki eksport przebiega bezboleśnie.
Najczęściej zadawane pytania
Czy każdą ankietę wpisuję w osobnym wierszu?
Tak. Obowiązuje zasada: jeden wiersz to jeden respondent (jedna ankieta), a jedna kolumna to jedna zmienna (jedno pytanie). To standardowa macierz danych, którą rozumieją wszystkie programy. Mieszanie tego układu — np. wpisywanie kilku osób w jednym wierszu — uniemożliwia poprawną analizę.
Czy odpowiedzi tekstowe trzeba zamieniać na liczby?
Dla analizy statystycznej zdecydowanie warto je zakodować liczbowo (np. płeć jako 1 i 2, skalę Likerta jako 1–5), bo programy lepiej radzą sobie z liczbami. Trzeba jednak pamiętać, że przy zmiennych nominalnych te liczby są tylko etykietami i nie wolno liczyć z nich średnich. Znaczenie każdego kodu warto zapisać w osobnym słowniku zmiennych.
Jak oznaczać brak odpowiedzi?
Najlepiej konsekwentnie w całym zbiorze — albo zostawiając komórkę pustą, albo wpisując umowny kod braku (np. 99), który nie myli się z realną odpowiedzią i jest opisany w słowniku. Nie należy wpisywać zera, bo Excel potraktuje je jak prawdziwą wartość i zafałszuje obliczenia.
Dlaczego Excel zamienia mi liczby na daty albo nie liczy wartości?
To efekt automatycznego formatowania — Excel sam interpretuje wpisy wyglądające jak daty oraz traktuje liczby z kropką dziesiętną jako tekst (w polskiej wersji separatorem jest przecinek). Rozwiązaniem jest wcześniejsze ustawienie odpowiedniego formatu komórek (tekstowy dla kodów, liczbowy dla danych) i wpisywanie liczb zgodnie z ustawieniami regionalnymi.

