Dlaczego wiarygodność i ważność mają znaczenie w symulacji chirurgicznej?
Wiarygodność i ważność to pojęcia stosowane w odniesieniu do narzędzi takich jak skale ocen umiejętności chirurgicznych. Narzędzia opracowane w celu pomiaru wyników nauczania symulacyjnego wymagają dowodów potwierdzających ich wiarygodność i ważność. Ponadto jeśli ocena kompetencji młodych chirurgów ma być przeprowadzana przy użyciu symulatora laparoskopii, wskaźniki uzyskane podczas szkolenia muszą być wiarygodne i ważne (Thijjsen et al., 2010).
Wiarygodność i ważność to pojęcia stosowane w odniesieniu do narzędzi takich jak skale ocen umiejętności chirurgicznych. Narzędzia opracowane w celu pomiaru wyników nauczania symulacyjnego wymagają dowodów potwierdzających ich wiarygodność i ważność. Ponadto jeśli ocena kompetencji młodych chirurgów ma być przeprowadzana przy użyciu symulatora laparoskopii, wskaźniki uzyskane podczas szkolenia muszą być wiarygodne i ważne (Thijjsen et al., 2010).
O wiarygodności
Wiarygodność odnosi się do powtarzalności wyników badań. Naukowcy wykorzystują pojęcie wiarygodności, aby sprawdzić, na ile wyniki danego badania są spójne, gdy jest ono przeprowadzane wielokrotnie w tych samych, kontrolowanych warunkach lub i/przy użyciu tej samej metodologii. Jeśli wyniki pozostają niezmienne niezależnie od warunków to badania można uznać za wiarygodne. Aby ocenić rzetelność wyników badań, można zbadać daną kwestię w różnych momentach i z udziałem różnych obserwatorów. Istnieją różne rodzaje wiarygodności, a każdy z nich ma kilka technik pomiaru. Do każdej techniki stosuje się wartość liczbową zwaną współczynnikiem rzetelności (Bolarinwa, 2015;):

Równoważność to zgodność między oceniającymi lub zgodność między obserwatorami. Na jej podstawie określa się czy oceniający, korzystając z tego samego narzędzia, są zgodni co do oceny. Jest to ważne, ponieważ obserwatorzy mogą być subiektywni, a ich oceny mogą się różnić. Kiedy różni obserwatorzy przyznają oceny za działania symulacyjne, mogą oni różnie oceniać te same umiejętności lub zachowania. Miarą równoważności jest np. współczynnik Kappa Cohena. Statystyka Kappa waha się od 0 do 1, gdzie: „0 = zgodność równoważna przypadkowi”, a „1 = idealna zgodność”. (Bolarinwa, 2015; Wong et al., 2012).
„Stabilność wewnętrzna” oznacza rzetelność testu-powtórki. Te same osoby przystępują do tego samego testu w różnych momentach i uzyskują wyniki, które są porównywane i korelowane z pierwszym testem w celu uzyskania miary stabilności, np. współczynnika Spearmana – Browna. Wartość tego współczynnika równa lub większa niż 0,7 przez niektórych badaczy uważana jest za wystarczającą do potwierdzenia występowania stabilności wewnętrznej. Inni badacze preferują wyższą wartość tego współczynnika.
„Spójność wewnętrzna” lub „jednorodność” to miara służąca do oceny stopnia, w jakim różne elementy testu mierzące ten sam konstrukt dają podobne wyniki. Proces ten rozpoczyna się od podzielenia na pół wszystkich elementów testu, które mają na celu zbadanie tego samego obszaru wiedzy, a następnie oblicza się korelację pomiędzy tymi dwiema grupami.
O ważności
W badaniach naukowych termin „ważność” odnosi się do dokładności i trafności wniosków wyciągniętych na podstawie danych. Gwarantuje on, że badania mierzą to, co mają mierzyć, a wyniki odzwierciedlają badane zjawisko. W ramach tego pojęcia istnieje kilka rodzajów ważności, w tym ważność typu „face”, „content”, „construct”, „concurrent”, ważność predykcyjna (kryterialna), które odnoszą się do różnych aspektów procesu badawczego.

• Ważność typu „face” odnosi się do tego, czy skala mierzy to, co powinna mierzyć i określa ogólną właściwość zadania symulatora. Ważność typu „face” jest zazwyczaj oceniana przez ekspertów w danej dziedzinie na podstawie odpowiedzi udzielonych w kwestionariuszach i pokazuje, czy uczestnicy szkolenia akceptują symulację jako ważne narzędzie edukacyjne (Hassan et al., 2006; Munro, 2012). Według Bolarinwa (2015) ważność typu „face” polega na ocenie, czy każdy z elementów pomiarowych odpowiada danej dziedzinie pojęciowej. Niektórzy autorzy (Bölenius i in., 2012) są zdania, że ten typ ważności jest składnikiem ważności typu „content”, podczas gdy inni uważają, że tak nie jest (Cook i in., 2006; Kember i in. 2008; Sangoseni i in., 2013).
• Ważność typu „content” odnosi się do tego, czy test lub skala mierzy wszystkie elementy danego konstruktu. Odzwierciedla ona stopień, w jakim zadanie symulatora objętego badaniem obejmuje wszystkie istotne etapy procedury. Jednak na przestrzeni lat proponowano i opracowano różne systemy oceniania. Mogą one mieć formę skali Likerta lub ocen liczbowych (Bolarinwa, 2015). Ważność typu „content” jest często oceniana poprzez wywiady z doświadczonymi chirurgami. Ważność typu „face i content” są subiektywnymi ocenami symulatora (Hassan et al., 2006; Thijjsen et al., 2010; Mundo, 2012; Thomas et al., 2014). Mimo to mogą one być skutecznie wykorzystywane przez ekspertów do natychmiastowego identyfikowania badań niskiej jakości.
• Ważność typu „construct” czyli trafność konstrukcyjna w badaniach naukowych odnosi się do dowolnej cechy psychologicznej, idei teoretycznej lub podstawowego zagadnienia, które badacz chce zmierzyć w ramach prowadzonych badań. Ważność typu „construct” ocenia, czy narzędzie pomiarowe rzeczywiście reprezentuje to, co chcemy zmierzyć, oraz czy istnieje statystycznie istotna różnica w wynikach pomiarów między grupami z różnym doświadczeniem i o różnych umiejętnościach. Wykazanie istotnej różnicy w wynikach między nowicjuszami, starszymi rezydentami i doświadczonymi chirurgami pokazuje, że symulator prawidłowo identyfikuje wymierne aspekty umiejętności chirurgicznych. Ponadto symulator charakteryzuje się ważnością typu „construct” jako system szkoleniowy, jeśli powoduje poprawę wyników zadań niedoświadczonych chirurgów do poziomu chirurgów eksperckich w chirurgii minimalnie inwazyjnej (Hassan et al., 2006; Munro, 2012; Thomas et al., 2014).
• Ważność typu „concurrent” to metoda oceny ważności polegająca na porównaniu urządzenia z już istniejącym urządzeniem lub z ustalonym kryterium. Ten rodzaj ważności mierzy stopień, w jakim symulator koreluje z istniejącymi miarami wydajności tego samego zadania lub procedury chirurgicznej, np. za pomocą innego symulatora tego samego typu, który został wcześniej poddany walidacji (Hassan i in., 2006; McGaghie i in., 2011; Munro, 2012; Thomas i in., 2014). Ważność typu „concurrent” jest osiągana, gdy istnieje silna korelacja między wynikami osiąganymi na badanym symulatorze, a ustalonymi formami oceny laparoskopowej, takimi jak np. inny zwalidowany już wcześniej trenażer (Wanzel et al., 2002).
• Ważność „predykcyjna (kryterialna)” mierzy i przewiduje stopień, w jakim test może być powiązany z innymi testami tego samego typu przeprowadzanymi w późniejszym czasie w środowisku sali operacyjnej w celu uzyskania standardowych wyników zabiegów chirurgicznych (Hassan i in., 2006; Mundo, 2012; Thomas i in., 2014). Symulator wykazuje ważność predykcyjną, gdy jego wskaźniki wykazują silną korelację z obiektywną oceną umiejętności chirurgicznych in vivo (Thijjsen i in., 2010). Ważność typu „construct” i ważność „predykcyjna” zapewniają ilościowe miary trafności wskaźników stosowanych przez symulator (Wanzel i in., 2002).
W oparciu o inną klasyfikację istnieją dwa rodzaje ważności: wewnętrzna i zewnętrzna. Ważność wewnętrzna odnosi się do tego, czy wyniki eksperymentu wynikają z manipulacji zmiennymi niezależnymi. Ważność wewnętrzna określa, w jakim stopniu związek przyczynowo – skutkowy ustalony między zmiennymi badania jest prawdziwy. Oznacza to, że związek ten powinien być prawdziwy i nie powinien być pod wpływem żadnych innych czynników tj. nie powinien wynikać z błędów metodologicznych.
Ważność zewnętrzna odnosi się do tego, czy wyniki badania można uogólnić na rzeczywisty świat lub inne sytuacje. Pokazuje ona, w jakim stopniu badanie próby jest reprezentatywne dla cech populacji macierzystej i wpływu badanej zmiennej. Dlatego też, można ją określić jako stopień, w którym wyniki badania są przydatne w zrozumieniu populacji oraz zakres, w jakim wyniki te mogą być wykorzystane do innych badań naukowych (Andrade, 2018).
Badanie naukowe jest akceptowalne w świecie naukowym jeśli spełnia zarówno kryteria wiarygodności jak i ważności (rysunek 2). Rysunek 2 wyjaśnia, dlaczego oba te czynniki są niezbędne w każdym badaniu:
• Ani ważne, ani wiarygodne – metody badawcze nie trafiają w sedno celu badania (nie są trafne), a powtarzane próby są nieprecyzyjne;
• Wiarygodne, ale nieważne – metody badawcze nie trafiają w sedno celu badania, ale powtarzane próby dają prawie takie same (ale błędne) wyniki. Oznacza to, że konsekwentnie i systematycznie mierzy się niewłaściwą wartość;
• Ważne, ale niewiarygodne – pokazuje trafienia, które są losowo rozłożone na całym obszarze docelowym. Rzadko trafia się w środek celu, ale średnio uzyskuje się prawidłową odpowiedź dla grupy (ale nie dla poszczególnych osób). W tym przypadku wyraźnie widać, że wiarygodność jest bezpośrednio związana ze zmiennością pomiaru;
• Zarówno wiarygodne, jak i ważne – metoda badawcza trafia w sedno celu badania, a powtarzane próby trafiają w sedno (podobne wyniki) (na podstawie Bolarinwa 2015).
Bibliografia
Andrade C. Internal, External, and Ecological Validity in Research Design, Conduct, and Evaluation, Indian Journal of Psychological Medicine, 40 (5): 498-499, 2018.
Bolarinwa O.A., Principles and Methods of Validity and Reliability Testing of Questionnaires Used in Social and Health Science Researches, Nigerian Postgraduate Medical Journal, 22(4): 195- 201, 2015.
Bölenius K, Brulin C, Grankvist K, Lindkvist M, Söderberg J., A content validated questionnaire for assessment of self reported venous blood sampling practices. BMC Res Notes;5:39, 2012.
Cook D.A., Beckman T.J., Current concepts in validity and reliability for psychometric instruments: Theory and application, Am J Med.,119:166.e7‑16, 2006.
Hassan I., Maschuw K., Rothmund M., et al. Novices in surgery are the target group of a virtual reality training laboratory. Eur Surg Res, 38:109 –13, 2006.
Kember D, Leung DY. Establishing the validity and reliability of course evaluation questionnaires. Assess Eval High Educ, 33:341‑53, 2008.
McGaghie W.C., Issenberg S.B., Cohen E.R., Barsuk J.H., Wayne D.B., Does simulation‑based medical education with deliberate practice yield better results than traditional clinical education? A meta‑analytic comparative review of the evidence. Acad Med 86: 706‑711, 2011.
Munro M.G., Surgical simulation: Where have we come from? Where are we now? Where are we going? J Minim Invasive Gynecol 19: 272‑283, 2012.
Sangoseni O, Hellman M, Hill C. Development and validation of a questionnaire to assess the effect of online learning on behaviors, attitude and clinical practices of physical therapists in United States regarding of evidence‑based practice. Internet J Allied Health Sci Pract, 11:1‑12, 2013
Thijssen A.S., Maries P., Schijven M.D., Contemporary virtual reality laparoscopy simulators: quicksand or solid grounds for assessing surgical trainees?, The American Journal of Surgery, 199: 529-541, 2010.
Thomas G.W., Johns B.D., Marsh J.L., Anderson D.D., A review of the role of simulation in developing and assessing orthopaedic surgical skills. Iowa Orthop J 34: 181‑189, 2014.
Wanzel K.R., Ward M., Reznick R.K., Teaching the surgical craft: from selection to certification. Curr Probl Surg, 39:573– 659, 2002.Wong K.L., Ong S.F., Kuek T.Y., Constructing a survey questionnaire to collect data on service quality of business academics. Eur J Soc Sci; 29:209‑21, 2012.