la scala di likert per la valutazione della didattica
Transcript
la scala di likert per la valutazione della didattica
LA SCALA DI LIKERT PER LA VALUTAZIONE DELLA DIDATTICA∗ Michele Lalla 1. Introduzione Negli ultimi anni la domanda di valutazione, diretta a accertare il conseguimento di obiettivi concreti o funzioni e procedure amministrative e tecnologiche, ha subíto uno sviluppo crescente in campo economico, sociale, e formativo (inter alia : Morelli 1981, Beato, 1989; Stame, 1990; Colombo, 1991; Vergani, 1991). La valutazione concerne la formulazione e l’espressione di un giudizio di valore sulle conseguenze di un’azione o sulla determinazione dei risultati relativi a un’attività diretta a conseguire un obiettivo specifico, caratterizzato dall’avere un valore; essa riguarda, quindi, la modalità di relazione tra un oggetto in esame e un valore (scopo) assunto come positivo e desiderabile (Boileau, 1987). La valutazione si può applicare a diversi livelli, da quello operativo a quello astratto, e a diverse aree, da quella sociale e economica a quella tecnologica. Le richieste di efficienza e di efficacia nelle attività dei servizi e della pubblica amministrazione, con l’emergere di una maggiore attenzione per i bisogni degli utenti, stanno modificando le procedure di organizzazione dei servizi e gli obiettivi prefissati tendono a essere rivolte in prevalenza agli utenti. Tali esigenze hanno rappresentato una spinta innovatrice che ha investito anche l’Università; infatti, le recenti disposizioni legislative, che hanno costituito l’Osservatorio (ora Comitato) nazionale per la valutazione del sistema universitario, sono coerenti con le tendenze in atto 1 . ∗ Lavoro eseguito nell’àmbito del progetto “Prototipi decisionali derivanti da database fuzzy”, finanziato nel 1998 con le quote riservate per la ricerca orientata nell’ateneo dell’Università di Modena. Si ringrazia la dottoressa Elisa Dondi per l’elaborazione dei questionari incompleti e/o errati, che ha consentito di ottenere la tabella 3. 1 L’Osservatorio per la valutazione del sistema universitario è stato istituito presso il Ministero dell’Università e della Ricerca Scientifica e Tecnologica (MURST) con DM del 22.02.1996. I suoi compiti sono stati definiti inizialmente dall’art. 5 della Legge 537 del 24.12.1993 (S.O. n. 121 alla G.U. n. 303 del 28.12.1993) e successivamente dagli artt. 9, 15, e 19 del D.P.R. del 30.12.1995 (G.U. n. 50 del 29.02.1996) relativo al Piano di sviluppo 1 La valutazione delle attività universitarie richiede, in funzione dei fini, un approccio analitico - ma anche globale e integrato - che esamini i molteplici aspetti inerenti alla struttura edilizia e organizzativa, al personale, ai servizi, alla didattica. Questi possono essere determinati in base a criteri fondati sugli equilibri dei fattori amministrativi derivanti da princípi fissati a priori o dalla scienza dell’organizzazione aziendale, in tal caso si ha l’efficacia gestionale o interna; oppure possono essere orientati ai bisogni degli utenti (i destinatari) che possono anche essere in conflitto con i precedenti, in tal caso si ha l’efficacia sociale o esterna (Resmini, 1993; Agnoli, Fasanella, 1996). I risultati delle attività svolte all’interno delle università riguardano essenzialmente la didattica e la ricerca, che possono essere valutati a diversi livelli della struttura: il dipartimento, il corso di laurea, la facoltà, l’ateneo. Per la valutazione della didattica si ricorre a indicatori pertinenti agli obiettivi dell’istituzione che riguardano il “prodotto” finale del processo educativo, ossia il conseguimento del titolo di studio (Johnes, Taylor, 1990; Compagnino, Gori, 1992). Informazioni rilevanti si ottengono anche analizzando i percorsi di studio per individuare le caratteristiche degli abbandoni, i tassi di conseguimento dei tit oli, i tassi di permanenza che si riferiscono alla quantità di tempo impiegato per giungere alla meta, i tassi di rendimento che riguardano il voto finale ottenuto (Johnes, 1990, 1992; Bernardi, Cordaro, 1995; Agnoli, Fasanella, 1996). La valutazione della didattica è condotta, ancora oggi, sulla base di dati raccolti con un questionario contenente domande atte a accertare sia il grado di soddisfazione degli studenti, sia l’efficienza e l’efficacia dell’insegnamento in termini di qualità e di impegno dei docenti. Le domande possono prevedere risposte simili alla scala di Likert, ma la scelta dei sintagmi per le categorie di risposta non è cosí scontata. L’obiettivo del presente lavoro, che riporta una indagine condotta nel 1999 nella Facoltà di Economia dell’Università degli Studi di Modena (e Reggio Emilia), esplora sia gli effetti dei sintagmi utilizzati, sia le intensità percepite dagli studenti rispetto a alcuni fattori che le possono influenzare (genere, materia, docente, il tipo e il voto di diploma). La valutazione attuale della didattica tende a (o può) uniformarsi perché un gruppo di ricerca promosso dall’Osservatorio, in base al lavoro di un precedente gruppo di ricerca (Osservatorio, 1998), ha proposto un questionario tipo al quale ci si può riferire con il termine «questionario del MURST », adottabile da tutti gli atenei, e ha suggerito una strategia di elaborazione dei dati (Chiandotto, Gola, 1999). Entrambi i gruppi di lavoro hanno preferito e suggerito l’uso di una scala di Likert (1932) a quattro modalità di risposta: •decisamente no, ‚più no che sí, ƒpiù sí delle università 1994-96. Le informazioni sull’attività dell’Osservatorio (ora Comitato) nazionale per la valutazione del sistema universitario si possono reperire sul sito Internet del MURST (ora MIUR) http://www.cnvsu.it, tra cui il rapporto di ricerca proprio sulla valutazione delle attività didattiche (Osservatorio, 1998). 2 che no, „decisamente sí; cui ci si riferirà nel séguito con il termine “scala del MURST ”. Di per sé, la scelta non è criticabile; infatti, il dibattito è ancora aperto nella letteratura e da là non si evince quale sia la strategia migliore. In fase di elaborazione dei dati si suggeriscono, tuttavia, procedure che non sono affatto coerenti con la scala adottata (Schuman, Presser, 1996). Per sintetizzare gli esiti dell’indagine, la media e la varianza sono gli indici più comuni e immediati per la comprensione; infatti, Chiandotto e Gola (1999) suggeriscono procedure di elaborazione che utilizzano questi indici statistici (e anche altri) che assumono variabili di natura quantitativa. In particolare, suggeriscono di attribuire un valore numerico uguale a due alla prima modalità, cinque alla seconda, sette alla terza, e dieci alla quarta; tale scelta consente di esprimere i giudizi secondo il sistema di valutazione utilizzato nella scuola italiana (esclusa l’università), che prevede punteggi che vanno da zero a dieci; nel séguito, ci si riferirà a tale sistema con il termine «scala decimale». L’equivalenza assunta tra la scala del MURST e la scala decimale, sebbene sembri ragionevole, è quanto mai arbitraria; richiede, per lo meno, un accertamento empirico tra la popolazione di riferimento per verificare se la sua opinione coincide con il criterio proposto. La scala di riferimento assunta, poi, non è proprio quella decimale perché il punto centrale dei punteggi sembra il sei sicché il campo di variazione va da due a dieci, e non da zero a dieci; ma sei corrisponde alla sufficienza che è un giudizio positivo, non neutrale! Il sistema di valutazione scolastico ha sempre adottato, accanto alla scala decimale, anche un sistema di denominazione verbale de i punteggi o voti: con alcune varianti o estensioni, diverse da scuola a scuola; e con ambiguità sul significato dei termini rispetto al loro valore numerico; per esempio, i termini “discreto” e “mediocre” possono presentare differenti interpretazioni della loro posizione in un ordinamento (graduatoria). Con qualche costrizione/contrazione della terminologia usata in pratica, il sistema di votazione attuale espresso in termini linguistici si può ricondurre a una scala tipo Likert a cinque modalità: •molto insufficiente (MI), ‚insufficiente (I), ƒsufficiente (S), „buono (B), …molto buono (MB); cui ci si riferirà nel séguito con il termine «scala di voto ».2 . Naturalmente, l’adozione della modalità centrale non risolve completamente la questione del livello di misura richiesto dai più comuni indici statistici, perché la scala è sempre qualitativa ordinata e il calcolo della media rimane problematico per la singola domanda, ma almeno presenta una struttura che garantisce formalmente la linearità e costituisce una mi2 Il sistema di valutazione nelle scuole medie è stato pressoché simile alla scala di voto per alcuni anni in cui si usavano voti espressi con le lettere A, B, C, D, E, in senso decrescente. Oggi, la terminologia è un po’ diversa: insufficiente, sufficiente, buono, distinto, ottimo. Si usa quindi una sola modalità negativa, per non offendere (sic!) il discente. Nelle scuole superiori, invece, si è sempre usata la votazione espressa in decimi; ma i voti superiori a otto sono, in genere, piú rari rispetto ai voti inferiori a quattro. 3 gliore approssimazione alla cardinalità; infine, nonostante la difficoltà teorica, la scala a cinque modalità che include la modalità centrale è largamente utilizzata in pratica come fosse una scala a intervalli perché i risultati sono spesso riportati con l’indice media. La scala di voto, poi, elimina di per sé il problema della modalità neutrale o centrale perché la contiene solo implicitamente; infatti, la terza modalità esprime una posizione favorevole e non una neutrale, che è ritenuta il rifugio di chi non vuole esprimersi, degli indolenti, e dei superficiali. La scala di voto non è, quindi, una vera scala di Likert perché la modalità centrale esprime una scelta positiva e non è, perciò, un’autentica modalità centrale. Si potrebbe far precedere “sufficiente” dall’avverbio “appena”, che sottolinea la stentatezza del “sufficiente” o da qualche sinonimo: a stento, a fatica, con pena, solo un poco, soltanto, non più di; ma non si elimina comunque il problema formale. Scale alternative ve ne sono tante, sempre con pregi e difetti, che devono essere valutati di volta in volta per accertare la loro applicazione su larga scala. Nei termometri (di sentimenti) si possono ottenere, per esempio, valutazioni più vicine alla natura dei numeri reali sia aumentando il numero delle modalità di scelta, sia lasciando indicare al rispondente il punto o collocazione del suo giudizio sul segmento ancorato e misurando poi in centimetri la distanza del punto indicato dall’origine. La precisione che si ottiene, che è molto elevata in termini numerici, non può garantire la correttezza della reale posizione del rispondente perché la sua risposta è data con l’esattezza dell’approssimazione visiva che risulta molto più bassa degli strumenti che misurano la distanza; inoltre, diverse esperienze empir iche mostrano che la presenza di numerose scelte o di una scala più fine non migliora la differenziazione delle risposte degli intervistati che forniscono spesso valori riconducibili o riducibili a un numero inferiore, previa analisi adeguata. Hofacker (1984) mostra che da ventuno categorie nominali ci si può ricondurre a otto. Marradi (1992, 1998) sostiene che un’accettabile approssimazione alla cardinalità è ottenuta con scale autoancoranti, che riducono l’autonomia semantica delle moda lità intermedie; ma sottolinea che i soggetti intervistati, pur avendo una scala da 0 a 100, tendevano a usare cifre tonde, di solito multipli di 10 e, talvolta, multipli di 5. Questa tendenza si è notata in alcune indagini locali (Lalla, Facchinetti, 2000); ma il fenomeno di contrazione, nell’applicazione pratica, del numero delle possibilità offerte dalla scala disponibile è noto (Gattullo, 1968). Una struttura più fine della scala non garantisce, quindi, una migliore precisione e potrebbe aumentare solo la variabilità dei giudizi e il disorientamento di chi deve esprimerlo con tale strumento. Le caratteristiche e i problemi presentati dalla scala di Likert sono descritti nel paragrafo 2. Per tradurre in valori della scala decimale le opzioni sintagmatiche della scala di voto si è condotta l’indagine, qui presentata, nell’àmbito della Facoltà di Economia dell’Università degli Studi di Modena (e Reggio Emilia) che dall’anno accademico 4 1989/90 rileva le valutazioni e le opinioni degli studenti sui corsi frequentati, con un questionario ufficiale. Si sono selezionate dal questionario ufficiale otto domande chiave e si sono disposte in un questionario breve che chiedeva ai rispondenti di specificare per ciascuna modalità di risposta, relativa a ogni domanda, il suo valore con un voto in base a una scala da zero a dieci. Il questionario breve è stato somministrato ai frequentanti di due corsi del primo anno nel maggio 1999. L’analisi delle domande utilizzate nel questionario breve e gli aspetti critici della rilevazione sono esposti nel paragrafo 3. Le valutazioni numeriche delle modalità di risposta - esaminate per corso, per genere, e per tipo di diploma posseduto - sono illustrate nel paragrafo 4. Nel paragrafo 5 seguono le conclusioni. 2. Caratteristiche della scala Likert La scala di Likert è impiegata per misurare in prevalenza atteggiamenti e opinioni mediante l’uso di affermazioni, comune anche a altre scale: Thurstone, Guttman, differenziale semantico e termometro. La tecnica fu ideata nel 1932 dallo psicologo americano Rensis Likert con lo scopo di elaborare uno strumento semplice per misurare atteggiamenti e opinioni (Likert, 1932). La scala di Likert richiede la formulazione di una serie di L proposizioni o asserti o affermazioni (items) supposte semanticamente collegate agli atteggiamenti oggetto di indagine che devono essere sottoposti a un gruppo di individui e devono essere monotòni, vale a dire formulati in modo unidirezionale rispetto all’oggetto da misurare affinché all’aumentare dell’atteggiamento favorevole del soggetto verso l’oggetto, aumenti il punteggio conseguito in quella proposizione. Pertanto, si devono ideare asserti con un contenuto favorevole al concetto da misurare e asserti con un contenuto contrario, di varia intensità e in modo che i due insiemi abbiano la stessa cardinalità. A ogni individuo viene chiesto di esprimere il suo grado di accordo per ogni proposizione, che prevede cinque possibilità alternative tra loro: completamente d’accordo, d’accordo, incerto, in disaccordo, in completo disaccordo (strongly agree, agree, uncertain, disagree, strongly disagree). Per ogni proposizione, le risposte presentano nell’ordine le etichette 5, 4, 3, 2, 1 (oppure 4, 3, 2, 1, 0) con la funzione specifica di mettere in ordine le alternative di risposta. I punteggi attribuiti a ogni soggetto per ogni proposizione coincidono con le etichette per le affermazioni a favore e sono invertite (1, 2, 3, 4, 5 oppure 0, 1, 2, 3, 4) per le affermazioni contro. Il punteggio finale di ciascun soggetto è dato dalla somma di tutti i punteggi parziali corrispondenti a ogni scelta effettuata tra le L proposizioni che costituiscono la scala; in altri termini, “il punteggio individuale sull’intera scala, [può anche essere] costituito dalla [...] somma dei codici numerici attribuiti alle risposte scelte da un individuo ai vari items della scala” (Cacciola, Marradi, 1988, 5 pp. 72-73) perché i codici delle categorie di risposta sono espressi, in genere, con numeri naturali. La procedura presenta celerità di registrazione, di codifica, e di calcolo. Gli assunti sottostanti riguardano: (1) l’unidimensionalità degli atteggiamenti o opinioni oggetto di misura per cui le diverse proposizioni utilizzate nella scala devono riferirsi allo stesso concetto o proprietà; (2) collocabilità dell’atteggiamento su un continuum per cui dalle risposte fornite dai singoli soggetti si ottiene un corrispondente valore (numerico) che esprime l’orientamento dell’atteggiamento per ognuno di loro e la posizione in graduatoria è determinata dagli stessi; (3) equidistanza tra le categorie di risposta, per esempio, la distanza tra “completamente d’accordo” e “d’accordo” dovrebbe essere uguale a quella che c’è fra “disaccordo” e “completamente in disaccordo”, così come rispetto alla categoria “incerto” e, infatti, i punteggi attribuiti ne sono una conseguenza. Tuttavia, la procedura di costruzione non garantisce né che la scala misuri una sola proprietà, né che le posizioni percepite siano le stesse per ciascuna categoria e per tutti gli intervistati (Phillips, 1971; Perrone, 1977; Bailey, 1994). Il numero di cinque categorie di risposta previste dalla scala è arbitrario, anche se pare sia abbastanza efficace perché risulta semplice e riduce la variabilità dello zero e dell’unità di misura individuali; tuttavia, il numero ottimale di categorie è una funzione delle condizioni di misura e dipende dal contenuto specifico (Mattell, Jacoby, 1971; Cox, 1980; Wildt, Mazis, 1978). Nella versione originaria la scala presentava sette possibili modalità di scelta: strongly agree, mildly agree, agree, uncertain , disagree, mildly disagree, strongly disagree; in seguito le due categorie introdotte da mildly furono abbandonate (Cacciola, Marradi, 1988, p. 67). Una variante molto discussa consiste nell’eliminare la categoria 3 (“incerto”) per costringere il rispondente a schierarsi, nell’assunto che i “veri” incerti si distribuiscano in parti uguali tra le categorie dei favorevoli e dei contrari. La mancanza dello “zero” nella scala solleva, tuttavia, perplessità nell’analisi dei dati perché non c’è più l’equidistanza tra le categorie. In alternativa, si esclude la categoria dal campione, ma i risultati possono essere falsati o distorti (Guy, Norvell, 1977; Ryan, 1980; Garland, 1991). La percentuale di soggetti che scelgono la categoria intermedia tende ovviamente a diminuire all’aumentare del numero di categorie disponibili (Mattell, Jacoby, 1972). 2.1. Vantaggi e svantaggi della scala di Likert La frequente applicazione della scala di Likert in diversi campi deriva anzitutto dalla semplicità dello strumento, dalla facilità dello stile di registrare le risposte, dalla chiarezza delle categorie di risposta e della scelta che offre. Pertanto, 6 l’intervistatore avrà minori difficoltà a porre le domande e a registrare le risposte. Il soggetto intervistato ha un minimo di possibilità nell’articolare il suo punto di vista perché può esprimere la propria opinione scegliendo tra cinque alternative e risulta, quindi, più flessibile delle scale che prevedono solo una risposta dicotomica (sí/no oppure accordo/disaccordo). Inoltre, si può raccogliere una maggiore quantità di informazioni in minor tempo perché si possono utilizzare le stesse alternative di risposta per più affermazioni. L’ordine delle categorie di risposta è predefinito e stabile perché hanno scarsa autonomia semantica (in altre parole, devono fare riferimento al testo della domanda e alle altre categorie per essere interpretate); perta nto, è improbabile che gli intervistati scelgano di ordinarle in modo diverso da come sono e ne consegue che si ordinano più facilmente anche le risposte date dai soggetti (Cacciola, Marradi, 1988). Le difficoltà dello strumento sono diverse e si enumerano di séguito secondo un ordine casuale e non gerarchico (Marradi, 1981; Delvecchio, 1995). La prima riguarda l’uso di “domande chiuse” che obbligano l’intervistato a scegliere le risposte soltanto entro le limitate alternative previste sicché l’essere indotto a scegliere una modalità che non esprime il proprio reale atteggiamento può generare frustrazione e irritazione con conseguente aumento della probabilità di non risposta; oppure, per reazione, si può scegliere senza riflettere o anche in modo pressoché casuale perché estranei al tema trattato e si agisce soltanto per non mostrare la propria ignoranza o disinformazione sull’argomento. La scelta obbligata potrebbe comportare anche una deriva nella graduatoria finale di un soggetto sottoposto a una batteria di domande perché quando le coppie (di domande favorevoli e contrarie al concetto in esame) non hanno la stessa accettabilità sociale, allora si potrebbe produrre uno spostamento più consistente verso l’approvazione o la disapprovazione violando l’assunto della distribuzione equa tra i favorevoli e i contrari: una caratteristica che varia facilmente da individuo a individuo, nello spazio, e nel tempo (Orvik, 1972). La seconda si riferisce agli assunti di continuità e equidistanza tra le categorie di risposta perché arbitrarie e non c’è alcuna garanzia che siano considerate uguali e equidistanti da tutti gli intervistati; numerosi studi hanno mostrato: sia la percezione delle etichette con un’ampiezza molto variabile e senza plausibili regolarità (Amisano, Rinaldi, 1988); sia l’effetto “estremità” (end effect) che concerne la tendenza di certi soggetti a essere attratti o respinti dalle scelte estreme (Galtung, 1967). La terza concerne l’assunto di linearità che comporta la collocazione di soggetti favorevoli alla proposizione su un lato della scala e dei contrari sul lato opposto; la violazione dell’assunto genera la curvilinearità , che emerge quando soggetti con atteggiamenti diversi e opposti dànno la stessa risposta; cosí, può accadere che i veri contrari a una certa proposizione siano associati con altri che si dichiarano 7 contrari perché sarebbero ancora più favorevoli al concetto espresso dalla propos izione data di quanto consentano le modalità di scelta. Nella stessa classe si hanno, quindi, soggetti che sono in accordo e soggetti che sono in disaccordo perché due soggetti, con opinioni opposte sul tema, effettuano la stessa scelta ottenendo lo stesso punteggio che evidentemente non corrisponde al loro stato reale (Guidicini, 1995, p. 98). Il suggerimento di Coombs per evitarla è “scegliere un’affermazione così estrema da rendere improbabile che ci siano individui tanto estremi da respingerla perché non è sufficientemente estrema” (Coombs, 1953, p. 530); ma si introducono ancora distorsioni perché le posizioni intermedie sono sacrificate a favore di quelle estreme (Marradi, 1984, p. 63). La quarta riguarda la possibilità di risposte seriali (response set) quando le proposizioni di una scala di Likert sono presentate agli intervistati non singolarmente, ma una di séguito all’altra (batteria). Lo stesso schema di risposta facilita la scelta e accelera i tempi di compilazione, ma potrebbe indurre l’intervistato a selezionare meccanicamente sempre la stessa modalità, indipendentemente dal contenuto della domanda: acquiescenza (acquiescent response set). Le risposte ottenute possono essere, perciò, inficiate da distorsioni e affette da scarsa attendibilità sicché l’analisi dei dati può condurre a risultati fuorvianti; ma distinguere le risposte date in modo ripetitivo da quelle che effettivamente rispecchiano l’opinione o l’atteggiamento del soggetto non è semplice. Altre denominazioni sottolineano, talvolta, aspetti diversi: per le alternative dicotomiche (sí/no), si dice anche yeasaying o nay-saying (Gasperoni, Giovani, 1995); la scelta della prima modalità che si presenta è detta effetto “somaro” (donkey vote effect) che sostituisce yea-saying (Ray, 1990; Chan, 1991) o anche effetto “primato” (primacy effect). Nella valutazione della didattica ciò può avere un’importanza rilevante (Albanese, Prucha, Barnet, Gjerde, 1997). L’intervistatore può rimediare interrompendo la serialità delle risposte (Marradi, 1984, pp. 62-66): (a) sottolineando opportunamente l’indipendenza reciproca delle varie proposizioni della batteria; (b) richiamando “l’attenzione dell’intervistato sull’incongruenza delle risposte”; (c) interrompendo la batteria con l’inserimento domande di forma diversa prese o (c1)dallo stesso questionario, o (c2)“da una lista di domande appositamente concepite per risvegliare l’interesse dell’intervistato”. Tali azioni sono, però, in contrasto con le regole di conduzione dell’intervista. Infatti, il punto (a) può influenzare la risposta; il punto (b) potrebbe suscitare reazioni di frustrazione o irritazione (Goode, Hatt, 1952); i punti (c1) e (c2) violano la necessità di mantenere lo stesso ordine nella somministrazione delle domande per confrontare le risposte dei diversi soggetti; (c2) comporta, inoltre, il prolungamento della durata dell’intervista con domande di relativa importanza. Gli intervistatori che appartengono al gruppo di ricerca sono in grado, secondo Pitrone (1986, p. 111), di intervenire con più efficacia perché hanno ragioni e conoscenze “necessarie per improvvisare ulteriori domande che suscitino 8 maggiore interesse nell’intervistato e facciano emergere con più chiarezza la sua opinione”; ma ciò pregiudica comunque il confronto dei dati nel contesto della giustificazione. La quinta difficoltà della scala Likert è la reazione all’oggetto che si ha quando l’intervistato non reagisce al significato delle affermazioni, “ma ai personaggi, alle azioni, alle situazioni menzionate dalle affermazioni stesse” (Cacciola, Marradi, 1988, p. 86). Non riesce a separare, quindi, il significato dell’intera frase (affermazione) dagli elementi che la costituiscono (contenuti nell’affermazione) e genera, pertanto, una distorsione nella risposta. Allora, se l’intervistato è favorevole all’oggetto contenuto nella proposizione, si dichiarerà sempre d’accordo anche quando essa esprime un’opinione contraria alla sua (dovrebbe dichiararsi, invece, in disaccordo). Viceversa, se sarà contrario all’oggetto, si dichiarerà sempre in disaccordo anche quando essa esprime un’opinione favorevole alla sua (dovrebbe dichiararsi, invece, d’accordo). Per ridurne gli effetti, Cacciola e Marradi (1988, p. 100) suggeriscono di ricorrere esclusivamente a “affermazioni positive nei confronti del loro oggetto: in tal modo, sia che l’intervistato valuti l’affermazione [significato], sia che egli reagisca all’oggetto [in essa contenuto], la sua risposta sarà la stessa”. Per le affermazioni negative non c’è modo, invece, di appurare se la disapprovazione derivi dal significato o dall’oggetto (Sapignoli, 1995). Altre distorsioni derivano per lo più da incomprensioni linguistiche. La reazione all’oggetto “può emergere solo se l’intervistato premette o fa seguire dei commenti alla risposta incasellata nelle categorie previste da Likert; questo spiega perché [tale fenomeno] non è stato notato in occasione dei sondaggi di massa, che non incoraggiano e comunque non registrano in alcun modo i commenti a latere degli items Likert” (Cacciola, Marradi, 1988, p. 86). Nei questionari compilati direttamente dagli intervistati ha rilevanza anche la posizione in cui vengono poste le modalità di scelta e la direzione dell’intensità. Si tratta di effetti che sono assimilabili alla risposta seriale e potrebbero denominarsi effetti posizionali e direzionali (primacy effect). Nelle indagini volte a analizzare questi effetti, comunque presenti (Chan, 1991), l’entità e il segno della distorsione sono risultati variabili. Nella valutazione della didattica si è visto che gli esiti complessivi sono più elevati (più positivi) quando le categorie con valore più elevato sono poste a sinistra, com’è nella scansione tradizionale della scala di Likert, rispetto a quelli che si ottengono quando le categorie con valore più elevato sono poste a destra. Il numero di categorie può interagire con esso: all’aumentare del numero di categorie diventa più evidente, ma si potrebbe argomentare anche il contrario (Albanese, Prucha, Barnet, Gjerde, 1997). All’aumentare dell’importanza della valutazione attuata dagli studenti, diventa necessario comprendere come funziona il meccanismo di attribuzione del voto. 9 3. Questionario di valutazione delle modalità: caratteristiche e risultati Nel secondo semestre dell’anno accademico 1998/99 si è condotta un’indagine tra i frequentanti del corso del primo anno, per appurare il voto in decimi corrispondente alle (cinque) modalità utilizzabili in domande rilevanti per valutare l’attività didattica. Si è costruito, perciò, un questionario (breve) contenente otto domande selezionate dal questionario ufficiale, quattro relative alla didattica e quattro relative alla materia: chiarezza dell’esposizione (C.E.), tempi dedicati all’argomento (T .D.A.), puntualità e continuità della presenza a lezione (P.P.L.), disponibilità del docente durante la lezione (D.D.L.), interesse personale per la materia (I.P.M.), difficoltà della materia (D.M.), soddisfazione per il corso (S.C.), quanto hai appreso in questo corso (Q.A.C.). Il questionario chiedeva al rispondente di attribuire, a ognuna delle cinque modalità per ciascuna delle otto domande, un valore numerico riferito a una scala da zero a dieci. Per ogni domanda, quindi, il rispondente doveva specificare cinque valori; per esempio, nella domanda relativa alla chiarezza avrebbe potuto specificare: molto insufficiente=2,5; insufficiente=4,5; sufficiente=6; buono=7,5; molto buono=9. Nel questionario ufficiale, le domande relative alla didattica presentavano sempre la scala di voto. Il cambiamento della scala di voto per i tempi dedicati all’argomento e per la puntualità e continuità della presenza a lezione consentiva di sondare le influenze di diverse espressioni verbali sui valori numerici attribuit i alle modalità dai rispondenti. La presenza di più di una domanda che aveva la scala di voto consentiva di verificare se il tipo di domanda influenzava l’attribuzione del valore numerico; infatti, la chiarezza dell’esposizione e la disponibilità del docente durante la lezione avevano la scala di voto, ma erano posti su pagine diverse per cui non risultava súbito evidente l’uguaglianza dei termini verbali delle modalità. Le domande relative alla materia e al corso riportavano, invece, le modalità proprie del questionario ufficiale (si veda la tabella 1). La scelta dei termini verbali per le domande, che ammettevano la scala di voto, ha consentito di vagliare alcune ambiguità linguistiche che potevano distorcere le valutazioni. Cosí nella domanda relativa ai tempi dedicati all’argomento, i termini utilizzati erano: (1) molto poco, (2) poco, (3) abbastanza, (4) più che abbastanza, (5) molto. Anche se l’ultima modalità non ha presentato più errori della corrispondente modalità della scala di voto (v. infra), si può comunque supporre che vi sia ambiguità perché il termine “abbastanza” ha come sinonimi: sufficientemente, bastantemente, quanto basta, bastevolmente, discretamente, quanto occorre, alla necessità, né poco e né troppo, soddisfacentemente, a sobrietà, a sazietà, a iosa, assai, ampiamente, abbondantemente. Gli ultimi sinonimi potevano ingannare il rispondente nella valutazione numerica delle modalità perché se per lui “abbastanza” indicava già il massimo, allora durante l’attribuzione del punteggio in sequenza, le quarta e la quinta modalità successive al termine “abbastanza” della terza perdeva- 10 no di significato. Al termine “molto” dell’ultima modalità si poteva far seguire l’espressione “più che abbastanza” (in tabella 1) per sottolineare che si voleva in dicare una quantità superiore a quella della modalità precedente, se questo a prima vista non fosse stato ovvio. Analogamente, per la puntualità e continuità della presenza a lezione del docente si sono utilizzati i termini: (1) molto scarsa, (2) scarsa, (3) discreta, (4) buona, (5) elevata. Quest’ultima è stata scelta volutamente ambigua invece dell’ovvia espressione “molto buona” (in tabella 1). I termini “scarsa” e “discreta” potrebbero essere fraintesi, come “buona” e “elevata”. I termini verbali delle domande inerenti alla materia o al corso creavano maggiori ambiguità e enfatizzavano la possibilità di violazione dell’equidistanza delle categorie. L’interesse personale della materia (in tabella 1) aveva la modalità centrale definita con l’aggettivo “medio” che poteva indurre confusione in chi non aveva chiaro il concetto di media o non riusciva a collocarla correttamente sull’asse delle intensità. Anche i termini “alto” per la quarta e “molto alto” per la quinta modalità potevano generare errori di attribuzione perché in fase di compilazione si incontrava prima “alto”. Se per il rispondente questo termine fosse stato equivalente al massimo, allora gli avrebbe attribuito il valore più alto della scala e per l’ultima modalità si sarebbe trovato in condizione di scegliere un valore uguale o inferiore (v. infra). Per la difficoltà della materia (in tabella 1) si usava ancora il termine “abbastanza” (v. supra) e la modalità centrale era sempre definita con l’aggettivo “media”. Nella scala si alternavano, poi, gli aggettivi “facile” e “difficile” che potevano fuorviare più facilmente il compilatore distratto o frettoloso. La soddisfazione per il corso (in tabella 1) presentava la modalità centrale sempre contrassegnata da “mediamente”; poi, usava l’avverbio “piuttosto” che ha per sinonimi alquanto, abbastanza, parecchio, un poco, di quantità discreta, più di un poco, un certo numero, una certa quantità, una parte. In ogni caso, era l’opposto di molto, tutto; ma non si poteva pretendere che, in fase di compilazione, ciò fosse immediatamente chiaro a chiunque; l’errore non si poteva, quindi, eliminare del tutto. L’apprendimento nel corso (in tabella 1) presentava due tipi di difficoltà: una, perché la modalità centrale, indicata con “quanto mi aspettavo”, avrebbe potuto indurre a attribuire súbito il massimo in quanto corrispondeva alla soddisfazione delle attese; l’altra derivava dalla differenza tra la quarta e la quinta, indicate rispettivamente con “più di quanto mi aspettavo” e “molto”. In entrambi i casi, chi compilava incontrava prima la modalità che avrebbe potuto rappresentare per lui già il massimo, allora rischiava di attribuire il massimo valore a esso e di scegliere un valore inferiore per le seguenti. L’aggiunta del sintagma “più di quanto mi aspettavo” in funzione comparativa (in tabella 1) non avrebbe comunque eliminata la difficoltà in oggetto. Altre informazioni rilevate con il questionario riguardavano: la compilazione dello stesso in un altro corso o contesto, il genere, il tipo di diploma posseduto, e il voto di maturità. 11 Tabella 1 - Domande utilizzate nel questionario breve con le relative modalità Domande Modalità • MI ‚ I ƒ S „ B … MB * • Molto poco ‚ Poco ƒ Abbastanza „ Più che abbastanza … Molto (più che abbastanza) • Molto scarsa ‚ Scarsa ƒ Discreta „ Buona … Elevata (o molto buona) • MI ‚ I ƒ S „ B … MB * • Nullo ‚ Scarso ƒ Medio „ Alto … Molto alto • Facile ‚ Abbastanza facile ƒ Difficoltà media „ Abbastanza difficile … (Molto) Difficile • Per niente soddisfatto ‚ Poco soddisfatto ƒ Mediamente soddisfatto „ Piuttosto soddisfatto … Molto soddisfatto • Niente ‚ Poco ƒ Quanto mi aspettavo „ Più di quanto mi aspettavo … Molto (più di quanto mi aspettavo) Chiarezza dell’esposizione (C .E.) Tempi dedicati agli argomenti (T .D.A.) Puntualità e continuità della presenza a lezione (P .P .L.) Disponibilità del docente a lezione (D.D.L.) Interesse personale per la materia (I.P .M.) Difficoltà della materia (D.M.) Soddisfazione per il corso ( S.C.) Quanto hai appreso in questo corso (Q.A.C.) * Modalità della scala di voto. Tabella 2 – Numero di rispondenti e percentuali per “validità” del questionario Corso Economia politica A Economia politica B Storia economica A Storia economica B Totale Q. validi 26 42 25 23 116 % 63,4 97,7 59,5 57,5 69,9 Q. eliminati 15 1 17 17 50 % 36,6 2,3 40,5 42,5 30,1 Totale % 41 43 42 40 166 100 100 100 100 100 12 Il questionario breve così preparato è stato sottoposto agli studenti iscritti al primo anno che hanno seguito i due corsi di Economia Politica (A, B) e i due di Storia Economica (A, B) assieme al questionario ufficiale. La somministrazione del questionario breve poneva le difficoltà che si incontrano sempre nell’accertamento della valutazione della didattica e inerenti: all’attendibilità, alla validità, e alla precisione dei risultati; alle forme e ai tempi di presentazione; al campione di rispondenti; agli effetti sui giudizi sia della complessità della materia e sia degli interessi che essa suscita; all’affollamento; alle conseguenze dei risultati, sia amministrative e sia di immagine. La discussione delle difficoltà menzionate esorbita, però, dagli obiettivi fissati (Lalla, Facchinetti, 2000). 3.1. Statistiche elementari dell’indagine condotta Il numero di persone che hanno risposto sono state 166 (tabella 2) e il 30% dei questionari compilati presentava uno o più errori gravi; se le risposte con errori fossero state incluse nelle elaborazioni, ossia dichiarate equivalenti alle non risposte, in fase di elaborazione tutto il questionario sarebbe stato ugualmente escluso perché l’analisi da eseguire trattava simultaneamente tutte le variabili. Ogni questionario eliminato presentava molteplici errori, alcuni dei quali si potevano anche correggere, come le “inversioni” di scala; per esempio, nella domanda relativa alla chiarezza poteva essere stato specificato: molto insufficiente=9,5; insufficiente=7,5; sufficie nte=6,5; buono=4,5; molto buono=2. Qualunque intervento sulle risposte è sempre molto discutibile; tuttavia, per mantenere la coerenza con la direzione della scala adottata e con le risposte della maggioranza, si poteva ragionevolmente supporre che la votazione espressa era equivalente a: molto insufficiente=2; insufficiente=4,5; sufficiente=6,5; buono=7,5; molto buono=9,5. Alcuni questionari che presentavano soltanto le inversioni sono stati corretti e inclusi tra quelli validi. Tra i questionari eliminati figuravano anche alcune domande con le inversioni, ma l’eliminazione derivava dalla presenza (contestuale) di altri errori più gravi. I questionari sono stati eliminati per motivi diversi: 30 (il 60%) presentavano valutazioni fortemente incoerenti delle modalità delle risposte alle domande; 10 (il 20%) riportavano la valutazione di una singola modalità per domanda; 4 esibivano solo la selezione di una modalità per domanda; 3 avevano un solo voto positivo e gli altri nulli per ogni domanda; e 3 erano incompleti. Le diverse tipologie di errori, presenti tra i questionari eliminati per incoerenze, sono riportate nella tabella 3, dove per ogni tipologia è esposto anche il numero di imprecisioni che si riferiscono alla presenza di altri tipi di errori. Il primo tipo ha riguardato l’attribuzione di voti più alti a modalità che avrebbero dovuto essere “logicamente” inferiori. Per esempio, sempre nella domanda relativa alla chiarezza, un’imprecisione in presenza di 13 un errore di inversione poteva contemplare la specificazione seguente: molto insufficiente=9,5; insufficiente=7,5; sufficiente=6,5; buono=2; molto buono=4,5. Cosí, il termine “buono” era, sí, inferiore al termine “molto buono”, ma non era coerente con la direzione espressa dai numeri rispetto a quella espressa dai termini verbali. Un’imprecisione in assenza di errore era una successione che presentava una irregolarità nell’andamento crescente dei valori attribuiti alle modalità; per esempio, {4,5; 3; 6,5; 8,7; 9}. Altri due tipi di imprecisioni sono stati: voti troppo bassi o simili ai numeri delle etichette (come {0; 1; 1,5; 3; 4}); e voti uguali a modalità diverse (come {1,5; 4; 6,5; 6,5; 8}). La distribuzione degli errori ha mostrato una moda nel caso in cui era stato assegnato un voto più alto alla quarta modalità rispetto a quella della quinta. Il valore più frequente si è avuto nella domanda relativa ai tempi dedicati all’argomento che, come si è detto, presentava una deliberata ambiguità; tuttavia, si è avuto una frequenza circa uguale anche per la chiarezza dell’esposizione che presentava termini verbali senza ambiguità. Questo risultato poteva essere anche il sintomo della stanchezza da parte dei rispondenti che ogni semestre devono compilare i questionari di valutazione, uno per ogni corso frequentato, e a volte durante l’anno compilano questionari per altre ricerche. Gli studenti dello stesso anno accademico avevano, poi, già eseguito una valutazione analoga nel primo semestre (Lalla, Facchinetti, 2000) con un numero di errori trascurabile e di partecipanti un po’ più elevato; molti di loro potevano essere tra i presenti in aula. Con numeri cosí piccoli non si riusciva a verificare se i termini di una scala di una domanda ingannavano di più rispetto a quelli di un’altra, in modo sistematico. L’altra causa di errore più interessante, e con una frequenza circa uguale al tipo precedente, ha riguardato la distribuzione triangolare dei voti con vertice al centro, detta “picchi centrali regolari”; per esempio, sempre nella domanda relativa alla chiarezza, poteva riguardare la specificazione seguente: molto insufficie nte=2,5; insufficiente=5,5; sufficiente=8,5; buono=5,5; molto buono=2,5. L’esempio presenta un caso di perfetta simmetria; cosí, con imprecisione si intende un’attribuzione quale: molto insufficiente=2; insufficiente=5; sufficiente=9; buono=4,5; molto buono=3. Con “picchi centrali irregolari” (tabella 3) ci si riferisce al caso in cui il vertice non sta nella modalità centrale. Con “scarti elevati tra voti di modalità” (tabella 3) si indicano i casi in cui tutti i voti delle modalità sono bassi, tranne uno; per esempio, per la scala di voto, si riferisce a una specificazione quale: molto insufficiente=0; insufficiente=1,5; sufficiente=2; buono=9,5; molto buono=2,5. Tra le domande inerenti alla valutazione della didattica ci si aspettava un maggior numero di errori per i tempi dedicati all’argomento e per la puntualità e continuità della presenza a lezione perché si era modificata con termini ambigui la scala di voto. Non si sono avute conferme perché le due scale di voto per la chiarezza dell’esposizione e per la disponibilità del docente durante la lezione presentavano errori confrontabili con le altre due domande; inoltre, gli 8 casi di “scarti elevati tra 14 voti di modalità” per la puntualità e continuità della presenza a lezione (tabella 3) erano paragonabili a que lli della chiarezza dell’esposizione, ma 6 di essi derivavano da casi in cui tutte le modalità riportavano voto nullo, tranne una: un esempio di risposta incongruente che poteva derivare da stanchezza, provocazione, superficialità, rifiuto, irrisione, incomprensione. Tabella 3 – Numero di errori e imprecisioni aggiuntive per tipologia di errore e per domande contenute nel questionario breve Tipologie di errori C.E. T.D.A. P.P.L. D.D.L. I .P.M. D.M. S .C. Q.A.C. Tot. Inversioni 2 Scarti elevati tra voti di modalità 5 Voti uguali a più categorie 1 3 (2) Picchi centrali regolari Picchi centrali irregolari Voto 4a categoria più alta di 5a Voto più alto in 1a o 2a categoria o nella 2a maggiore della 1a Andamento non lineare Voti simili ai valori di etichetta Totale 8 (5) 3 6 (4) 4 (3) 8 2 (1) 3 3 (3) 4 1 3 11 2 6 (3) 3 (1) 9 (8) 2 (1) 2 (1) 1 (1) 2 (1) 4 (2) 11 (8) 2 24 27 4 (2) 1 2 (1) 1 (1) 25 6 (2) 2 2 1 25 1 (1) 29 4 (4) 3 11 (6) 2 (1) 3 (2) 1 (1) 2 1 % 11 2 (1) 7 1 26 12 3 28 13 5 (3) 2 7 (5) 46 22 9 4 6 (3) 3 (1) 2 7 (4) 4 (3) 47 23 16 8 9 4 5 2 1 26 22 28 23 208 100 I questionari validi per l’analisi erano 116 e presentavano ancora alcune imprecisioni; ma l’ unico intervento operato sui dati originari è stato invertire le risposte invertite al fine di ottenere la direzione desiderata nei voti, anche se questa correzione non è proprio del tutto scontata. Si sono eseguiti controlli sulla coerenza delle successioni numeriche e si è visto che circa il 4% presentava il valore della quarta modalità superiore a quello della quinta. In particolare, ciò avveniva per tutte le quattro domande relative alla logistica e all’organizzazione del corso, che sembrava confermare quanto emerso dall’analisi dei termini sopra riportata. Tuttavia, ciò avveniva anche per la chiarezza dell’esposizione che utilizzava la scala di voto, mentre si passava all’1,7% di imprecisioni per le altre tre domande, che sembrava suggerire che vi fosse anche un’influenza del tipo di concetto misurato sul valore dell’espressione verbale e, soprattutto, anche l’influenza del docente e della materia 15 oggetto di rilevazione. Infine, non mancavano valutazioni particolari che rischiavano di rendere più incerti i risultati dell’analisi; per esempio, le modalità di una domanda valutate con {0; 0; 1; 5; 9}. 4. La valutazione numerica delle modalità di risposta Ogni soggetto rispondente esprime otto valutazioni per ogni modalità e le ripete per cinque volte: tante quante sono le modalità della scala di Likert; le medie e le deviazioni standard relative sono riportate in tabella 4. La valutazione espressa dal soggetto i-esimo (i=1,…,n j ), potrebbe dipendere dal corso j (j=1,…,J=4), dal live llo della scala di Likert k (k=1,…,K=5), e dal tipo di variabile indicata con l’indice l (l=1,…,L=8). Lo stesso soggetto esegue, quindi, L×K valutazioni che potrebbero variare per effetto del corso (tipo di materia) e per effetto del docente: il primo può considerarsi anche un effetto fisso, mentre il secondo costituisce un effetto casuale che nel caso specifico non è oggetto di stima perché si sono considerati solo due docenti; pertanto, è incluso come se fosse fisso combinato in un’unica variabile corso-docente, indicata per brevità solo con corso. Un modello globale per i dati rilevati, scritto in termini di matrici (Crowder, Hand, 1990; Hand, Crowder, 1996), espresse in simboli (o in forma non estesa), è Y = X(B⊗Γ) + ε = X∆ + ε dove Y è una matrice n×(KL) che contiene le valutazioni ottenute per le diverse domande (L) e per i vari livelli della scala di Likert (K), X è una matrice n×(JKL) che descrive la struttura di appartenenza ai diversi corsi, B è una matrice (JK)×L che esprime l’effetto sulle valutazione dei corsi ai vari livelli k, Γ è una matrice L×K che stabilisce la struttura delle relazioni tra le L valutazioni al variare di k, ε è una matrice n×(KL) che indica gli errori e i cui elementi sono indipendenti e identicamente distribuiti secondo una normale N(0,Σ); infine, il simbolo ⊗ indica il pr odotto di Kronecker sicché B⊗Γ è una matrice (JKL)×KL. La struttura (le dimensioni) di B e Γ possono essere anche diverse per rappresentare altre relazioni tra gli effetti. Nella seconda formulazione ∆ è una matrice (JKL)×KL. Per analizzare i dati riportati in tabella 4 si considera che la ripetizione delle L misure avviene per i K livelli di scelta della risposta sicché si può introdurre il fattore modalità della scala di Likert, detto solo livello per brevità, come variabile strumentale che esprime la variazione della misura al variare dell’intensità del concetto all’interno dei soggetti (within subjects). Si trascura, qui, l’eventualità che alcune domande sottendano un unico concetto (latente). I valori medi sono stati riportati anche in figura 1 per illustrare con più efficacia come si comportano le valutazioni ai diversi livelli di intensità e si può notare che le modalità estreme presen- 16 tano una “regressione” verso la sufficienza, cioè il sei, con una entità più marcata per la massima valutazione positiva. La maggior parte delle tecniche di analisi dei dati in tabella 4 richiedono l’assunto di omogeneità della matrice di varianza-covarianza, spesso verificato con il test statistico M di Box (Bernstein, 1988, 331-335); ma, come si vede da tabella 4, le varianze decrescono al crescere dell’intensità del livello da valutare e non sono omogenee. Le differenze delle varianze tra i vari corsi si hanno: per le domande relative alla logistica, eccetto quella sulla soddisfazione, nella quinta modalità; per la chiarezza dell’esposizione nella terza e quarta; per i tempi dedicati agli argomenti nella seconda; per la puntualità e continuità a lezione nella seconda e quarta. La differenza è stata rilevata essenzialmente tra i due corsi di Economia politica. Tuttavia, il risultato non è sorprendente perché il campo di variazione dei voti dovrebbe essere da zero a dieci, ma l’uso comune si limita a un campo che va da due (o quattro) a otto: com’è noto vi è molta più incertezza verso il basso che verso l’alto 3 . Ciò nonostante, le valutazioni ottenute mostrano una tendenziale equidistanza rispetto a quella centrale. Una precedente indagine (Lalla, Facchinetti, 2000) rilevava che l’eterogeneità si manifestava essenzialmente tra la natura delle materie; qui, invece, è meno decifrabile perché le difficoltà tra le due materie non dovrebbero presentare forti differenze, mentre il docente può avere una maggiore influenza. L’eterogeneità può comportare un possibile aumento dell’errore di primo tipo e quindi i risultati che seguono hanno un valore solo descrittivo o indicativo4 . 3 Lo zero appartiene naturalmente alla scala e potrebbe corrispondere all’assenza di risposta (alla c.d. “scena muta”), ma comporta un aumento del campo di variazione delle votazioni insufficienti. Anche con i punteggi che vanno da 1 a 10 il campo di variazione delle votazioni insufficienti potrebbe rimanere piú elevato perché il punto medio della scala è 5,5; tutto dipende, quindi, dalla procedura di arrotondamento applicata. Le valutazioni riportate in tabella 4 mostrano solo una lieve contrazione per le due modalità piú elevate. 4 L’eterogeneità della varianza tra i gruppi può indurre a commettere errori di decisione nella verifica di ipotesi, specie quando le dimensioni dei gruppi non sono uguali (esperimento non bilanciato) e la loro numerosità è piccola (Box, 1954a,b). Nell’analisi della varianza (ANOVA) a due criteri di classificazione, senza interazione significativa, l’effetto dell’eterogeneità ha una incisività minore, a meno che la deviazione non sia molto elevata. Anche per un numero sufficientemente elevato di gruppi, il test F è relativamente robusto quando la varianza nelle celle è due o tre volte piú grande di quella della popolazione (Jaccard, Becker, 1997, p. 501). L’errore di primo tipo comincia a diventare inaccettabile quando la varianza della popolazione in una cella è piú grande di quattro volte di quella della popolazione relativa alle altre celle. Una diminuzione della robustezza del test F si ha anche per distribuzioni che deviano dalla normalità (Harwell, Rubinstein, Hayes, 1992; Milligan, Wong, Thompson, 1987). 17 Tabella 4 − Medie e deviazioni standard dei punteggi attribuiti alle diversi modalità della scala di Likert per tipo di corso e per tipo di domanda Likert Corso 2 (*) EP A N=26 EP B N=42 SE A N=25 SE B N=23 4 EP A (*) idem EP B SE A SE B 6 (*) EP A idem EP B SE A SE B 8 (*) EP A idem EP B SE A SE B 10 EP A (*) idem EP B SE A SE B C.E. 2,54 (1,39) 2,92 (1,14) 2,68 (1,31) 2,29 (1,16) 4,13 (1,21) 4,57 (0,60) 4,34 (0,80) 4,08 (1,14) 6,08 (0,52) 6,00 (0,19) 6,02 (0,27) 6,04 (0,72) 7,60 (0,65) 7,73 (0,39) 7,88 (0,39) 7,82 (0,47) 8,98 (1,02) 9,08 (0,65) 9,32 (0,80) 9,11 (0,76) T.D.A. 2,29 (1,51) 2,87 (1,27) 3,18 (1,17) 2,64 (1,16) 3,86 (1,70) 4,46 (0,79) 4,76 (0,89) 4,22 (1,29) 6,08 (0,72) 6,18 (0,82) 6,42 (0,79) 6,21 (0,66) 7,41 (0,66) 7,30 (0,65) 7,54 (0,72) 7,28 (0,77) 9,00 (1,04) 8,81 (0,71) 8,86 (0,99) 8,71 (0,84) P.P.L. 2,60 (1,37) 2,78 (1,08) 2,86 (1,50) 2,48 (1,19) 4,21 (1,45) 4,47 (0,72) 4,36 (1,19) 4,17 (1,12) 6,06 (1,69) 6,27 (0,92) 6,54 (0,75) 6,31 (0,79) 7,71 (1,23) 7,74 (0,47) 7,90 (0,52) 7,68 (0,85) 9,15 (1,25) 9,20 (0,71) 9,30 (0,79) 9,28 (1,07) D.D.L. 2,52 (1,46) 2,64 (1,18) 2,62 (1,30) 2,52 (1,38) 4,19 (1,39) 4,29 (0,88) 4,38 (1,00) 4,24 (1,08) 6,05 (0,59) 5,89 (0,82) 6,10 (0,54) 5,92 (0,67) 7,90 (0,47) 7,61 (0,68) 7,84 (0,57) 7,67 (0,68) 9,25 (0,80) 8,89 (0,67) 9,16 (0,75) 9,01 (1,02) I.P.M. 0,81 (1,27) 0,95 (1,46) 0,84 (1,28) 0,48 (1,00) 3,74 (1,32) 4,08 (1,21) 4,04 (1,00) 3,56 (1,26) 6,08 (0,84) 6,14 (0,96) 6,28 (0,65) 6,00 (0,71) 7,71 (0,83) 7,86 (0,65) 8,12 (0,44) 7,91 (0,60) 9,03 (1,43) 9,42 (0,63) 9,50 (0,61) 9,47 (0,72) D.M. 3,04 (1,39) 3,67 (1,71) 3,96 (1,65) 3,45 (1,84) 4,60 (1,00) 5,09 (1,16) 5,22 (1,21) 4,79 (1,26) 6,22 (1,03) 6,40 (0,63) 6,52 (0,59) 6,30 (0,95) 7,54 (1,11) 7,64 (0,63) 7,74 (0,63) 7,86 (0,68) 8,63 (1,73) 8,99 (1,01) 8,84 (0,85) 9,22 (0,69) S.C. 1,94 (1,44) 2,20 (1,71) 1,78 (1,62) 1,40 (1,50) 4,11 (1,11) 4,27 (1,08) 3,80 (1,31) 3,91 (1,27) 5,96 (0,94) 6,04 (0,63) 6,08 (1,06) 6,02 (0,75) 7,65 (0,85) 7,44 (0,72) 7,64 (0,55) 7,41 (0,91) 9,01 (0,93) 8,95 (0,84) 9,16 (0,99) 8,87 (1,13) Q.A.C. 1,27 (1,37) 0,90 (1,28) 1,56 (1,81) 0,93 (1,63) 3,77 (1,42) 3,68 (1,00) 4,18 (1,33) 3,53 (1,51) 5,91 (1,11) 5,92 (0,67) 6,18 (0,79) 6,11 (1,10) 7,38 (1,08) 7,44 (0,66) 7,80 (0,64) 7,69 (1,04) 8,66 (1,63) 9,02 (0,83) 8,88 (0,83) 9,06 (1,13) 18 Le differenze tra le medie relative ai quattro corsi (effetto gruppo) non risultano statisticamente significative (F24;305;oss=0,901; p<0,601). 5 Vi è una tendenza a differenziarsi tra i due gruppi, ma la scarsa numerosità dei rispondenti ha indebolito la relazione che sembra emergere anche dall’esame della tabella 4. Uno studio precedente mostrava, sí, differenze significative, ma i corsi erano “Matematica generale” ritenuta in genere più difficile e “Economia aziendale” considerata più facile. Il fattore livello (effetto tempo nell’analisi delle misure ripetute) presenta, ovviamente, medie che sono statisticamente diverse e non mostra interazioni significative con il corso. Le valutazioni (medie) dei soggetti per livello (within-subjects) sono statisticamente diverse (F96;2981;oss =1,295; p<0,030); ma ciò potrebbe dipendere sia dal concetto misurato, sia dai termini delle modalità. L’ipotesi di sfericità della matrice di varianza-covarianza non è coerente con i dati sicché nell’analisi univariata si è applicata la correzione di Huynh-Feldt (1976). Nell’analisi multivariata delle misure ripetute si verificano, in genere, tre ipotesi: (a) il parallelismo dei profili, che accerta se le medie delle valutazioni nei relativi corsi hanno lo stesso andamento rispetto ai caratteri rilevati H 0 (a ) : β 1k γ 1k − β 1k γ 2 k β Jkγ 1k − β Jk γ 2 k L L L L = L= L L L L β 1k γ L −1,k − β 1k γ Lk β Jkγ L−1,k − β Jk γ Lk ∀k ∈ {1,K , K }; (b) l’uguaglianza dei profili, dato per assunto il parallelismo, che accerta l’ipotesi di uguaglianza delle variazioni delle valutazioni da una domanda all’altra nei corsi H 0 (b ) : L K l =1 l =1 ∑ β1k γ lk = L = ∑ β Jk γ lk ∀k ∈ {1,K , K }; (c) l’uguaglianza delle medie di gruppo, dato per assunto il parallelismo, che accerta l’ipotesi di uguaglianza delle medie (sui gruppi) delle diverse risposte H 0 (c ) : J J j =1 l =1 ∑ β jk γ 1k = L = ∑ β jk γ Lk ∀k ∈ {1,K , K }. Il test sul parallelismo (a) per il tipo di corso mostra che, con il criterio Λ di Wilks, l’ipotesi è coerente con i dati (F105;234;oss=0,872; p<0,787). Assunto il parallelismo, anche l’ipotesi nulla di uguaglianza dei profili (b), ossia di uguaglianza Il valore osservato della statistica F è quello corrispondente al criterio Λ di Wilks che risulta generalmente conveniente; può essere interpretato come il prodotto di coefficienti di non determinazione successivi e ha la proprietà di essere connesso al criterio del rapporto di verosimiglianza per distribuzioni multivariate normali (Bernstein, 1988, p. 329). 5 19 delle variazioni delle va lutazioni da una domanda all’altra è coerente con i dati (F3;112;oss =1,373; p<0,255). Assunto il parallelismo, l’ipotesi di uguaglianza delle medie di gruppo per le varie domande (c) non è coerente con i dati (F35;78;oss =9,035; p<0,001) e l’analisi dei contrasti (o univariata) mostra che varia con i livelli: nel primo e secondo livello, le domande che non presentano variazioni significative tra loro (in media) sono prevalentemente quelle relative alla logistica; negli altri livelli quasi tutte presentano variazioni significative. I sistemi di ipotesi precedenti possono essere verificati separatamente anche per ogni livello k e sulla base dei risultati presentati non sarebbe neanche necessario aggiustare i test per proteggersi dall’errore di prima specie a causa delle ripetute verifiche di ipotesi eseguite. La correzione si può attuare, per esempio, con il metodo di Bonferroni (Morrison, 1976, p. 33). I risultati ottenuti (anche corretti per la ripetizione) si possono considerare simili ai precedenti con differenze che diventano sempre più marcate all’aumentare dell’intensità del livello k: sotto la modalità sufficiente si ottengono le stesse conclusioni, ma non c’è differenza tra i corsi; la modalità sufficiente presenta differenze appena significative tra i corsi e sull’assenza di parallelismo, che diventano più marcate per i livelli superiori. Le differenze delle medie tra le materie risultano confermate, mentre non sono signif icative le differenze delle medie tra i corsi all’interno della stessa materia. Per verificare se i punteggi attribuiti dagli studenti alle modalità della scala di Likert corrispondono ai punteggi attribuiti con la scala di voto (pari da due a dieci) si è applicato lo schema di analisi precedente alle variabili ottenute dalle differenze tra le due attribuzioni. La struttura delle diversità tra le medie dei punteggi sopra descritta rimane pressoché inalterata: le medie delle differenze non variano in modo significativo da un corso all’altro (effetto gruppo), ma variano le differenze tra le valutazioni attribuite dagli studenti alle varie modalità e i valori delle etichette moltiplicati per due, da un livello all’altro della scala di Likert (F32;81;oss =15,579; p<0,001). In particolare, come si può vedere in tabella 4, gli scarti sono tendenzialmente positivi nelle modalità inferiori alla sufficienza e negativi in quelle superiori, specialmente nella modalità estrema valutata con dieci. Le differenze signif icative si hanno per le domande relative alla logistica rispetto alle modalità inferiori alla sufficienza nella scala di voto; quasi tutte le domande presentano differenze significative per le tre modalità positive della scala di voto. La media degli scarti per le otto domande (intercetta) è statisticamente diversa da zero, mentre avrebbe dovuto essere uguale a zero se ci fosse stata coerenza tra i valori delle modalità della scala di voto e i corrispondenti valori attribuiti dagli studenti (F8;105;oss =16,101; p<0,001). Il voto conseguito all’esame di maturità avrebbe rivelato una distribuzione circa normale se si fosse escluso il massimo voto, 60, che corrispondeva alla moda; infatti, l’ha dichiarato il 20% con conseguente aumento della media (50,9) e sposta- 20 mento verso l’alto della mediana (51,5). Non si è utilizzato, quindi, come variabile concomitante perché non è sembrato un dato affidabile. La percentuale di maschi iscritti, frequentanti, e rispondenti al questionario ufficiale sono stati dell’ordine del 50%; ma al questionario breve hanno risposto solo il 34,5%. I risultati ottenuti potrebbero essere distorti, se le valutazioni medie delle donne differissero da quelle dei maschi. La variabilità dei punteggi non presenta differenze rilevanti tra maschi e femmine, ma le medie attribuite dalle femmine sono più elevate di quelle attribuite dai maschi (F8;107;oss =2,435; p<0,018). L’ipotesi di parallelismo non è coerente con i dati (F35;80;oss =1,666; p<0,031) e le differenze emergono dalle domande inerenti alla soddisfazione e all’apprendimento. Ciò potrebbe indicare che il genere è sensibile al tipo di domanda cui deve rispondere. Non è necessario eseguire le verifiche delle ipotesi (b) e (c) perché non c’è parallelismo negli andamenti medi. Figura 1− Medie dei punteggi attribuiti alle diverse modalità della scala di Likert per tipo di corso e per tipo di domanda (dati riportati in tabella 4). 10 2(*) E.P. A Livelli della scala di Likert 9 2(*) E.P. B 2(*) S.E. A 8 2(*) S.E. B 4 E.P. A 7 4 E.P. B 4 S.E. A 6 4 S.E. B 6 E.P. A 5 6 E.P. B 6 S.E. A 4 6 S.E. B 3 8 E.P. A 2 8 S.E. A 8 E.P. B 8 S.E. B 10 E.P. A 1 10 E.P. B 0 10 S.E. A C.E. T.D.A. P.P.L. D.D.L. I.P.M. D.M. S.C. Q.A.C. 10 S.E. B Domande I rispondenti suddivisi secondo il tipo di diploma posseduto sono cosí distribuiti: il 44,8% nell’area scientifica (liceo scientifico e istituti tecnici); il 36,2% nell’area amministrativa (istituto tecnico commerciale e assimilati); il 19% 21 nell’area umanistica (liceo classico e linguistico, istituto artistico e magistrale). Tali valori sono simili a quelli che si ottengono nelle risposte al questionario ufficiale in cui si ha un valore un po’ più basso nell’area umanistica e un po’ più alto nell’area amministrativa. La variabilità dei punteggi non presenta qui differenze rilevanti tra le aree, cosí pure le medie dei punteggi per area non presentano differenze signif icative (F16;212;oss =1,358; p<0,165). L’ipotesi di parallelismo è coerente con i dati (F70;158;oss =1,176; p<0,204). Assunto il parallelismo, anche l’ipotesi nulla di uguaglianza dei profili (b), ossia di uguaglianza delle variazioni delle valutazioni da una domanda all’altra è coerente con i dati (F2;113;oss =1,799; p<0,170). Assunto il parallelismo, l’ipotesi di uguaglianza delle medie di gruppo per le varie domande (c) non è coerente con i dati (F35;79;oss =8,461; p<0,001) e l’analisi dei contrasti mostra che varia ancora con i livelli, come nel caso precedente (v. supra).6 5. Considerazioni conclusive Le valutazioni attribuite dagli studenti alle cinque modalità della scala di Likert corrispondono approssimativamente ai punteggi assegnati d’ufficio con la scala di voto (pari che vanno da due a dieci). In particolare, i punteggi attribuiti alle modalità inferiori o uguali alla sufficienza corrispondono abbastanza bene al sistema adottato con una tendenza a essere poco più alti, mentre mostrano una visibile contrazione per le modalità superiori alla sufficienza provocando un abbassamento della valutazione complessiva dei corsi. Le differenze nei termini utilizzati nella specif icazione delle modalità di Likert sembrano, poi, meno influenti sulla loro valutazione di quanto sia il contenuto della domanda. Le analisi eseguite sembrano indicare che anche un sistema grezzo e approssimativo è in grado di fornire una valutazione sensata che deve essere tenuta in debito conto da parte degli operatori: sia professori, sia amministratori. Inoltre, si deve rilevare che la procedura basata sul punteggio della scala di voto, sebbene sembri grossolana in apparenza e non sia esente da critiche, ha il vantaggio: di essere semplice e trasparente perché la modalità di calcolo è nota súbito; e di somigliare a un’attribuzione di voti quasi tradizionale che i membri della popolazione di riferimento sperimentano dall’inizio dell’iter scolastico. Per una istituzione pubblica, la semplicità e la trasparenza sono requisiti desiderabili per non fomentare sospetti di manipolazione dei dati. Gli argomenti trattati richiedono ulteriori approfondimenti perché le valutazioni sembrano dipendere in qualche modo dal genere, ma non dal tipo di scuola di pr ovenienza. Il numero di rispondenti non è stato, però, elevato per cui gli esiti non 6 I calcoli sono stati eseguiti con SPSS (Norusis, 1997; SPSS, 1977a,b,c). 22 sono “robusti”. Il voto di diploma dovrebbe essere, poi, un indicatore di diverse qualità del rispondente e potrebbe influenzare la valutazione; ma le risposte non sono risultate affidabili perché il voto concerne un aspetto riservato che sembra indurre il soggetto a rispondere erroneamente o a non rispondere affatto. Inoltre, per accertare come agiscono sul giudizio sia il docente e sia la materia, si potrebbe controllare la risposta dello stesso studente in corsi diversi; ciò richiede un modello statistico più articolato di quello sopra utilizzato, ma soprattutto un numero maggiore di rispondenti perché qui sono troppo pochi per il modello complessivo. La valutazione attuata oggi negli atenei è ancora in via di definizio ne e, in molti casi, gli effetti dei risultati sull’organizzazione e sull’attività dei docenti sono rari, sicché il processo di valutazione rischia di diventare un rito inutile se non accresce la sensibilità e la responsabilità degli organi dirigenti e degli studenti verso uno strumento che potrebbe contribuire a migliorare la qualità della didattica. Non mancano, poi, dubbi e incertezze sulla validità, attendibilità, e precisione dei risultati (Osservatorio, 1988; Lalla, Facchinetti, 2000). Per concludere, si rileva che il vincolo di risorse può vanificare qualunque sforzo per migliorare la qualità dell’azione formativa con l’accertamento frequente dei problemi esistenti. Per esempio, può accadere che gli esiti debbano essere ignorati perché le carenze di fondi e di personale costringano la Facoltà a mantenere l’organizzazione adottata. A cosa sono serviti il lavoro di accertamento e le strategie di soluzioni approntate per migliorare l’efficienza e l’efficacia della didattica? A niente. Sapere cosa occorre per migliorare la didattica è importante. Sapere di non poterlo realizzare per mancanza di risorse è altrettanto importante, ma non si possono coltivare illusioni di miglioramento senza la disponibilità finanziaria, oltre al prerequisito essenziale della disponibilità del personale. La didattica si può migliorare se gli interventi si operano in itinere perché solo cosí l’azione può risultare efficace per chi in quel momento sta frequentando il corso e cui l’insegnamento si rivolge. Le indicazioni che emergono dal questionario si possono applicare, invece, solo nei corsi successivi. Una strategia pragmatica, orientata alla soluzione dei problemi degli studenti in aula, dovrebbe seguire altri percorsi che siano più aderenti alle esigenze del momento. A tal fine, si potrebbe: potenziare e qualificare la Commissione didattica già esistente in quasi tutte le facoltà; consolidare il rapporto con i rappresentanti degli studenti; instaurare la consuetudine di incanalare le difficoltà dei corsi, tramite i rappresentati, verso la Commissione didattica; favorire la prassi della discussione e soluzione dei problemi direttamente con il docente e designare un loro portavoce per evitare il timore di possibili ritorsioni. Naturalmente, una simile strategia può toccare aspetti controversi di autonomia delle scelte e degli indirizzi didattici, delicati limiti di libertà di insegnamento, e suscettibilità o reattività individuali dei docenti. Tuttavia, solo cosí è possibile offrire un servizio efficiente e soddisfacente. La proposta non vuole di- 23 sconoscere i meriti e la necessità della valutazione, ma vuole corroborare l’azione pratica volta a conseguire obiettivi specifici e immediati, anche se la mancanza di risorse umane e finanziare può vanificare qualunque sforzo di buona volontà. Riferimenti bibliografici Agnoli M.S. e A. Fasanella 1996. La scommessa sociologica. Prove tecniche di valutazione, Sociologia e ricerca sociale, 51, pp. 115-152. Albanese M., Prucha C., Barnet J.H. e Gjerde C.L. 1977. The Effect of Right or Left Placement of the positive Response on Likert-type Scales Used by Medical Students for Rating Instruction, Academic Medicine, 72, pp. 627-630. Amicano E. e Rinaldi G. 1988. Confronto tra forme diverse di ‘chiusura’ degli items Likert, in Marradi A. (a cura d i), Costruire il dato. Sulle tecniche di raccolta delle informazioni nelle scienze sociali, pp. 44-62, Franco Angeli, Milano. Bailey K.D. 1994. Methods of Social Research, 4th ed., The Free Press, New York. Tr. it., 1995. Metodi della ricerca sociale, 3a ed., il Mulino, Bologna. Beato F. 1989. La metodologia della valutazione di impatto sociale: ricognizione critica sulla letteratura e problemi di ricerca sociologica, Sociologia e ricerca sociale, 29, pp.5186. Bernardi L. e Cordaro L. 1995. La laurea e il costo. Un approccio all’analisi della spesa pubblica per laureato nelle facoltà padovane, Polis, IX (3), pp. 449-470. Bernstein I.H. (Garbin C.P. e Teng G.K.) 1988. Applied Multivariate Analysis, Springer Verlag, New York and Berlin. Boileau A.M. 1987. Ricerca valutativa, in De Marchi F., Ellena A. e Cattarinussi B., Nuovo dizionario di sociologia, pp. 1766-1782, Edizioni Paoline, Cinisello Balsamo (Milano). Box G.E.P. 1954a. Some theorems on quadratic forms applied in the study of analysis of variance problems, I. Effect of inequality of variance in the one-way classification, The Annals of Mathematical Statistics, 25, pp. 290-302. Box G.E.P. 1954b. Some theorems on quadratic forms applied in the study of analysis of variance problems, II. Effect of inequality of variance and correlation of errors in the twoway classification, The Annals of Mathematical Statistics, 25, pp. 484-498. Cacciola S. e Marradi A. 1988. Contributo al dibattito sulle scale Likert basato sull’analisi di interviste registrate, in Marradi A. (a cura di), Costruire il dato. Sulle tecniche di raccolta delle informazioni nelle scienze sociali, pp. 63-102, Franco Angeli, Milano. Chan J.C. 1991. Response-order Effects in Likert-type Scales, Educational Psychology Measurements, 51, pp. 531-540. Chiandotto B. e Gola M.M. 1999. Questionario di base da utilizzare per l’attuazione di un programma per la valutazione della didattica da parte degli studenti, Rapporto finale del 24 gruppo di Ricerca, Comitato nazionale per la valutazione del sistema universitario, Pubblicazioni e Documenti, RdR 1/00, http://www.cnvsu.it. Colombo M. 1991. La valutazione nella ricerca sociologica: dalla metodologia alla pratica, Studi di sociologia, 29, pp. 281-296. Compagnino A. e Gori E. 1992. Il controllo di gestione degli enti per il diritto allo studio universitario. Efficienza ed efficacia, Milano, Franco Angeli. Coombs C.H. 1953. Theory and Method of Social Measurement, in Festiger L. e Katz D. (eds.), Research Methods in the Behavioral Sciences, pp. 471-535, New York, Dryden. Cox E.P. 1980. The Optimal Number of Response Alternatives for a Scale: A Review, Journal of Marketing Research, 17, pp. 407-422. Crowder M.J. e Hand D.J. 1990. Analysis of Repeated Measures, Chapman & Hall, London. Del Vecchio F. 1995. Scale di misura e indicatori sociali, Cacucci, Bari. Galtung J. 1967. Theory and Methods of Social Research, Allen & Unwin, London. Garland R. 1991. The Mid-point on a Rating Scale: Is it Desirable?, Marketing Bulletin, 2, pp. 66-70. Gasperoni G. e Giovani F. 1995. Come e perché non funzionano le scale Likert con items a polarità semantica invertita, in Marradi A. e Gasperoni G. (a cura di), Costruire il dato 2. Vizi e virtú di alcune tecniche di raccolta delle informazioni, 2a edizione, pp. 60-94, Franco Angeli, Milano. Gattullo M. 1968. Didattica e docimologia. Misurazione e valutazione nella scuola, Armando Editore, Roma. Goode W. e Hatt P.K. 1952. Methods in Social Research, McGraw-Hill, New York. Tr. it., 1971, Metodologia della ricerca sociale, il Mulino, Bologna. Guidicini P. 1995. Questionari Interviste Storie di vita. Come costruire gli strumenti, raccogliere le informazioni ed elaborare i dati, Franco Angeli, Milano. Guy R.F. e Norvell M. 1977. The Neutral Point on a Likert Scale, The Journal of Psychology, 95, pp. 199-204. Hand D.J. e Crowder M.J. 1996. Practical Longitudinal Data Analysis, Chapman & Hall, London. Harwell M.R., Rubinstein E.N. e Hayes W. 1992. Summarizing Monte Carlo results in methodological research: The one and two factor fixed effects ANOVA cases, Journal of Educational Statistics, 17, pp. 315-339. Hofacker C.F. 1984. Categorical Judgment Scaling with Ordinal Assumptions, Multivariate Behavioral Research, 19, 1, pp. 91-106. Huynh H. e Feldt L.S. 1976. Estimation of the Box correction for degrees of freedom for sample data in randomised block and split-splot designs, Journal of Educational Statistics, 1, pp. 69-82. 25 Jaccard J. e Becker M.A. 1997. Statistics for the Behavioral Sciences, 3.rd ed., Brooks/Co le Thomson, New York. Johnes G. 1990. The Determinants of Student Wastage in Higher Education, Studies in Higher Education, 15, pp. 87-99. Johnes G. 1992. Performance indicators in higher education: A survey of recent work , Oxford Review of Economic Policy, 8 (2), pp. 19-34. Johnes J. e Taylor J. 1990. Performance indicators in higher education, The Society for Research into Higher Education & Open University Press, Buckingham. Lalla M. e Facchinetti G. 2000. Inferential fuzzy system for rating instruction, Economics & Complexity, 2(3), pp. 31-56. Likert R. 1932. A Technique for the Measurement of Attitudes, Archives of Psychology, monografia n. 140, pp. 5-55. Marradi A. 1981. Misurazione e scale: qualche riflessione e una proposta, Quaderni di Sociologia, XXIX (4), anno 1980-81, pp. 595-639. Marradi A. 1984. Concetti e metodo per la ricerca sociale, 3a edizione (8a ristampa 1997), La Giuntina, Firenze. Marradi A. 1992. L’analisi monovariata, Franco Angeli, Milano. Marradi A. 1998. Termometri con vincolo di ordinabilità: il «gioco della torre» consente di aggirare la tendenza alla desiderabilità sociale?, Sociologia e ricerca sociale, 57, pp. 4959. Matell M.S. e Jacoby J. 1971. Is There an Optimal Number of Alternatives for Likert Scale Items? Study 1: Reliability and Validity, Educational and Psychological Measurement, 31, pp. 657-674. Matell M.S. e Jacoby J. 1972. Is There an Optimal Number of Alternatives for Likert Scale Items? Effects of Testing Time and Scale Properties, Journal of Applied Psychology, 56 (6), pp. 506-509. Milligan G.W., Wong D.S. e Thompson P.A. 1987. Robustness properties of nonorthogonal analysis of variance, Psychological Bulletin, 101, pp. 464-470. Morelli U. 1981. La valutazione degli interventi formativi, Economia, istruzione e forma zione professionale, 15, pp. 35-41. Morrison D.F. 1976. Multivariate Statistical Methods, McGraw-Hill, London. Norusis M.J. 1997. SPSS Profe ssional Statistics 7.5, SPSS, Chicago. Orvik J.M. 1972. Social Desirability for Individual, his Group, and Society, Multivariate Behavioral Research, 7, pp. 3-32. Osservatorio per la valutazione del sistema universitario 1998. Valutazione della didattica da parte degli studenti. Rapporto finale del gruppo di ricerca, RdR 1/98, Ministero dell’Università e della Ricerca Scientifica e Tecnologica, Roma (reperibile sul sito Internet 26 del Comitato nazionale per la valutazione del sistema universitario, Pubblicazioni e Documenti, http://www.cnvsu.it). Perrone L. 1977. Metodi quantitativi della ricerca sociale, Feltrinelli, Milano. Pitrone M.C. 1986. Il Sondaggio, Franco Angeli, Milano. Phillips B.S. 1971. Social Research: Strategy and Tactics, II ed., Macmillan, New York. Tr. it. (1972), Metodologia della ricerca sociale, il Mulino, Bologna. Ray J.J. 1990. Acquiescence and Problems with Forced-choice Scales, Journal of Social Psychology, 130 (3), pp. 397-399. Resmini L. 1993. L’efficienza e l’efficacia nel settore pubblico: alcuni metodi di analisi, Economia e diritto del terziario, 1, pp. 93-125. Ryan M. 1980. The Likert Scale’s Midpoint in Communications Research, Journalism Quarterly, 57 (2), pp. 305-313. Sapignoli M. 1995. L’intervistato reagisce all’intera frase o solo a singole parole?, in Marradi A. e Gasperoni G. (a cura di), Costruire il dato 2. Vizi e virtù di alcune tecniche di raccolta delle informazioni, 2a edizione, pp. 100-125, Franco Angeli, Milano. Schuman H. e Presser S. 1996. Questions and Answers in Attitude Surveys: Experiments on Question Form, Wording, and Context; Sage Publications, Thousand Oaks, CA. SPSS 1997a. SPSS® Base 7.5 for Windows® User’s Guide, SPSS, Chicago. SPSS 1997b. SPSS® Base 7.5 for Windows® Application’s Guide, SPSS, Chicago. SPSS 1997c. SPSS Advanced StatisticsTM 7.5, SPSS, Chicago. Stame N. 1990. Valutazione «ex post» e conseguenze inattese, Sociologia e ricerca sociale, 31, pp. 3-35. Vergani A. 1991. Valutazione della formazione professionale, Professionalità, XI (2), pp. 47-52. Wildt A.R. e Mazis M.B. 1978. Determinants of Scale Response: Label versus Position, Journal of Marketing Research, 15, pp. 261-267. _______________ Prof. Michele LALLA , Professore straordinario di Statistica sociale Università degli Studi di Modena e Reggio Emilia 27
Documenti analoghi
udf: metodologia e statistica - Laboratorio di ricerca sociale
5. molto contrario
In alcuni casi si impiegano quattro risposte, non utilizzando quella centrale. Ovviamente non è
indifferente che si diano al rispondente un numero pari o dispari di alternative:...
Contributo al dibattito sulle scale Likert basato sul--l`ana
ponderato mediante il sistema di codifica numerica (vedi il paragrafo che segue). Si può
tuttavia mettere in dubbio, come fanno ad esempio Sherif e Sherif (1967, 195), che questo
sia sufficiente a ...