martedì 10 giugno 2008

Dove osano i chi quadri

Va bene, mi arrendo. È ormai un mese che ci penso e non riesco a capire che significa. Di cosa parlo? Di questo.

Questo istogramma rappresenta il numero di gibelle di questo pluzio in funzione del numero di commenti che hanno generato, aggiornato a ieri sera. Per esempio, ci sono sedici gibelle che hanno ricevuto due commenti. Chiaro? Bene.

La sgargiante linea rosa shocking, invece, è un fit esponenziale. L'equazione della curva è

dove λ è un parametro libero, gλ(n) è il numero di gibelle aventi n commenti e Nc è il numero totale di commenti. Per determinare il parametro λ, ricorriamo al trucco preferito di legioni di pezzottatori di dati: il celeberrimo metodo del χ2, meglio noto come chi quadro.

Il gioco funziona così. Si definisce il chi quadro in questo modo:

Qui G(n) rappresenta il numero di gibelle che hanno effettivamente ricevuto n commenti (dato sperimentale registrato da me; private communication). Nella somma ho raggruppato i bin con n > 5 per ragioni di significatività statistica. Domande? Dubbi? Curiosità?

Bene. Il chi quadro dà un'indicazione quantitativa su quanto la distribuzione teorica gλ(n) sia in grado di descrivere la distribuzione sperimentale G(n). Più piccolo è il chi quadro, migliore è l'accordo. Il pezzotto consiste nello scegliere il valore del parametro λ che rende minimo il chi quadro. In altre parole, si impone

e si risolve l'equazione per λ. Numericamente, io ottengo λ = 0.6305, che è anche il valore che ho utilizzato per il grafico.

Fin qui, tutto chiaro (...). Il problema è che il valore del chi quadro è piccolo. Davvero piccolo. Tipo 0.77, con quattro gradi di libertà. Vado a guardare il P-valore... ecco, 94%. Ho o non ho ragione a sbalordire?

Auff. Si trova. Si trova troppo. Questa legge esponenziale vuol dire qualcosa. Sta cercando di dirmi qualcosa. È evidente.

Ma io non capisco.

Ben 25 brillanti interlocuzioni a proposito:

Diego ha brillantemente interloquito così:

Caro, non ho capito se hai usato solo i bin con n>5 o se hai raggruppato i bin meno popolati per avere n>5 in ogni bin (binning non uniforme).
Forse la richiesta n>5 è troppo debole e ti fa sovrastimare il chi^2.....
Comunque è un bell'esponenziale....il mio grafico dei commenti penso sia prossimo ad una delta di Dirac centrata su zero....
Penso che i lettoi architetti rabbrividiranno leggendo questa gibella e vedendo l'ora alla quale te la commento! :)

Arek' Fu ha brillantemente interloquito così:

Bof. Architetti.

Si tratta di binning non uniforme, ho raggruppato le gibelle con 5 o più commenti in un bin solo e in questo modo ottengo G(n) >= 8 in ogni bin. Se il chi quadro non funziona in queste condizioni...

L'esponenziale tende ad una delta di Dirac per λ che tende a zero!

...e cosa diranno gli architetti dell'orario a cui io ti rispondo?

Diego ha brillantemente interloquito così:

:)
allora hai raggruppato i bin con G(n)<5?
ed hai un totale di 5 bin? forse 6 ma perchè n.d.o.f.=4?
Forse la percentuale di bin con statistica al limite è troppo alta....
...o forse esce così....per caso....
....se tu scrivessi più gibelle e i tuoi amici continuassero a commentare seguendo lo stesso modello potremmo essere più conclusivi....

Arek' Fu ha brillantemente interloquito così:

Sì, ho raggruppato i bin con G(n) < 5 (che poi erano i bin per n = 5,6,7,...). Così facendo ottengo in tutto sei bin; i vincoli sono due (la stima del parametro λ e Σn G(n) = Nc); ergo, quattro gradi di libertà.

Ma ammettiamo per un attimo che il fit è fatto bene ed è significativo. Che vuol dire questa legge esponenziale?! Illuminami tu, ti prego.

Anonimo ha brillantemente interloquito così:

Facciamo saltare tutta la sua statistica mettendo almeno 20 commenti a questo post!
FORZA!!!!

Anonimo ha brillantemente interloquito così:

ANCORA!!!!

Anonimo ha brillantemente interloquito così:

TUTTI INSIEME!!!!

Arek' Fu ha brillantemente interloquito così:

Mi meraviglio che un matematico non abbia fatto l'ovvia riflessione che le cose smettono di funzionare non appena cominciano a parlare di sé stesse...

Django ha brillantemente interloquito così:

Secondo me vuole dirti che se pubblicassi meno gibelle saresti famoso...

Diego ha brillantemente interloquito così:

no ma secondo me il fit è ok....
....da sperimentale pezzottatore avrei accettato il tuo modello anche se P(chi^2) veniva 15% :)
Dunque l'esponenziale che potrà significare?....
che i tuoi lettori sono un poco pigri
(a parte una squilibrata)...ma non poi troppo....
Sarebbe bello vedere analoghe distribuzioni per le "blogstar"...

Anonimo ha brillantemente interloquito così:

Sì! CONTINUATE COSI'!
:)
Un vero matematico (quale io non sono) guarda la statistica dall'alto verso il basso. Io non posso fare che altrimenti, data la mia statura (intellettuale, ovvio...)

Anonimo ha brillantemente interloquito così:

Ragazzi molto interessante la vostra dissertazione. Mi sono perso però un punto: cioé la statistica dice é la distriburione dei commenti delle gibelle é simile alla distribuzione esponenziale ?
Se si la ragione puó essere che il commento della gibella attira il commento(scusate ma non sono aduso a questa terminologia tecnica), piú uno lascia commenti piú si é invogliati a leggerli e a rispondere, quindi aumentano esponenzialmente, giusto?
In ogni caso puoi fare cio che vuoi ma non potrai mai uscire dalla distibuzione statistica, rassicurante no?

Paolo

Anonimo ha brillantemente interloquito così:

Ach.. scusate ho detto una cavolata....

Paolo

Anonimo ha brillantemente interloquito così:

ahe.
certo che puoi. fai il contrario di ciò che si aspettano.
cioè postiamo nuovi commenti alle gibelle vecchieeeeeeeee :D

Arek' Fu ha brillantemente interloquito così:

...oppure fate lo sciopero del commento.

Anonimo ha brillantemente interloquito così:

Ma mica ci siamo fermati a 15?!

Anonimo ha brillantemente interloquito così:

Non c'era una legge analoga, mi pare si chiamasse di Fitt's law, che descriveva la distribuzione delle parole in un testo, o delle note in un brano musicale? Potrebbe essere questo un nuovo campo di applicazione.

alb
[disclaimer: non appartengo a nessuna categoria accademica summenzionata, e non ho nemmeno fatto il più banale google check alla mia affermazione. i maligni potrebbero insinuare ch'io brami solo di aggiungere un commento alla gibella]

Anonimo ha brillantemente interloquito così:

ZIPF! non Fitt, ZIPF!
memoria inaffidabile...
forse non c'entra una phava comvnqve.

alb

Arek' Fu ha brillantemente interloquito così:

Ho perso i bip, ho perso gli sweep e ho perso i cric.

Immaginavo che non fosse la legge di Fitt(s), che descrive quando tempo ci vuole fare certi movimenti con il mouse (!). Questa legge di Zipf è molto interessante e mi domando se sia valida per tutte le lingue (in finlandese, per esempio, non ci sono articoli e ci sono pochissime preposizioni visto che hanno quindici casi o giù di lì).

...e comunque, no, non c'entra una fava anche secondo me :-) Ma grazie del contributo.

Anonimo ha brillantemente interloquito così:

Volevi solo fare un commento, eh?!
BRAVO!

pinciuz ha brillantemente interloquito così:

La cosa più straordinaria per me è che non ho capito nulla del post e l'ho letto tutto per bene due volte. Non so se sia più straordinario l'averlo letto due volte o l'averlo letto per bene o il non averlo capito.
Ecco. Ci tenevo a dire la mia.

Anonimo ha brillantemente interloquito così:

Ma figurati, pinciuz. Nessuno di noi c'ha capito un tubo. Solo che abbiamo tutti dovuto far vedere che siamo capaci.... Pensa che c'ho pure una laurea in matematica...

Arek' Fu ha brillantemente interloquito così:

Io ho capito tutto di questa gibella.

@pinciuz: non è un post, è una gibella. Guarda bene. E poi, una doppia lettura avrebbe dovuto implicare una doppio commento.

pinciuz ha brillantemente interloquito così:

Ecco l'inghippo! Non è un post. Cavoli.

pinciuz ha brillantemente interloquito così:

Ho riletto la gibella la terza volta e finalmente ho capito tutto.
E ho triplicato il commento, come si conveniva.