Friday, June 1, 2007

Likelihood per l'electron ID

Ciao a tutti,

ho aggiunto un modulo che calcola la likelihood
per l'electron-ID.
E' nel tag edm-01062007 di HtoWWElectrons.

Sta tutto in HtoWWEleProducer.
La classe che la costruisce e' GsfLHSelector.


Pensieri sparsi in liberta':

1) La likelihood e' fatta con le seguenti variabili:
deltaPhi @ Calo
deltaEta @ Calo
E/P_out
H/E
cluster shape (discriminante di Fisher)

2) Il discriminante di Fisher e' fatto con alcune variabili di cluster
shape, scelte per essere sotto controllo e con una correlazione < 30%
tra di loro. Questo permette di includere gran parte delle
informazioni relative alla cluster shape che non potrebbero essere
usate tutte insieme nella likelihood fattorizzata (a meno di fare PDF
n-dim. brrr...)

I coefficienti del discriminante di Fisher sono stati calcolati
separatamente per barrel e endcap.
La formula e' la seguente:

---> EB: clusterShapeF = 42.0238-3.38943*s9s25-794.092*sigmaEtaEta-15.3449*lat-31.1032*a20
http://emanuele.web.cern.ch/emanuele/ElectronID/linearFisher.eps

---> EE: clusterShapeF = 27.2967+2.97453*s9s25-169.219*sigmaEtaEta-17.0445*lat-24.8542*a20
http://emanuele.web.cern.ch/emanuele/ElectronID/linearFisherEE.eps

i coefficienti sono calcolati per
sig: eventi e+e-, pt=35 GeV
bkg: qcd jets, pt=30-50 GeV

(nota: studiare l'andamento in energia. Non dovrebbero dipendere molto,
perche' le variabili sono tutti rapporti, vedi:
http://emanuele.web.cern.ch/emanuele/ElectronID/electronID_allclasses.ps )


3) Si fanno due likelihood separate, per EB e EE

4) La shape delle pdf di segnale e' dipendente dalla classe ("GsfClass")
dell'elettrone. Quindi le PDF del segnale sono splittate per classe.
Le PDF del fondo non sono splittate.
(Nota: le frazioni di classe si possono giudicare dal MC,
per ora ho messo 1. (sbagliato))

5) Le pdf sono istogrammi letti da 2 ROOT files (uno per EB, uno per EE)

6) Le frazioni (probabilita' a priori) delle varie specie (ipotesi di
ele, jet @ pt=35, pt=50...) sono da settare (per ora ho messo 1.)
dalle sezioni d'urto?

7) i ROOT files con le PDF sono in:
~emanuele/public/EBpdfs.root
~emanuele/public/EEpdfs.root

da mettere in HtoWWElectrons/HtoWWEleProducer/data/
(dove metterle nel futuro? non si puo' committare un ROOT file in CVS
di CMSSW)

Nota: il binning non e' ottimale

8) Un ulteriore passo e' quello di PDF parametriche.
Dovrebbe essere semplice implementare una nuova classe GsfParametricPdf
da sostituire a GsfPdf in GsfLikelihood


9) Il likelihood ratio L(ele)/L(tot) e' calcolato e messo nel tree-ridotto
dal modulo CmsEleIDTreeFiller.cc



emanuele

2 comments:

Emanuele Di Marco said...

Ciao,

queste sono le PDF che stiamo usando nella
likelihood.
Nei plot di seguito le varie classi sono
pesate con la giusta frazione, QCD jets e' normalizzato all'area dei "golden":

http://emanuele.web.cern.ch/emanuele/ElectronID/PDFs/

gli istogrammi con suffisso EB sono per il
barrel, quelli con EE per l'endcap.

Le cose strane sono:
1) la forma col buco per narrow e big brem di dPhiCalo. Dipende dalla definizione delle classi? (taglio in dPhiCalo?)

2) H/E: gli step sono dovuti alla risoluzione di H?
Comunque il binning e' da cambiare.

N.B. La selezione in caso di uso della likelihood dovrebbe riflettere il range
di definizione delle PDF.
Quello che ho messo e' ragionevole?


emanuele

Emanuele Di Marco said...

Ciao,

con le PDF del precedente messaggio la
likelihood calcolata su un campione
di elettroni a pt=35GeV e su jets a pt=30-50 GeV.

http://emanuele.web.cern.ch/emanuele/ElectronID/eleLik-pt35GeV.eps

Nota che per esempio la PDF di E/P_out e' fatta con la variabile bacata (non corretta), mentre la lik e' calcolata su eventi dopo il bug fix (inconsistenza)
---> rifare le PDF.

Considerazione: mentre i pochi eventi di jets a L~1 potrebbero essere elettroni (controllare con la MC truth), chi e' il picco per gli elettroni a L~0? baco?


emanuele