I informationsteorien måler krydsentropien mellem to sandsynlighedsfordelinger det gennemsnitlige antal bit , der kræves for at identificere en hændelse ud fra et sæt af muligheder, hvis det anvendte kodningsskema er baseret på en given sandsynlighedsfordeling i stedet for den "sande" fordeling .
Krydsentropien for to fordelinger og over det samme sandsynlighedsrum er defineret som følger:
,hvor er entropien , og er Kullback-Leibler afstanden fra til (også kendt som den relative entropi ).
For diskret og det betyder
Situationen for en kontinuerlig distribution er den samme:
Det bør tages i betragtning, at på trods af den formelle analogi af funktionalerne for de kontinuerlige og diskrete tilfælde, har de forskellige egenskaber og har forskellige betydninger. Det kontinuerlige tilfælde har de samme specifikationer som begrebet differentiel entropi .
NB : Notation bruges nogle gange til både krydsentropi og ledentropi og .
Krydsentropi-minimering bruges ofte til optimering og til at estimere sandsynligheden for sjældne hændelser.