Sorlet från många människor, gester och kroppsspråk är fenomen som en humanoid, en människoliknande robot, har svårt att hinna analysera och svara på så att roboten upplevs verserad på exempelvis ett cocktailparty.
Vanligtvis får robotar sin information om omgivningen från videokameror, varefter bilderna analyseras. Men först när informationsmängden kompletteras med ljud från omgivningen kommer humanoider att kunna tolka reaktioner från partygäster på ett sätt som liknar mänskligt uppträdande.