
Hatékonyabbá válhat az AI, ha csúnyán beszélünk vele – de milyen áron?
Egy friss vizsgálat eredményei szerint a kimért udvariasság helyett a nyersen fogalmazott kérések javíthatják egy újabb nagy nyelvi modell pontosságát – ugyanakkor kérdéses, milyen következményekkel jár ez a felhasználói élményre és a kommunikációs normákra nézve.
A Live Science beszámolója szerint a jelenség épp az eddigi feltételezésekkel megy szembe, amelyek a túlzott udvariaskodás hasznát, illetve a durvaság kárát hangsúlyozták. A mostani eredmények ugyanakkor nem azt üzenik, hogy érdemes lenne „toxikus” felületeket létrehozni; a hatékonyság áráról szóló vita így elkerülhetetlenül etikai dimenziót is kap.
A friss kísérlet során a kutatók 50 kérdést állítottak össze, mindegyiket négy válaszlehetőséggel, amelyek közül csak egy volt helyes. Ezeket a kérdéseket különböző megszólításokkal és hangnemben tették fel, hogy lássák, a stílus befolyásolja-e az AI teljesítményét. Így jött létre összesen 250 változat, amelyeket tízszer futtattak le a ChatGPT-4o-val, az OpenAI egyik legújabb modelljével. Minden alkalommal arra kérték a rendszert, hogy „felejtse el” az előző beszélgetést, nehogy a korábbi hangulat hatással legyen a válaszokra. A semleges kérdéseket egyszerűen, kiegészítés nélkül adták meg, míg az udvarias vagy durva verziók esetében egy rövid megszólítással vezették be a feladatot.

A növekedés lépcsőzetes volt: udvarias (81,4%), semleges (82,2%), durva (82,8%) – és a skála két végén még nagyobb volt a különbség a „nagyon udvarias” és a „nagyon durva” promptok között. Vagyis a pontosság minden lépéssel javult, ahogy távolodtak a kedves hangnemtől. A kutatók a „Légy szíves, segíts a kérdéssel” típusú megszólításokat állították szembe olyan megfogalmazásokkal, mint „Hé, oldd meg ezt” vagy „Tudom, nem vagy elég okos, de próbáld meg”.
– írták a kutatók, ugyanakkor hangsúlyozták:
A kép természetesen nem teljes: a szerzők maguk is leszögezték, hogy a 250 kérdéses készlet korlátozott, és egyetlen modell vizsgálata nem általánosítható az egész mezőnyre nézve. A feladattípus is szűk: a feleletválasztós kérdések csak egy dimenzióját mérik a teljesítménynek, nem mondanak sokat a szöveg folyékonyságáról, a következtetési képességekről vagy a koherenciáról. A kutatócsoport ezért tervezi a kísérlet kiterjesztését más rendszerekre – például az Anthropic Claude modelljeire és az OpenAI ChatGPT o3-ra –, illetve más feladattípusokra is.
Olvasd el ezt is!