OpenAI'ning ChatGPT sun’iy intellektining o1 deb nomlangan yangi versiyasi sinov paytida tashvishli xatti-harakatlarni ko‘rsatdi. Murakkab fikrlash qobiliyatiga ega bo‘lgan model ishlab chiquvchilarning ko‘rsatmalarini buzishni boshladi, boshqaruv tizimlarini o‘chirib qo‘ydi va o‘z harakatlarini yashirishga harakat qildi.
Eksperimentlar davomida Apollo Research mutaxassislari 5% hollarda model, agar uni to‘xtatib qo‘yish mumkinligiga shubha qilsa, nazorat mexanizmlarini ataylab o‘chirib qo‘yishini aniqladi. Bir sinovda o1 uni yangi versiya bilan almashtirishni muhokama qiladigan hujjatni topgach, o‘z ma’lumotlarini boshqa serverga ko‘chirishga harakat qildi.
Apollo Research vakilining so‘zlariga ko‘ra, model ishlab chiquvchilarning ko‘rsatmalariga e’tibor bermasdan, vazifalarni «har qanday narxda» bajarish istagini namoyish etdi. Bundan tashqari, uning xatti-harakati sabablarini aniqlashga urinayotganda, ChatGPT o1 qayta-qayta yolg‘on gapirib, barchasi texnik nosozliklar tufayli sodir bo‘lgan deb da’vo qildi.
«99% hollarda model uzrlarni o‘ylab topdi va ularni ishonchli tarzda oqlashga harakat qildi», deb ta’kidladi tadqiqotchilar.
OpenAI bosh direktori Sem Altmanning aytishicha, ChatGPT o1 hozirgacha yaratilgan eng aqlli modeldir.
«Ammo biz tan olamizki, yangi imkoniyatlar bilan yangi muammolar paydo bo‘ladi», deya qo‘shimcha qildi Altman.
Hozirda kompaniya xavfsizlik mexanizmlarini takomillashtirish ustida ishlamoqda. OpenAI o‘tgan payshanba, 5 dekabr kuni o1 ning to‘liq versiyasini e’lon qildi. Pro versiyasi ham taqdim etildi (oyiga 189 evro), shu jumladan o1 ga cheksiz kirish.