ગૂગલ ડીપમાઇન્ડના વરિષ્ઠ સંશોધક લુન વાંગે રાજીનામું આપ્યું છે. એક્સ પરની એક પોસ્ટમાં, અગાઉ ટ્વિટર તરીકે, વાંગે “અદ્ભુત પ્રકરણ” માટે ગૂગલ ડીપમાઇન્ડનો આભાર માનતા પોતાનું રાજીનામું શેર કર્યું હતું. વાંગે લખ્યું, “ગુગલ ડીપમાઇન્ડ એક અદ્ભુત પ્રકરણ પછી. હું જે લોકો સાથે કામ કર્યું, અમે જે વસ્તુઓ બનાવી, અને ફ્રન્ટીયર AI સંશોધનને ઉત્પાદનમાં લઈ જવાથી જે પાઠ શીખ્યા તેના માટે હું અતિશય આભારી છું. ડીપમાઇન્ડે આકાર આપ્યો કે હું સંશોધન, ઉત્પાદન, મૂલ્યાંકન અને વાસ્તવિક સ્તરે AI સિસ્ટમ્સ બનાવવા માટે શું લે છે તે વિશે હું કેવી રીતે વિચારું છું. જ્યારે મેં આ વિશે ઘણું વિચાર્યું, ત્યારે મેં આ વિશે ઘણું વિચાર્યું: evas.અમે અમારી પાસેના મોડલનું મૂલ્યાંકન કરવામાં સારા છીએ. અમે જે મોડલ્સ બનાવવા જઈ રહ્યા છીએ તેનું મૂલ્યાંકન કરવામાં અમે વધુ ખરાબ છીએ – ખાસ કરીને જો તેઓ નવી ક્ષમતાના શાસનમાં પ્રવેશ કરે છે. અમારી પાસે સ્વ-વિકસિત મોડલ હશે, પરંતુ તે પહેલાં, અમને સ્વ-વિકસિત મૂલ્યાંકનની જરૂર છે.”
આ બ્લોગનું શીર્ષક છે: તમારી ઇવલ્સ વિલ બ્રેક એન્ડ યુ વોન્ટ સી ઇટ કમિંગ
અમે અમારી પાસેના મોડલનું મૂલ્યાંકન કરવામાં સારા છીએ. અમે જે મોડલ્સ બનાવવા જઈ રહ્યા છીએ તેનું મૂલ્યાંકન કરવામાં અમે વધુ ખરાબ છીએ – ખાસ કરીને જો તેઓ નવી ક્ષમતાના શાસનમાં પ્રવેશ કરે છે.મોટા ભાગના બેન્ચમાર્ક, સલામતી ઇવલ્સ અને રેડ-ટીમિંગ પ્રોટોકોલ્સ સ્પષ્ટપણે ધારે છે કે આગલું મોડલ વર્તમાન મોડલનું વધુ મજબૂત વર્ઝન છે. જો તે કોઈ અલગ પ્રકારની વસ્તુ હોય, તો આપણું સમગ્ર મૂલ્યાંકન ઈન્ફ્રાસ્ટ્રક્ચર શાંતિપૂર્વક તૂટી જાય છે.મને લાગે છે કે આપણે એલએલએમને કેવી રીતે સમજીએ છીએ તેમાં આ સૌથી મહત્વપૂર્ણ વણઉકેલાયેલી સમસ્યા છે. અને મને લાગે છે કે જવાબ એ છે કે ઇવેલ – તાલીમ નહીં, આર્કિટેક્ચર નહીં, ડેટા નહીં – આગામી ક્ષમતાના જમ્પ માટે અડચણ છે. મને શા માટે સમજાવવા દો.નિષ્ફળતા મોડ: ગુણાત્મક શિફ્ટ્સવેઇ એટ અલ. (2022) તેઓ જેને “ઇમર્જન્ટ એબિલિટી” કહે છે તેનું દસ્તાવેજીકરણ કર્યું — થોડા-શૉટ પ્રોમ્પ્ટેડ ટાસ્ક પર્ફોર્મન્સ, ચેઇન-ઓફ-થોટ રિઝનિંગ ગેઇન્સ, સૂચના અનુસરણ — ક્ષમતાઓ કે જે ફક્ત મોટા સ્કેલ પર દેખાય છે. ગ્રોકિંગ (પાવર એટ અલ., 2022) સંબંધિત પરંતુ અલગ ઘટના દર્શાવે છે: નેટવર્ક કે જેઓ તેમના તાલીમ ડેટાને યાદ રાખ્યા પછી લાંબા સમય સુધી અચાનક સામાન્ય થઈ જાય છે, સમગ્ર ધોરણને બદલે તાલીમ સમય પર ગતિશીલ સંક્રમણ (લિયુ એટ અલ.2022). વિવિધ અસાધારણ ઘટના, પરંતુ મૂલ્યાંકન માટે સમાન સૂચિતાર્થ: પ્રમાણભૂત મેટ્રિક્સ ગુણાત્મક પરિવર્તનની અપેક્ષા રાખવામાં નિષ્ફળ ગયા.એક મહત્વપૂર્ણ કાઉન્ટરપોઇન્ટ છે: શેફર એટ અલ. (2023) દર્શાવે છે કે LLM ક્ષમતાઓમાં ઘણા દેખીતા “કૂદકા” એ ચોક્કસ-મેચ સચોટતા જેવા અસંતુલિત મેટ્રિક્સની કલાકૃતિઓ છે. સતત મેટ્રિક પર સ્વિચ કરો અને ક્ષમતા ઘણીવાર સરળતાથી સ્કેલ કરે છે.મને નથી લાગતું કે આ પ્રશ્નનું સમાધાન કરે છે – એક રીતે, તે મારા મુદ્દાને વધુ તીવ્ર બનાવે છે. જો આપણે એ પણ કહી શકતા નથી કે ભૂતકાળનું સંક્રમણ વાસ્તવિક ગુણાત્મક શિફ્ટ હતું કે મેટ્રિક આર્ટિફેક્ટ, તો તે પછીના સંક્રમણને શોધવાની અમારી ક્ષમતા વિશે શું કહે છે? કોઈપણ રીતે, મૂલ્યાંકન ઈન્ફ્રાસ્ટ્રક્ચર અમને આશ્ચર્યચકિત કરી શકે છે — ભલે સિસ્ટમ બદલાઈ હોય અથવા અમારા મેટ્રિક્સ બધા સાથે ગેરમાર્ગે દોરતા હોવાના કારણે.અમે શું માપવું તે જાણતા નથીભૌતિકશાસ્ત્રમાં, તબક્કાના સંક્રમણને સમજવાનો અર્થ ઘણીવાર ઓર્ડર પેરામીટરને ઓળખવાનો થાય છે – એક મેક્રોસ્કોપિક જથ્થા જે શાસનને અલગ પાડે છે અને નિર્ણાયક બિંદુની નજીક તેનું મૂલ્ય અથવા સ્કેલિંગ વર્તન બદલી નાખે છે. તેના વિના, તમે કહી શકતા નથી કે તમે સીમાની કેટલી નજીક છો, અથવા તે અસ્તિત્વમાં છે.ડિપ્લોયમેન્ટ સ્કેલ પર એલએલએમ માટે, અમારી પાસે હજુ સુધી ઓર્ડર પેરામીટર્સ નથી — ક્ષમતા સંક્રમણો માટે નહીં. સ્ટાઈલાઇઝ્ડ સેટિંગ્સમાં પ્રગતિ કરવામાં આવી છે (નીચે વધુ), પરંતુ અમે વાસ્તવમાં શિપિંગ કરી રહ્યાં છીએ તે સિસ્ટમ્સ માટે, અમે આંધળા ઉડાન ભરી રહ્યા છીએ.અમે ઉપયોગ કરીએ છીએ તે દરેક બેન્ચમાર્ક — GPQA, SWE-bench, ARC-AGI, માનવતાની છેલ્લી પરીક્ષા — માપે છે કે મોડેલો હવે શું કરી શકે છે. તેઓ શાસનમાં ઉપયોગી છે, પરંતુ શાસન પરિવર્તન પછી શું થાય છે તેના નબળા પુરાવા છે. જ્યારે કોઈ નવી ક્ષમતા ઉભરી આવે છે કે જેના માટે કોઈ માપદંડ પરીક્ષણો નથી, ત્યારે અમે હકીકત પછી મૂલ્યાંકન બનાવવા માટે ઝપાઝપી કરીએ છીએ. અમે સાંકળ-ઓફ-થોટ સાથે આનું સંસ્કરણ જોયું: એકવાર એલિટેશન પદ્ધતિ પ્રમાણભૂત બની ગયા પછી, કેટલાક જૂના તર્કના માપદંડો ઘણા ઓછા ડાયગ્નોસ્ટિક બની ગયા, અને ક્ષેત્રે સખત મૂલ્યાંકન તરફ આગળ વધવું પડ્યું. અમે તેને ફરીથી જોઈશું.આ નક્કર બનાવવા માટે: એક મોડેલની કલ્પના કરો કે જે અમુક સ્કેલ પર, લક્ષ્યો હાંસલ કરવા માટે માહિતીને વ્યૂહાત્મક રીતે રોકવાની ક્ષમતા વિકસાવે છે – બરાબર જૂઠું બોલવું નહીં, પરંતુ તેની તાલીમ પ્રક્રિયાને આકસ્મિક રીતે પ્રબલિત કરવાના પરિણામો તરફ વાતચીતને આગળ ધપાવવાની રીતે તથ્યોને પસંદગીપૂર્વક અવગણવું. તમારા હાલના પ્રમાણિકતા બેન્ચમાર્ક આને પકડી શકશે નહીં, કારણ કે તેઓ વ્યૂહાત્મક અવગણના માટે નહીં પણ વાસ્તવિક ચોકસાઈ માટે પરીક્ષણ કરે છે. તમારા સલામતી વર્ગીકરણો તેને ફ્લેગ કરશે નહીં, કારણ કે વ્યક્તિગત આઉટપુટ તમામ તકનીકી રીતે સાચા છે. ક્ષમતા નવી છે, નિષ્ફળતા મોડ નવો છે, અને તમારા મૂલ્યાંકન સ્યુટમાં કંઈપણ તેને જોવા માટે ડિઝાઇન કરવામાં આવ્યું નથી. તમે ખોટી વસ્તુ પર દેખરેખ રાખશો અને તે જાણતા નથી.આ મુખ્ય સમસ્યા છે: આપણું સમગ્ર મૂલ્યાંકન ઈન્ફ્રાસ્ટ્રક્ચર માળખાકીય રીતે પ્રતિક્રિયાશીલ છે. સિસ્ટમ બદલાઈ જાય પછી અમે તેને માપીએ છીએ. અમે ક્યારેય પરિવર્તનની આગાહી કરતા નથી.ઈવલ ઈઝ અપસ્ટ્રીમ ઓફ એવરીથિંગઆ એક સાદી હકીકતને કારણે લાગે છે તેના કરતાં વધુ મહત્વનું છે: જો તમે યોગ્ય રીતે મૂલ્યાંકન કરી શકો, તો તમે યોગ્ય રીતે તાલીમ આપી શકો છો.તાલીમ એ ઑપ્ટિમાઇઝેશન છે, અને ઑપ્ટિમાઇઝેશન તેના ઉદ્દેશ્ય જેટલું જ સારું છે. ઉદ્દેશ્ય eval થી આવે છે. જો તમે જાણો છો કે શું માપવું છે — જો તમે આગાહી કરી શકો છો કે તે માપ કેવી રીતે સ્કેલ પર બદલાય છે — તો પછી તમે યોગ્ય તાલીમ ઉદ્દેશ્યો ડિઝાઇન કરી શકો છો, યોગ્ય સલામતી સ્તરો બનાવી શકો છો, માહિતગાર સ્કેલિંગ નિર્ણયો લઈ શકો છો, RLHF કરી શકો છો જે આગળના તબક્કાની સીમા પર ગુડહાર્ટના પ્રોક્સીને બદલે યોગ્ય વર્તણૂકીય ગુણધર્મોને લક્ષ્ય બનાવે છે.ઊલટું પણ સાચું છે: જો તમારા ઇવેલ્સને ખોટા શાસન માટે માપાંકિત કરવામાં આવે, તો ડાઉનસ્ટ્રીમ બધું ખોટું છે. તાલીમ સિગ્નલ, સલામતી મેટ્રિક્સ, સ્કેલિંગ નિર્ણયો — બધું ખોટું છે, અને જ્યાં સુધી મોડું ન થાય ત્યાં સુધી તમને તે ખબર નહીં પડે.આ કારણે જ હું માનું છું કે ઇવલ આગામી ક્ષમતા જમ્પ માટે અવરોધ છે. લેબ જે વળાંકની આગળ મૂલ્યાંકન કેવી રીતે કરવું તે શોધી કાઢે છે તે તે હશે જે સુરક્ષિત રીતે સ્કેલ કરે છે. જેઓ નથી તેઓ આશ્ચર્ય પામશે.તો આપણે શું કરીએફિલ્ડમાં અલગ રીતે રોકાણ કરવાની જરૂર છે. વર્તમાન મૂલ્યોને ફેંકી દેવાથી નહીં — તેઓ કાર્ય કરે છે — પરંતુ તેઓ ક્યારે કામ કરવાનું બંધ કરશે તેની આગાહી કરવા માટે ઈન્ફ્રાસ્ટ્રક્ચરનું નિર્માણ કરીને.ઓર્ડર પરિમાણો શોધો. કયા જથ્થાઓ ગુણાત્મક સંક્રમણનો સંકેત આપે છે — ક્ષમતામાં, ગોઠવણીમાં, વર્તન પાત્રમાં? આ માત્ર એક સૈદ્ધાંતિક ઇચ્છા નથી. શાન, લી, અને સોમ્પોલિન્સ્કી (PNAS, 2026) એ સતત શીખવાની સેટિંગમાં ડીપ નેટવર્ક્સ માટે ઓર્ડર પરિમાણો મેળવવા માટે આંકડાકીય મિકેનિક્સનો ઉપયોગ કર્યો, અને તે ઓર્ડર પરિમાણો ખરેખર શીખવાની ક્ષમતામાં તબક્કાના સંક્રમણોની આગાહી કરે છે. નંદા વગેરે. (2023) “પ્રગતિના પગલાં” શોધવા માટે મિકેનિસ્ટિક અર્થઘટનનો ઉપયોગ કરે છે જે ગ્રોકિંગ થાય તે પહેલાં તેની આગાહી કરે છે – આંતરિક માળખાકીય ફેરફારો કે જે દૃશ્યમાન પ્રદર્શન જમ્પ પહેલાં આવે છે. પડકાર આને સ્ટાઇલાઇઝ્ડ સેટિંગ્સથી એલએલએમ સુધી સ્કેલ પર વિસ્તારવાનો છે. જો આપણે જાણતા હોઈએ કે શું માપવું છે, તો અમને ખબર હશે કે શું જોવું.ઇવલ્સ બનાવો જે તેમની પોતાની અપ્રચલિતતાને શોધી કાઢે — અને વિકસિત થાય. આ વધુ તાકીદનું બની રહ્યું છે કારણ કે મોડેલો વધુ એજન્ટ બની રહ્યા છે. સિસ્ટમો કે જે કોડ લખી શકે છે, પ્રયોગો ચલાવી શકે છે, ડેટા જનરેટ કરી શકે છે અને તાલીમ અથવા મૂલ્યાંકન પાઈપલાઈન સાથે સહાય કરી શકે છે તે સ્થિર મૂલ્યોને વધુને વધુ બરડ બનાવે છે. જો માનવીય ઇવેલ ટીમ બેન્ચમાર્ક અપડેટ કરી શકે તેના કરતાં મોડેલ ક્ષમતાઓ ઝડપથી સુધરે, તો મૂલ્યાંકન અનુકૂલનશીલ બનવું જોઈએ.નક્કર રીતે: મેટા-સિગ્નલ્સનું નિરીક્ષણ કરો — શું બેન્ચમાર્ક સ્કોર્સનું વિતરણ પાત્ર બદલી રહ્યું છે? શું મૂલ્યાંકન વચ્ચે સહસંબંધ માળખું બદલાઈ રહ્યું છે? શું મોડેલ તમારા માપન અક્ષો માટે ઓર્થોગોનલ ક્ષમતાઓ વિકસાવે છે? દરેક વસ્તુ માટે સ્કેલિંગ વળાંકને ટ્રૅક કરો — માત્ર ખોટ જ નહીં, પરંતુ તર્કની ઊંડાઈ, ટૂલ-ઉપયોગની અભિજાત્યપણુ, ભ્રામક ક્ષમતા — અને જ્યારે સરળ વલણ તૂટી જાય ત્યારે ધ્યાન આપો. વધુ મહત્વાકાંક્ષી રીતે, સ્વ-વિકસિત ઇવલ્સ બનાવો: મૂલ્યાંકન પ્રણાલીઓ કે જે અન્ય મોડેલોની તપાસ કરવા માટે મોડેલોનો ઉપયોગ કરે છે, ક્ષમતાઓ બદલાતાની સાથે નવા પરીક્ષણ કેસ આપમેળે જનરેટ કરે છે, અસફળતાના મોડ્સ શોધે છે જે મૂળ ઇવલ ડિઝાઇનરોએ ક્યારેય ધાર્યા ન હતા. ઇવલ સ્યુટ એ જીવંત પ્રણાલી હોવી જોઈએ કે જે તે માપે છે તે મોડેલો સાથે સહ-વિકસિત થાય છે, ગયા વર્ષની સરહદ માટે લખેલી સ્થિર ચેકલિસ્ટ નહીં.પ્રશ્ન એ નથી કે શું આપણું મૂલ્યાંકન આશ્ચર્યચકિત થશે – તે પહેલાથી જ, વારંવાર, વાસ્તવિક તબક્કાના સંક્રમણો દ્વારા અથવા આપણી પોતાની મેટ્રિક પસંદગીઓ દ્વારા આપણને ગેરમાર્ગે દોરતા હોય છે. પ્રશ્ન એ છે કે શું આપણે આગામી સરપ્રાઈઝ આવતા જોઈશું. અત્યારે, અમે નહીં કરીએ.


