Google DeepMind સંશોધક લુન વાંગે રાજીનામું આપ્યું; લાંબી પોસ્ટમાં ટેક્નોલોજી કંપનીઓને જણાવે છે કે વર્તમાન AI મોડલ્સમાં શું ખોટું છે: તમે કરી શકશો નહીં…

પ્રતિનિધિ છબી. (એપી ફોટો/મેથ્યુ હિન્ટન, ફાઇલ)

ગૂગલ ડીપમાઇન્ડના વરિષ્ઠ સંશોધક લુન વાંગે રાજીનામું આપ્યું છે. એક્સ પરની એક પોસ્ટમાં, અગાઉ ટ્વિટર તરીકે, વાંગે “અદ્ભુત પ્રકરણ” માટે ગૂગલ ડીપમાઇન્ડનો આભાર માનતા પોતાનું રાજીનામું શેર કર્યું હતું. વાંગે લખ્યું, “ગુગલ ડીપમાઇન્ડ એક અદ્ભુત પ્રકરણ પછી. હું જે લોકો સાથે કામ કર્યું, અમે જે વસ્તુઓ બનાવી, અને ફ્રન્ટીયર AI સંશોધનને ઉત્પાદનમાં લઈ જવાથી જે પાઠ શીખ્યા તેના માટે હું અતિશય આભારી છું. ડીપમાઇન્ડે આકાર આપ્યો કે હું સંશોધન, ઉત્પાદન, મૂલ્યાંકન અને વાસ્તવિક સ્તરે AI સિસ્ટમ્સ બનાવવા માટે શું લે છે તે વિશે હું કેવી રીતે વિચારું છું. જ્યારે મેં આ વિશે ઘણું વિચાર્યું, ત્યારે મેં આ વિશે ઘણું વિચાર્યું: evas.અમે અમારી પાસેના મોડલનું મૂલ્યાંકન કરવામાં સારા છીએ. અમે જે મોડલ્સ બનાવવા જઈ રહ્યા છીએ તેનું મૂલ્યાંકન કરવામાં અમે વધુ ખરાબ છીએ – ખાસ કરીને જો તેઓ નવી ક્ષમતાના શાસનમાં પ્રવેશ કરે છે. અમારી પાસે સ્વ-વિકસિત મોડલ હશે, પરંતુ તે પહેલાં, અમને સ્વ-વિકસિત મૂલ્યાંકનની જરૂર છે.”

આ બ્લોગનું શીર્ષક છે: તમારી ઇવલ્સ વિલ બ્રેક એન્ડ યુ વોન્ટ સી ઇટ કમિંગ

અમે અમારી પાસેના મોડલનું મૂલ્યાંકન કરવામાં સારા છીએ. અમે જે મોડલ્સ બનાવવા જઈ રહ્યા છીએ તેનું મૂલ્યાંકન કરવામાં અમે વધુ ખરાબ છીએ – ખાસ કરીને જો તેઓ નવી ક્ષમતાના શાસનમાં પ્રવેશ કરે છે.મોટા ભાગના બેન્ચમાર્ક, સલામતી ઇવલ્સ અને રેડ-ટીમિંગ પ્રોટોકોલ્સ સ્પષ્ટપણે ધારે છે કે આગલું મોડલ વર્તમાન મોડલનું વધુ મજબૂત વર્ઝન છે. જો તે કોઈ અલગ પ્રકારની વસ્તુ હોય, તો આપણું સમગ્ર મૂલ્યાંકન ઈન્ફ્રાસ્ટ્રક્ચર શાંતિપૂર્વક તૂટી જાય છે.મને લાગે છે કે આપણે એલએલએમને કેવી રીતે સમજીએ છીએ તેમાં આ સૌથી મહત્વપૂર્ણ વણઉકેલાયેલી સમસ્યા છે. અને મને લાગે છે કે જવાબ એ છે કે ઇવેલ – તાલીમ નહીં, આર્કિટેક્ચર નહીં, ડેટા નહીં – આગામી ક્ષમતાના જમ્પ માટે અડચણ છે. મને શા માટે સમજાવવા દો.નિષ્ફળતા મોડ: ગુણાત્મક શિફ્ટ્સવેઇ એટ અલ. (2022) તેઓ જેને “ઇમર્જન્ટ એબિલિટી” કહે છે તેનું દસ્તાવેજીકરણ કર્યું — થોડા-શૉટ પ્રોમ્પ્ટેડ ટાસ્ક પર્ફોર્મન્સ, ચેઇન-ઓફ-થોટ રિઝનિંગ ગેઇન્સ, સૂચના અનુસરણ — ક્ષમતાઓ કે જે ફક્ત મોટા સ્કેલ પર દેખાય છે. ગ્રોકિંગ (પાવર એટ અલ., 2022) સંબંધિત પરંતુ અલગ ઘટના દર્શાવે છે: નેટવર્ક કે જેઓ તેમના તાલીમ ડેટાને યાદ રાખ્યા પછી લાંબા સમય સુધી અચાનક સામાન્ય થઈ જાય છે, સમગ્ર ધોરણને બદલે તાલીમ સમય પર ગતિશીલ સંક્રમણ (લિયુ એટ અલ.2022). વિવિધ અસાધારણ ઘટના, પરંતુ મૂલ્યાંકન માટે સમાન સૂચિતાર્થ: પ્રમાણભૂત મેટ્રિક્સ ગુણાત્મક પરિવર્તનની અપેક્ષા રાખવામાં નિષ્ફળ ગયા.એક મહત્વપૂર્ણ કાઉન્ટરપોઇન્ટ છે: શેફર એટ અલ. (2023) દર્શાવે છે કે LLM ક્ષમતાઓમાં ઘણા દેખીતા “કૂદકા” એ ચોક્કસ-મેચ સચોટતા જેવા અસંતુલિત મેટ્રિક્સની કલાકૃતિઓ છે. સતત મેટ્રિક પર સ્વિચ કરો અને ક્ષમતા ઘણીવાર સરળતાથી સ્કેલ કરે છે.મને નથી લાગતું કે આ પ્રશ્નનું સમાધાન કરે છે – એક રીતે, તે મારા મુદ્દાને વધુ તીવ્ર બનાવે છે. જો આપણે એ પણ કહી શકતા નથી કે ભૂતકાળનું સંક્રમણ વાસ્તવિક ગુણાત્મક શિફ્ટ હતું કે મેટ્રિક આર્ટિફેક્ટ, તો તે પછીના સંક્રમણને શોધવાની અમારી ક્ષમતા વિશે શું કહે છે? કોઈપણ રીતે, મૂલ્યાંકન ઈન્ફ્રાસ્ટ્રક્ચર અમને આશ્ચર્યચકિત કરી શકે છે — ભલે સિસ્ટમ બદલાઈ હોય અથવા અમારા મેટ્રિક્સ બધા સાથે ગેરમાર્ગે દોરતા હોવાના કારણે.અમે શું માપવું તે જાણતા નથીભૌતિકશાસ્ત્રમાં, તબક્કાના સંક્રમણને સમજવાનો અર્થ ઘણીવાર ઓર્ડર પેરામીટરને ઓળખવાનો થાય છે – એક મેક્રોસ્કોપિક જથ્થા જે શાસનને અલગ પાડે છે અને નિર્ણાયક બિંદુની નજીક તેનું મૂલ્ય અથવા સ્કેલિંગ વર્તન બદલી નાખે છે. તેના વિના, તમે કહી શકતા નથી કે તમે સીમાની કેટલી નજીક છો, અથવા તે અસ્તિત્વમાં છે.ડિપ્લોયમેન્ટ સ્કેલ પર એલએલએમ માટે, અમારી પાસે હજુ સુધી ઓર્ડર પેરામીટર્સ નથી — ક્ષમતા સંક્રમણો માટે નહીં. સ્ટાઈલાઇઝ્ડ સેટિંગ્સમાં પ્રગતિ કરવામાં આવી છે (નીચે વધુ), પરંતુ અમે વાસ્તવમાં શિપિંગ કરી રહ્યાં છીએ તે સિસ્ટમ્સ માટે, અમે આંધળા ઉડાન ભરી રહ્યા છીએ.અમે ઉપયોગ કરીએ છીએ તે દરેક બેન્ચમાર્ક — GPQA, SWE-bench, ARC-AGI, માનવતાની છેલ્લી પરીક્ષા — માપે છે કે મોડેલો હવે શું કરી શકે છે. તેઓ શાસનમાં ઉપયોગી છે, પરંતુ શાસન પરિવર્તન પછી શું થાય છે તેના નબળા પુરાવા છે. જ્યારે કોઈ નવી ક્ષમતા ઉભરી આવે છે કે જેના માટે કોઈ માપદંડ પરીક્ષણો નથી, ત્યારે અમે હકીકત પછી મૂલ્યાંકન બનાવવા માટે ઝપાઝપી કરીએ છીએ. અમે સાંકળ-ઓફ-થોટ સાથે આનું સંસ્કરણ જોયું: એકવાર એલિટેશન પદ્ધતિ પ્રમાણભૂત બની ગયા પછી, કેટલાક જૂના તર્કના માપદંડો ઘણા ઓછા ડાયગ્નોસ્ટિક બની ગયા, અને ક્ષેત્રે સખત મૂલ્યાંકન તરફ આગળ વધવું પડ્યું. અમે તેને ફરીથી જોઈશું.આ નક્કર બનાવવા માટે: એક મોડેલની કલ્પના કરો કે જે અમુક સ્કેલ પર, લક્ષ્યો હાંસલ કરવા માટે માહિતીને વ્યૂહાત્મક રીતે રોકવાની ક્ષમતા વિકસાવે છે – બરાબર જૂઠું બોલવું નહીં, પરંતુ તેની તાલીમ પ્રક્રિયાને આકસ્મિક રીતે પ્રબલિત કરવાના પરિણામો તરફ વાતચીતને આગળ ધપાવવાની રીતે તથ્યોને પસંદગીપૂર્વક અવગણવું. તમારા હાલના પ્રમાણિકતા બેન્ચમાર્ક આને પકડી શકશે નહીં, કારણ કે તેઓ વ્યૂહાત્મક અવગણના માટે નહીં પણ વાસ્તવિક ચોકસાઈ માટે પરીક્ષણ કરે છે. તમારા સલામતી વર્ગીકરણો તેને ફ્લેગ કરશે નહીં, કારણ કે વ્યક્તિગત આઉટપુટ તમામ તકનીકી રીતે સાચા છે. ક્ષમતા નવી છે, નિષ્ફળતા મોડ નવો છે, અને તમારા મૂલ્યાંકન સ્યુટમાં કંઈપણ તેને જોવા માટે ડિઝાઇન કરવામાં આવ્યું નથી. તમે ખોટી વસ્તુ પર દેખરેખ રાખશો અને તે જાણતા નથી.આ મુખ્ય સમસ્યા છે: આપણું સમગ્ર મૂલ્યાંકન ઈન્ફ્રાસ્ટ્રક્ચર માળખાકીય રીતે પ્રતિક્રિયાશીલ છે. સિસ્ટમ બદલાઈ જાય પછી અમે તેને માપીએ છીએ. અમે ક્યારેય પરિવર્તનની આગાહી કરતા નથી.ઈવલ ઈઝ અપસ્ટ્રીમ ઓફ એવરીથિંગઆ એક સાદી હકીકતને કારણે લાગે છે તેના કરતાં વધુ મહત્વનું છે: જો તમે યોગ્ય રીતે મૂલ્યાંકન કરી શકો, તો તમે યોગ્ય રીતે તાલીમ આપી શકો છો.તાલીમ એ ઑપ્ટિમાઇઝેશન છે, અને ઑપ્ટિમાઇઝેશન તેના ઉદ્દેશ્ય જેટલું જ સારું છે. ઉદ્દેશ્ય eval થી આવે છે. જો તમે જાણો છો કે શું માપવું છે — જો તમે આગાહી કરી શકો છો કે તે માપ કેવી રીતે સ્કેલ પર બદલાય છે — તો પછી તમે યોગ્ય તાલીમ ઉદ્દેશ્યો ડિઝાઇન કરી શકો છો, યોગ્ય સલામતી સ્તરો બનાવી શકો છો, માહિતગાર સ્કેલિંગ નિર્ણયો લઈ શકો છો, RLHF કરી શકો છો જે આગળના તબક્કાની સીમા પર ગુડહાર્ટના પ્રોક્સીને બદલે યોગ્ય વર્તણૂકીય ગુણધર્મોને લક્ષ્ય બનાવે છે.ઊલટું પણ સાચું છે: જો તમારા ઇવેલ્સને ખોટા શાસન માટે માપાંકિત કરવામાં આવે, તો ડાઉનસ્ટ્રીમ બધું ખોટું છે. તાલીમ સિગ્નલ, સલામતી મેટ્રિક્સ, સ્કેલિંગ નિર્ણયો — બધું ખોટું છે, અને જ્યાં સુધી મોડું ન થાય ત્યાં સુધી તમને તે ખબર નહીં પડે.આ કારણે જ હું માનું છું કે ઇવલ આગામી ક્ષમતા જમ્પ માટે અવરોધ છે. લેબ જે વળાંકની આગળ મૂલ્યાંકન કેવી રીતે કરવું તે શોધી કાઢે છે તે તે હશે જે સુરક્ષિત રીતે સ્કેલ કરે છે. જેઓ નથી તેઓ આશ્ચર્ય પામશે.તો આપણે શું કરીએફિલ્ડમાં અલગ રીતે રોકાણ કરવાની જરૂર છે. વર્તમાન મૂલ્યોને ફેંકી દેવાથી નહીં — તેઓ કાર્ય કરે છે — પરંતુ તેઓ ક્યારે કામ કરવાનું બંધ કરશે તેની આગાહી કરવા માટે ઈન્ફ્રાસ્ટ્રક્ચરનું નિર્માણ કરીને.ઓર્ડર પરિમાણો શોધો. કયા જથ્થાઓ ગુણાત્મક સંક્રમણનો સંકેત આપે છે — ક્ષમતામાં, ગોઠવણીમાં, વર્તન પાત્રમાં? આ માત્ર એક સૈદ્ધાંતિક ઇચ્છા નથી. શાન, લી, અને સોમ્પોલિન્સ્કી (PNAS, 2026) એ સતત શીખવાની સેટિંગમાં ડીપ નેટવર્ક્સ માટે ઓર્ડર પરિમાણો મેળવવા માટે આંકડાકીય મિકેનિક્સનો ઉપયોગ કર્યો, અને તે ઓર્ડર પરિમાણો ખરેખર શીખવાની ક્ષમતામાં તબક્કાના સંક્રમણોની આગાહી કરે છે. નંદા વગેરે. (2023) “પ્રગતિના પગલાં” શોધવા માટે મિકેનિસ્ટિક અર્થઘટનનો ઉપયોગ કરે છે જે ગ્રોકિંગ થાય તે પહેલાં તેની આગાહી કરે છે – આંતરિક માળખાકીય ફેરફારો કે જે દૃશ્યમાન પ્રદર્શન જમ્પ પહેલાં આવે છે. પડકાર આને સ્ટાઇલાઇઝ્ડ સેટિંગ્સથી એલએલએમ સુધી સ્કેલ પર વિસ્તારવાનો છે. જો આપણે જાણતા હોઈએ કે શું માપવું છે, તો અમને ખબર હશે કે શું જોવું.ઇવલ્સ બનાવો જે તેમની પોતાની અપ્રચલિતતાને શોધી કાઢે — અને વિકસિત થાય. આ વધુ તાકીદનું બની રહ્યું છે કારણ કે મોડેલો વધુ એજન્ટ બની રહ્યા છે. સિસ્ટમો કે જે કોડ લખી શકે છે, પ્રયોગો ચલાવી શકે છે, ડેટા જનરેટ કરી શકે છે અને તાલીમ અથવા મૂલ્યાંકન પાઈપલાઈન સાથે સહાય કરી શકે છે તે સ્થિર મૂલ્યોને વધુને વધુ બરડ બનાવે છે. જો માનવીય ઇવેલ ટીમ બેન્ચમાર્ક અપડેટ કરી શકે તેના કરતાં મોડેલ ક્ષમતાઓ ઝડપથી સુધરે, તો મૂલ્યાંકન અનુકૂલનશીલ બનવું જોઈએ.નક્કર રીતે: મેટા-સિગ્નલ્સનું નિરીક્ષણ કરો — શું બેન્ચમાર્ક સ્કોર્સનું વિતરણ પાત્ર બદલી રહ્યું છે? શું મૂલ્યાંકન વચ્ચે સહસંબંધ માળખું બદલાઈ રહ્યું છે? શું મોડેલ તમારા માપન અક્ષો માટે ઓર્થોગોનલ ક્ષમતાઓ વિકસાવે છે? દરેક વસ્તુ માટે સ્કેલિંગ વળાંકને ટ્રૅક કરો — માત્ર ખોટ જ નહીં, પરંતુ તર્કની ઊંડાઈ, ટૂલ-ઉપયોગની અભિજાત્યપણુ, ભ્રામક ક્ષમતા — અને જ્યારે સરળ વલણ તૂટી જાય ત્યારે ધ્યાન આપો. વધુ મહત્વાકાંક્ષી રીતે, સ્વ-વિકસિત ઇવલ્સ બનાવો: મૂલ્યાંકન પ્રણાલીઓ કે જે અન્ય મોડેલોની તપાસ કરવા માટે મોડેલોનો ઉપયોગ કરે છે, ક્ષમતાઓ બદલાતાની સાથે નવા પરીક્ષણ કેસ આપમેળે જનરેટ કરે છે, અસફળતાના મોડ્સ શોધે છે જે મૂળ ઇવલ ડિઝાઇનરોએ ક્યારેય ધાર્યા ન હતા. ઇવલ સ્યુટ એ જીવંત પ્રણાલી હોવી જોઈએ કે જે તે માપે છે તે મોડેલો સાથે સહ-વિકસિત થાય છે, ગયા વર્ષની સરહદ માટે લખેલી સ્થિર ચેકલિસ્ટ નહીં.પ્રશ્ન એ નથી કે શું આપણું મૂલ્યાંકન આશ્ચર્યચકિત થશે – તે પહેલાથી જ, વારંવાર, વાસ્તવિક તબક્કાના સંક્રમણો દ્વારા અથવા આપણી પોતાની મેટ્રિક પસંદગીઓ દ્વારા આપણને ગેરમાર્ગે દોરતા હોય છે. પ્રશ્ન એ છે કે શું આપણે આગામી સરપ્રાઈઝ આવતા જોઈશું. અત્યારે, અમે નહીં કરીએ.

Source link

આ બ્લોગનું શીર્ષક છે: તમારી ઇવલ્સ વિલ બ્રેક એન્ડ યુ વોન્ટ સી ઇટ કમિંગ

Leave a Reply Cancel reply

Poco X8 Pro અને X8 Pro Maxની ભારતમાં કિંમત રૂ. 32999 સાથે 9000mah બેટરી 100W ચાર્જિંગ રૂ. 3000 ડિસ્કાઉન્ટ સેલ ઓફર વધુ

IPL 2026: વૈભવ સૂર્યવંશીએ ઇતિહાસ રચ્યો, પ્રથમ ભારતીય ખેલાડી બન્યો…

બૉલીવુડનો લકી ડે 19મી મે: જ્યારે બૉક્સ ઑફિસ આ 5 ફિલ્મોની ગર્જનાથી ગુંજતી હતી, ત્યારે પ્રીતિ ઝિન્ટા ચર્ચામાં હતી.

इंस्टाग्राम एल्गोरिथम अपडेट 05/04/2026 को दोबारा पोस्ट की गई सामग्री को हतोत्साहित करता है

Mahavatar Narasimha’s spectacular run is rewriting box-office history!

Australians in high demand in IPL because of ‘championship DNA’: Sanjay Manjrekar

Best Laptops Under Rs 30000 in India 2025 SSD Windows 11 8GB RAM HP Lenovo Asus Acer More

Poco X8 Pro અને X8 Pro Maxની ભારતમાં કિંમત રૂ. 32999 સાથે 9000mah બેટરી 100W ચાર્જિંગ રૂ. 3000 ડિસ્કાઉન્ટ સેલ ઓફર વધુ

करीम ने 08/28/2015 को रिम से एक सांस्कृतिक व्यंग्य उछाला

Dell 15 AI Powered Laptop India Launch Price Features Intel Core Ultra 2 Series Arrow Lake Specifications Details

Rajasthan Royals Sale: Why Kal Somani Pulled Out Of Rs 15,600 Crore Deal

Poco X8 Pro અને X8 Pro Maxની ભારતમાં કિંમત રૂ. 32999 સાથે 9000mah બેટરી 100W ચાર્જિંગ રૂ. 3000 ડિસ્કાઉન્ટ સેલ ઓફર વધુ

IPL 2026: વૈભવ સૂર્યવંશીએ ઇતિહાસ રચ્યો, પ્રથમ ભારતીય ખેલાડી બન્યો…

इंस्टाग्राम एल्गोरिथम अपडेट 05/04/2026 को दोबारा पोस्ट की गई सामग्री को हतोत्साहित करता है

Mahavatar Narasimha’s spectacular run is rewriting box-office history!

Australians in high demand in IPL because of ‘championship DNA’: Sanjay Manjrekar

Poco X8 Pro અને X8 Pro Maxની ભારતમાં કિંમત રૂ. 32999 સાથે 9000mah બેટરી 100W ચાર્જિંગ રૂ. 3000 ડિસ્કાઉન્ટ સેલ ઓફર વધુ

करीम ने 08/28/2015 को रिम से एक सांस्कृतिक व्यंग्य उछाला

Dell 15 AI Powered Laptop India Launch Price Features Intel Core Ultra 2 Series Arrow Lake Specifications Details

इंस्टाग्राम एल्गोरिथम अपडेट 05/04/2026 को दोबारा पोस्ट की गई सामग्री को हतोत्साहित करता है

Mahavatar Narasimha’s spectacular run is rewriting box-office history!

Australians in high demand in IPL because of ‘championship DNA’: Sanjay Manjrekar

આ બ્લોગનું શીર્ષક છે: તમારી ઇવલ્સ વિલ બ્રેક એન્ડ યુ વોન્ટ સી ઇટ કમિંગ

Related Articles

Leave a Reply Cancel reply