اصول ساخت سیستم های AI مدل-آگنوستیک


نویسنده (ها): جاستین تروگمن

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

در حالی که مدلهای هوش مصنوعی فردی بر عناوین حاکم هستند ، توجه اغلب از جایی که پیشرفت واقعی اتفاق می افتد از دست می رود: سیستم هایی که این مدل ها را به کار می گیرند. هر نسخه جدید نوید درک ظریف تر ، استدلال عمیق تر ، درک غنی تر را می دهد – اما قابلیت ها به تنهایی صنایع را جابجا نمی کنند. این معماری است که به دور آنها می پیچد ، لایه ارکستراسیون که می داند چه موقع و چگونه از آنها استفاده می کند ، این پتانسیل خام را به هوش کاربردی تبدیل می کند.

“من فکر می کنم در دراز مدت ، بیشترین ارزش از خود مدل های بنیاد حاصل نمی شود ، بلکه از سیستم هایی که می توانند به طور هوشمندانه مدل های بنیاد را صدا کنند.” – اندرو نگ

موج بعدی پیشرفت های هوش مصنوعی از شرط بندی در مدل مناسب ناشی نمی شود. آنها از سیستم های ساختمان می آیند که می توانند به طور مداوم بهترین مدل را برای آن ادغام کنند کار – هر چه این مدل باشد ، و هر زمان که برسد.

درک بلوک های ساختمانی مدل های AI

قبل از طراحی هر سیستم مدل-آگنوستیک ، درک این نکته مهم است که در واقع به یک مدل می رود. مدل های AI فقط موجودات مستقل نیستند – آنها در لایه هایی ساخته شده اند که هر یک از آنها ابعاد متفاوتی از توانایی دارند.

شما به طور معمول با یک معماری پایه شروع می کنید. امروزه اکثر مدل ها – به ویژه مدل هایی که متن ، استفاده از ابزار یا رفتار عامل خودمختار را کنترل می کنند – مبتنی بر ترانسفورماتورها هستند. این طرح های اساسی شبکه عصبی هستند که مدل های زبان مدرن را امکان پذیر می کنند. اگر در حال کار با تولید بصری ، مانند تصاویر یا فیلم هستید ، به احتمال زیاد با مدل های انتشار ، که برای سنتز وفاداری بالا از طریق نویز و فرآیندهای دفع شده بهینه شده اند ، برخورد می کنید.

در بالای معماری ، مقیاس و دامنه را تعریف می کنید. یک مدل بزرگ زبان (LLM) به مدلی با ده ها میلیارد میلیارد (گاهی صدها میلیارد میلیارد) پارامترها اشاره دارد و قابلیت های گسترده و عمومی را در بین کارها امکان پذیر می کند. یک مدل زبان کوچک (SLM) یک نسخه مقیاس پایین است-سبک تر ، سریعتر و اغلب برای استقرار لبه یا نقش های خاص استفاده می شود که در آن کارایی محاسبات بیش از تطبیق پذیری اهمیت دارد.

پس از داشتن مدل پایه خود ، می توانید آن را از طریق آموزش پس از آموزش ، متناسب با دامنه ها یا رفتارهای خاص ، که معمولاً به عنوان تنظیم دقیق گفته می شود ، تنظیم کنید. تنظیم دقیق به مدلی که در داده های عمومی آموزش داده می شود ، به تخصص در قانون ، مراقبت های بهداشتی ، امور مالی یا هر منطقه دیگری که درک ظریف در آن بسیار مهم است ، می دهد. همچنین این است که چگونه رفتارهای آموزش و استفاده از ابزار اغلب تقویت می شوند.

از آنجا ، مدل ها را می توان با شیوه های معماری یا تکنیک های زمان اجرا گسترش داد. یک مدل ممکن است ترکیبی از متخصصان (MOE) را اتخاذ کند ، و نمایش داده شدگان را به صورت پویا به زیر شبکه های مختلف بر اساس کار انجام دهد. یا ممکن است دارای قابلیت های استدلال پیشرفته ، مانند فوریت های زنجیره ای ، اجرای منطق چند مرحله ای یا حتی چارچوب های برنامه ریزی ساختاری باشد. این قابلیت ها به مدل اجازه می دهد تا فراتر از خروجی های سطح باشد و شروع به مشارکت در حل مسئله عمدی و فرآیند محور کند.

سرانجام ، شما قابلیت های تخصصی را در بالا لایه بندی کرده اید. یک مدل ممکن است چند حالته باشد ، به این معنی که در متن ، تصویر و ورودی های صوتی در حال پردازش و تولید است. این ممکن است معماری های مختلف تولیدی – مانند ترانسفورماتورها برای متن و انتشار برای تصاویر – را برای رسیدگی به روشهای متنوع خروجی ترکیب کند. این لایه ها در انزوا وجود ندارند – آنها ترکیب می شوند. و درک چگونگی جمع آوری آنها برای سیستم های ساختمانی که می دانند از چه نوع مدل استفاده می کنند ، کجا و چرا است.

طرح هایی برای ساخت معماری سازگار با مدل سازگار

طراحی یک سیستم مدل-آگنوستیک به معنای ساختمان برای تکامل مداوم است. مدل ها تغییر خواهند کرد. قابلیت ها تغییر خواهد کرد. زیرساخت های شما باید بدون نیاز به بازسازی هر بار که چیز جدیدی به وجود می آید ، ادامه یابد.

اصل اول جدا کردن منطق از استنباط است. این به معنای جدا کردن تعریف یک کار از مدلی است که آن را اجرا می کند. سیستم شما باید وظیفه ای را که باید انجام شود درک کند – بدون پخت و پز در فرضیات مربوط به نحوه انجام آن. این انتخاب – چه مدلی برای استفاده از آن کار – باید انتزاع شود تا بتوانید بدون بازنویسی منطق سیستم ، بین مدل ها تغییر دهید.

بسیاری از ارائه دهندگان استنتاج مدرن بر روی استاندارد API سازگار با OpenAI (به عنوان مثال ، OpenAi ، Anthropic ، Groq ، Huggingface و دیگران) تراز شده اند که باعث می شود ساخت سیستم هایی که می توانند بدون تغییر زیرساخت های اطراف ، به طور انعطاف پذیر تغییر کنند. طراحی پیرامون این استاندارد به اطمینان از اینکه سیستم شما با رشد اکوسیستم قابل حمل و سازگار است ، کمک می کند.

این لایه از انتزاع است که طراحی مدل واقعی-آگنوستیک را امکان پذیر می کند-به سیستم شما امکان تکامل ، سازگاری و مقیاس را می دهد بدون اینکه به هر ارائه دهنده یا اصل و نسب الگوی مجزا لنگر بزند.

اصل بعدی درمان مدل ها به عنوان متخصص است ، نه ژنرالیست. هر مدل نقاط قوت خاص خود را دارد-برخی در برنامه ریزی بهتر هستند ، برخی دیگر در خلاقیت ، برخی از استدلال و برخی دیگر با سرعت یا استنتاج کم هزینه. سیستم شما باید برای هدایت وظایف به مدلی که برای رسیدگی به آن مناسب است ، طراحی شود. این ممکن است به معنای اختصاص مدلهای خاص به کارکردهای خاص یا طراحی عوامل با مدل های بهینه شده برای نقشهای اختصاص یافته خود در یک سیستم چند عامل باشد. به عنوان مثال ، یک برنامه ریز سریع و کارآمد ممکن است از یک مدل استدلال کوچک استفاده کند. یک نویسنده یا ژنراتور محتوا ممکن است از یک بسیار بیانگر استفاده کند LLM؛ یک عامل بررسی واقعیت ممکن است از یک مدل تحت اللفظی تر با واریانس کمتری در خروجی استفاده کند.

این که آیا این کار به طور مستقیم به مدل ها انجام می شود یا آنها را به نمایندگان با پشته های مدل ساخته شده واگذار می کند ، این رویکرد اذعان می کند که هیچ مدل واحدی نمی تواند همه کارها را به خوبی انجام دهد-و این که سیستم های بالاترین عملکردی به طرز هوشمندانه وظایف را به روش هایی که به نقاط قوت منحصر به فرد هر مدل احترام می گذارند و از آن استفاده می کنند.

مدولار به معنای سیستم های ساختمانی است که در آن هر مؤلفه می تواند به طور مستقل تعویض یا به روز شود. این که آیا شما با یک گردش کار ، یک سیستم چند عامل یا چیزی کاملاً سفارشی روبرو هستید ، اصل یکسان باقی می ماند: هیچ مؤلفه ای نباید برای بقیه سیستم اصطکاک ایجاد کند.

هنگام برنامه ریزی یک ماژول – هرچه عملکرد یا مسئولیت باشد – باید در انزوا قابل مصرف باشد و بدون اختلال در پایین دست قابل تعویض باشد. این به سیستم شما اجازه می دهد تا به جای ظهور ابزارها و مدل های جدید ، به تدریج تکامل یابد ، نه اینکه مجبور به بازنویسی عمده فروشی فقط برای ادغام چیزهای بهتر شود.

اصل نهایی مشاهده است. اگر نمی توانید اندازه گیری کنید که یک مدل در متن چقدر خوب عمل می کند ، نمی توانید تصمیمات آگاهانه ای در مورد زمان نگه داشتن آن ، جایگزین کردن آن یا تنظیم مجدد نحوه استفاده از آن بگیرید. عملکرد مدل باید به عنوان یک سیگنال زنده رفتار شود-نه یک معیار یک بار.

این بدان معناست که ردیابی معیارهایی مانند تأخیر ، هزینه ، راندمان توکن و کیفیت خروجی در سطح سیستم ، نه فقط در طول اجرای. آیا یک جایگزین ارزان تر تولید نتایج قابل مقایسه در زمینه های خاص است؟ آیا عوامل استدلال در بارهای خاصی خطاهای مداوم ایجاد می کنند؟

Telemetry همان چیزی است که بررسی های روده را به تصمیمات داده محور تبدیل می کند. این همان چیزی است که به شما اعتماد به نفس می بخشد – و شواهدی برای توجیه توجیه هنگامی که یک تغییر در واقع باعث بهتر شدن اوضاع می شود.

طراحی سیستم ها از این طریق مرحله را تعیین می کند – اما در واقع انتخاب مدل مناسب برای هر نقش ، نیاز به ارزیابی دقیق دارد ، نه حدس و گمان.

مدل های ارزیابی و آزمایش برای تناسب

ساختن یک سیستم مدولار ، مدل-آگنوستیک فقط در صورتی که شما یک روش واضح و ساختاری برای ارزیابی کدام مدل تعلق داشته باشد ، پرداخت می کند. این در مورد یافتن مدل مناسب برای هر عملکرد خاص در سیستم شماست. این امر مستلزم حرکت فراتر از معیارهای عمومی است و به بررسی چگونگی رفتار مدل ها در متن شما ، تحت محدودیت های شما می پردازیم.

با ارزیابی قوام خروجی شروع کنید. مدلی که در خلاء عملکرد خوبی دارد اما نتایج ناپایدار یا توهم را تحت فشار تولید می کند ، در تولید قابل دوام نیست. شما فقط در حال آزمایش درستی نیستید – شما ارزیابی می کنید که آیا این مدل می تواند به طور قابل پیش بینی در ورودی های مشابه رفتار کند و در موارد لبه ای به طرز فجیعی تخریب شود.

در مرحله بعد ، عملکرد را در زمینه سیستم خود از طریق آزمایش A/B ارزیابی کنید. مدل های مبادله در جریان جریان کاربر واقعی و گردش کار. آیا یک مدل جدید نرخ موفقیت کار را بهبود می بخشد؟ آیا این باعث کاهش ضربات یا سرعت بخشیدن به زمان تکمیل می شود؟ آزمایش در سطح سیستم این است که چگونه می توانید معاملات عملکردی را نشان دهید که در اعلان ها یا معیارهای جدا شده قابل مشاهده نیست.

یک ابزار مفید برای اجرای این نوع ارزیابی ها است فسق، یک چارچوب منبع باز برای آزمایش سیستماتیک Promptions ، عوامل و گردش کار RAG. این امکان را به شما می دهد تا موارد تست را تعریف کنید ، خروجی های مدل را به صورت جانبی مقایسه کنید و انتظارات را در ارائه دهندگان مختلف ادعا کنید. این کمک می کند تا ارزیابی مدل به یک فرآیند قابل تکرار و نه یک تمرین موقت تبدیل شود.

هر ارزیابی جهانی نیست – برخی بستگی به قابلیت های خاص سیستم هوش مصنوعی شما برای پشتیبانی دارد. دو حوزه که اغلب نیاز به آزمایش هدفمند دارند ، استفاده از ابزار و عملکرد استدلال است.

اگر سیستم هوش مصنوعی شما حول فراخوانی ابزار می چرخد ​​، مهم است که ارزیابی کنید که یک مدل به خوبی از ابزار صفر استفاده می کند. آیا می تواند به درستی تماس ها را قالب بندی کند؟ آیا به ساختارهای پارامتر احترام می گذارد؟ آیا می تواند حالت را در تماس های زنجیره ای حفظ کند؟ برخی از مدل ها برای تعامل ساختار یافته بهینه شده اند ، در حالی که برخی دیگر-علی رغم اینکه در نسل آزاد قوی هستند-در محیط هایی که نیاز به دقت و قوام دارند ، مبارزه می کنند.

برای سیستمهایی که به تصمیم گیری پیچیده بستگی دارند ، عملکرد استدلال به یک محور مهم تبدیل می شود. آیا این مدل می تواند از یک فکر زنجیره ای پیروی کند؟ مشکل را در زیر مجموعه ها تجزیه کنید؟ اطلاعات متناقض را حل کنید؟ این ارزیابی ها در هنگام آینه کاری واقعی شما مفید هستند-نه وقتی که از معیارهای استدلال انتزاعی که منعکس کننده خواسته های دنیای واقعی نیست ، کشیده شوند.

ارزیابی قابلیت های یک مدل فقط نیمی از تصویر است. هنگامی که یک مدل از نظر عملکردی قابل استفاده است ، سوال بعدی این است: آیا سیستم شما می تواند آن را به طور کارآمد در تولید اجرا کند؟

با تأخیر استنباط شروع کنید. برخی از مدل ها بر اساس معماری یا رفتار نسل خود ذاتاً سریعتر از سایرین هستند. اما به همان اندازه مهم است که در آن و چگونه مدل میزبانی می شود – ارائه دهندگان مختلف ، زمان اجرا و پشته های سخت افزاری می توانند به طور قابل توجهی بر سرعت و پاسخگویی تأثیر بگذارند.

سپس استفاده از توکن و راندمان هزینه را در نظر بگیرید. برخی از مدل ها به طور پیش فرض بیشتر لفظ هستند ، یا نشانه های بیشتری را برای رسیدن به یک پاسخ معنی دار می گیرند. حتی اگر مدل عملکرد خوبی داشته باشد ، استفاده از توکن ناکارآمد می تواند در مقیاس به هزینه های قابل توجهی تجمع یابد.

این واقعیت های عملیاتی تعیین نمی کنند که کدام مدل از توانایی ترین است – اما آنها اغلب تعیین می کنند که کدام یک در واقع قابل استقرار است.

سرعت توسعه مدل در حال کند شدن نیست – این تسریع است. اما تعقیب آخرین نسخه به سازمان شما حاشیه ای نمی بخشد. مزیت واقعی در سیستم های ساختمانی نهفته است که می توانند هر آنچه را که بعدی می آید ، انعطاف پذیر ، سازگار و ادغام کنند.

سیستم های مدل آگنوستیک مربوط به شرط بندی های محافظت نیست-آنها در مورد ساخت بهتر هستند. آنها به شما این امکان را می دهند که بدون بازنویسی پشته خود در هر سه ماه ، به طور مداوم بهترین ابزار را برای هر کار ارزیابی و اتخاذ کنید. آنها از آزمایش ، تخصص و به روزرسانی های مدولار پشتیبانی می کنند – همه بدون شکستن آنچه در حال حاضر کار می کند.

در دراز مدت ، هوش سیستم شما تعریف نمی شود که کدام مدل را امروز انتخاب کرده اید – با توانایی آن در سازگاری مداوم و ادغام مدل مناسب با ظهور مدل های جدید تعریف می شود.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/l/principles-for-building-model-agnostic-ai-systems