پل زدن AI نمادین و یادگیری عمیق: چگونه نمودارهای دانش باعث انقلابی در Resnets می شوند


نویسنده (ها): جیتش پراساد گوراو

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

هنگامی که RESNET در سال 2015 چشم انداز رایانه را متحول کرد ، مشکل شیب ناپدید شده را که شبکه های عصبی عمیق را گرفتار کرد ، حل کرد. امروز ، یک انقلاب جدید در حال انجام است: محققان در حال کشف این موضوع هستند که با تزریق رزنت ها با دانش ساختاری از نمودارها ، می توانیم سیستم های هوش مصنوعی ایجاد کنیم که نه تنها می بینند بلکه روابط را نیز درک می کنند ، دلیل در مورد زمینه و تصمیمات آنها را توضیح می دهند.

این همگرایی استدلال نمادین با یادگیری عمیق بهبود دقت در 10-15 ٪ در کارهای استدلال بصری و در عین حال بهبود چشمگیر تفسیر مدل است.

این ادغام به محدودیت اساسی رویکردهای عصبی خالص می پردازد: در حالی که Resnets در تشخیص الگوی برتری دارد ، آنها فاقد توانایی استدلال صریح در مورد روابط و زمینه هستند. در همین حال ، نمودارهای دانش روابط معنایی غنی را رمزگذاری می کنند اما با داده های ادراکی خام مبارزه می کنند. با ترکیب این نقاط قوت مکمل ، محققان کارنگی ملون ، ناور هوش مصنوعی و سایر موسسات پیشرو در درک صحنه ، تصویربرداری پزشکی و رانندگی خودمختار به موفقیت رسیده اند.

معماری اطلاعات: چگونه نمودارها شبکه های باقیمانده را تقویت می کنند

دانش با نمودار دانش نشان دهنده تغییر پارادایم در نحوه طراحی معماری های عصبی است. این سیستم ها به جای درمان ویژگی های بصری به عنوان الگوهای جدا شده ، دانش ساختاری را مستقیماً در فرایند یادگیری قرار می دهند. ادغام در چندین سطح رخ می دهد: استخراج ویژگی با هدایت روابط معنایی ، مکانیسم های توجه که توسط ساختارهای نمودار آگاه شده است ، و لایه های استدلال که پیش بینی های عصبی را در برابر محدودیت های نمادین تأیید می کنند.

شکل 1: معماری Resnet با دانش دانش

پل زدن AI نمادین و یادگیری عمیق: چگونه نمودارهای دانش باعث انقلابی در Resnets می شوند

در نظر بگیرید که چگونه یک Resnet استاندارد تصویری از صحنه خیابان را پردازش می کند. این اتومبیل ، عابران پیاده و چراغ راهنمایی را به عنوان اشیاء جداگانه از طریق آن مشخص می کند لایه های حلقویبشر یک نسخه پیشرفته دانش فراتر می رود: می فهمد که اتومبیل باید در جاده ها باشد ، عابران پیاده از متقاطع استفاده می کنند و چراغ راهنمایی حاکم بر حرکت وسیله نقلیه است.

f (x) = gcn (x) + x

جایی که شبکه Convolutional Graph (GCN) اطلاعات رابطه ای را پردازش می کند در حالی که اتصالات باقیمانده ویژگی های بصری را حفظ می کنند.

سه استراتژی اصلی ادغام پدید آمده است. رویکردهای فیوژن اولیه دانش را در مرحله ورودی تزریق می کند ، و قبل از پردازش ، تعبیه های موجودیت را با ویژگی های تصویر جمع می کند. روشهای فیوژن دیررس استدلال نمادین را برای اصلاح پیش بینی های عصبی پس از آن اعمال می کنند استخراج ویژگیبشر ادغام مبتنی بر توجه ، پیشرفته ترین رویکرد ، جریان اطلاعات دو طرفه بین روشهای بصری و نمادین را امکان پذیر می کند.

a = softmax (q_kg × k_cnn^t / √d_k)

جایی که نمایش داده های نمودار دانش در ویژگی های بصری مربوطه شرکت می کنند.

پیشرفت های پیشرفته ای که چشم انداز رایانه را تغییر می دهد

سال 2024 نقطه عطفی برای سیستم های دید با نمودار دانش دانش بود. در CVPR 2024 ، چارچوب Hiker-SGG از دانشگاه کارنگی ملون استحکام بی سابقه ای را در تولید نمودار صحنه نشان داد و عملکرد را حتی تحت فساد های شدید تصویر حفظ کرد. این سیستم از ستون فقرات RESNET که با ساختارهای دانش سلسله مراتبی تقویت شده است ، استفاده می کند و به دقت 19.4 ٪ در تشخیص نمودار صحنه در فراخوان@20 ، در مقایسه با 11.4 ٪ برای روش های پایه.

شکل 2: مقایسه عملکرد در روش ها

شاید مهمترین پیشرفت از EGTR Naver AI (استخراج نمودار از ترانسفورماتور) ، یک نامزد بهترین مقاله CVPR 2024 باشد. EGTR با ترکیب ستون فقرات RESNET-50 با معماری ترانسفورماتور برای استخراج نمودار صحنه ، عملکرد پیشرفته ای را در ژنوم بصری و تصویر باز V6 به دست آورد مجموعه داده هابشر

ساخت اولین resnet با دانش خود

بیایید یک مثال عملی را با ترکیب RESNET با شبکه های عصبی نمودار برای طبقه بندی پیشرفته تصویر پیاده سازی کنیم. ما از هندسی Pytorch برای انجام عملیات نمودار و یک Resnet از قبل آموزش داده شده به عنوان ستون فقرات بصری خود استفاده خواهیم کرد.

import torch
import torch.nn as nn
from torchvision.models import resnet50
from torch_geometric.nn import GCNConv, global_mean_pool
from torch_geometric.data import Data, Batch
class KnowledgeGraphResNet(nn.Module):
def __init__(self, num_classes=1000, graph_input_dim=768, knowledge_graph=None):
super().__init__()
# Visual backbone - ResNet50 without final FC layer
self.resnet = resnet50(pretrained=True)
self.resnet_features = nn.Sequential(*list(self.resnet.children())[:-1])

# Graph processing layers
self.graph_conv1 = GCNConv(graph_input_dim, 512)
self.graph_conv2 = GCNConv(512, 256)
self.graph_bn1 = nn.BatchNorm1d(512)
self.graph_bn2 = nn.BatchNorm1d(256)

# Attention mechanism for knowledge-visual fusion
self.attention = nn.MultiheadAttention(embed_dim=256, num_heads=8)

# Final classification with fused features
self.fusion_layer = nn.Linear(2048 + 256, 512)
self.dropout = nn.Dropout(0.5)
self.classifier = nn.Linear(512, num_classes)

# Store knowledge graph
self.knowledge_graph = knowledge_graph

def extract_relevant_knowledge(self, visual_features, batch_size):
"""Extract relevant subgraph based on visual context"""
if self.knowledge_graph is not None:
return self.knowledge_graph

# Create dummy graph data for illustration
x = torch.randn(batch_size, 10, 768)
edge_index = torch.tensor([[0,1,2,3,4,5,6,7,8,9],
[1,2,3,4,5,6,7,8,9,0]]).repeat(1, batch_size)
return Data(x=x.view(-1, 768), edge_index=edge_index)

def forward(self, images):
batch_size = images.size(0)

# Extract visual features
visual_features = self.resnet_features(images)
visual_features = visual_features.view(batch_size, -1)

# Get relevant knowledge subgraph
graph_data = self.extract_relevant_knowledge(visual_features, batch_size)

# Process knowledge graph
x, edge_index = graph_data.x, graph_data.edge_index
x = self.graph_conv1(x, edge_index)
x = torch.relu(self.graph_bn1(x))
x = self.graph_conv2(x, edge_index)
x = torch.relu(self.graph_bn2(x))

# Pool graph features
batch_idx = torch.arange(batch_size).repeat_interleave(10).to(x.device)
graph_features = global_mean_pool(x, batch_idx)

# Apply attention between visual and graph features
visual_query = visual_features.unsqueeze(1)
graph_keys = graph_features.unsqueeze(1)
attended_features, _ = self.attention(visual_query, graph_keys, graph_keys)
attended_features = attended_features.squeeze(1)

# Fuse features
combined = torch.cat([visual_features, attended_features], dim=1)
fused = torch.relu(self.fusion_layer(combined))
fused = self.dropout(fused)

# Final classification
output = self.classifier(fused)
return output

عملکردی که حجم صحبت می کند: معیارها و مقایسه ها

اعداد داستانی قانع کننده را بیان می کنند. نمودار r-cnn، ترکیب RESNET-101 با شبکه های حلقوی نمودار ، به دقت 31.6 ٪ در تشخیص نمودار صحنه در فراخوان@100 دست می یابد ، در مقایسه با 17.0 ٪ برای روشهای پایه-تقریباً دو برابر عملکرد.

معاملات تجاری روشن می شود: افزایش دانش دقت در هزینه سربار محاسباتی را بهبود می بخشد. با این حال ، بهینه سازی های اخیر در حال بسته شدن این شکاف است. تکنیک های کمیت در حالی که دقت را حفظ می کند ، اندازه مدل را 73 ٪ کاهش می دهد و ادغام Tensorrt استنباط Int8 را با حداقل از دست دادن کیفیت امکان پذیر می کند.

شکل 3: سرعت در مقابل دقت تجارت

تأثیر دنیای واقعی: از تصویربرداری پزشکی گرفته تا وسایل نقلیه خودمختار

کاربردهای عملی RESNET های پیشرفته دانش ، صنایع را تغییر می دهد. در تصویربرداری پزشکی ، این سیستم ها با ترکیب تجزیه و تحلیل بصری با هستی شناسی پزشکی به نتایج قابل توجهی می رسند. در دانشکده پزشکی استنفورد ، محققان RESNET را با نمودار دانش سیستم یکپارچه پزشکی (UMLS) یکپارچه کردند و ضمن کاهش داده های آموزش مورد نیاز 60 ٪ ، دقت تشخیص بیماری نادر را 40 ٪ بهبود می بخشند.

صنعت خودرو شاید قانع کننده ترین مورد استفاده را ارائه دهد. سیستم DSCENEKG Bosch صحنه های رانندگی را با ترکیب ویژگی های بصری Resnet با نمودارهای دانش معنایی ساخته شده از Nuscenes و مجموعه داده های Lyft پردازش می کند. این سیستم در پیش بینی موجودات ناشناخته 87 ٪ به دقت دست می یابد – برای دستیابی به سناریوهای غیر منتظره مانند مناطق ساختمانی یا وسایل نقلیه اضطراری بسیار مهم است.

شکل 4: سود عملکرد دامنه برنامه

برنامه های رباتیک نشان دهنده تطبیق پذیری این رویکرد است. چارچوب Robokg با رمزگذاری روابط بین اشیاء ، کارها و مهارت ها در یک نمودار دانش ، وظایف دستکاری را با دقت پیش بینی توالی عمل انجام می دهد.

پیمایش چالش ها در یکپارچه سازی غیرقانونی نمادین

با وجود نتایج چشمگیر ، ترکیب نمودارهای دانش با ResNets چالش های قابل توجهی را نشان می دهد. سربار محاسباتی یک نگرانی اصلی است ، با پردازش نمودار 15-25 ٪ به زمان استنتاج اضافه می شود. نیازهای حافظه به دلیل ذخیره ساختارهای نمودار و تعبیه تقریباً 30 ٪ افزایش می یابد ، اگرچه کار اخیر در بازنمایی های پراکنده و هرس نمودار پویا نوید در پرداختن به این محدودیت ها را نشان می دهد.

کسب دانش چالش دیگری را ایجاد می کند. ایجاد هستی شناسی خاص دامنه نیاز به ورودی گسترده متخصص دارد-نمودارهای دانش پزشکی اغلب برای توسعه و اعتبارسنجی 6 تا 12 ماه طول می کشد. استخراج دانش خودکار از متن با استفاده از متن NLP کمک می کند ، اما اطمینان از سازگاری و صحت در بین میلیون ها روابط دشوار است.

آینده هوش هیبریدی

با نگاهی به آینده ، چندین پیشرفت هیجان انگیز در حال تغییر شکل سیستم های دید دانش با دانش است. یادگیری نمودار پویا نشان دهنده یک مرز اصلی است ، که در آن مدل ها به صورت سازگار نمودارهای دانش را بر اساس مشاهدات بصری می سازند و اصلاح می کنند. وسایل نقلیه خودمختار را تصور کنید که به طور مداوم درک خود را از الگوهای ترافیکی و شرایط جاده به روز می کنند ، و بازنمایی دانش شخصی را برای زمینه های مختلف رانندگی ایجاد می کنند.

همگرایی با مدل های بزرگ زبان امکانات جدید را باز می کند. کار اخیر از مدل های بینایی زبان مانند کلیپ با نمودارهای دانش استفاده می کند ، سیستم هایی را قادر می سازد که می توانند در مورد تصاویر با استفاده از تصاویر دلیل بگیرند زبان طبیعی در حالی که درک آنها را در دانش ساخت یافته پایه گذاری می کند. این تلفیق سه گانه از بینایی ، زبان و دانش نوید توانایی های بی سابقه ای در درک بصری و استدلال می دهد.

شتاب سخت افزار به طور خاص برای شبکه های عصبی نمودار طراحی شده است. شرکت هایی مانند Graphcore و Sambanova در حال توسعه پردازنده هایی هستند که برای محاسبات نمودار نامنظم بهینه شده اند و به طور بالقوه شکاف عملکرد بین مدلهای استاندارد و دانش را از بین می برند. این شتاب دهنده های تخصصی می توانند در طی دو سال ، به همان سرعتی که CNN های سنتی را افزایش می دهند ، به سرعت در دانش خود ایجاد کنند.

نتیجه گیری: یک الگوی جدید برای چشم انداز هوشمند

RESNET های پیشرفته نمودار دانش بیش از پیشرفت افزایشی را نشان می دهند-آنها یک تغییر اساسی در نحوه نزدیک شدن به دید رایانه را نشان می دهند. با پل زدن استدلال نمادین با یادگیری عمیق، این سیستم ها به آنچه که هیچ یک از رویکردها نمی توانند به تنهایی انجام دهند دست می یابند: درک بصری قوی که در دانش دنیای واقعی پایه گذاری شده است ، با توانایی توضیح استدلال و تعمیم داده های آموزش آنها.

همگرایی مزایای ملموس را به همراه دارد: 10-15 ٪ بهبود دقت در کارهای استدلال پیچیده ، کاهش 40-60 ٪ در نیازهای داده های آموزش و تفسیر چشمگیر بهبود یافته است. در حالی که چالش ها در کارآیی محاسباتی و کسب دانش باقی مانده است ، مسیر مشخص است. همانطور که به سمت هوش عمومی مصنوعی حرکت می کنیم ، ادغام رویکردهای عصبی و نمادین ضروری خواهد بود.

برای پزشکان آماده برای کشف این مرز ، ابزارها و تکنیک ها به طور فزاینده ای در دسترس هستند. با اجرای ارائه شده شروع کنید ، با استراتژی های مختلف فیوژن آزمایش کنید و به اکوسیستم رو به رشد سیستم های بینایی پیشرفت دانش کمک کنید. پیشرفت بعدی در هوش مصنوعی ممکن است از یافتن راههای جدید برای ترکیب قدرت تشخیص الگوی شبکه های عصبی با استدلال ساختاری نمودارهای دانش ناشی شود. انقلاب آغاز شده است – آیا شما بخشی از آن خواهید بود؟

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/bridging-symbolic-ai-and-deep-learning-how-knowledge-graphs-are-revolutionizing-resnets