بررسی طبقه بندی DNA با توالی یابی نسل بعدی (NGS) و یادگیری ماشینی


نویسنده(های): سورادیپ پال

در ابتدا منتشر شد به سمت هوش مصنوعی.

باز کردن بینش در توالی های DNA با استفاده از یادگیری ماشینی و تکنیک های بیوانفورماتیک

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

DNA اغلب به عنوان طرح اولیه زندگی توصیف می شود که دستورالعمل های ژنتیکی را برای هر موجود زنده رمزگذاری می کند. اما خواندن و تفسیر این دستورالعمل ها نیازمند ابزارهای پیشرفته ای است. در سال‌های اخیر، توالی‌یابی نسل بعدی (NGS) با ایجاد امکان رمزگشایی توالی‌های DNA در مقیاسی بی‌سابقه، انقلابی در این زمینه ایجاد کرده است.

در این راهنما، ما به یک پروژه بیوانفورماتیک شگفت‌انگیز شیرجه می‌زنیم. ما از داده‌های NGS برای طبقه‌بندی توالی‌های DNA و شناسایی نواحی پروموتر استفاده خواهیم کرد – نواحی کلیدی در DNA که شروع کننده هستند. ژن رونویسی با استفاده از یادگیری ماشینی، ما این توالی ها را به قالبی مناسب برای الگوریتم ها تبدیل می کنیم و عملکرد آنها را با هم مقایسه می کنیم.

آماده کاوش در دنیای طبقه بندی DNA هستید؟

قبل از اینکه بتوانیم در یادگیری ماشینی غوطه ور شویم، به داده نیاز داریم. در اینجا نحوه بارگذاری a مجموعه داده توالی های DNA برای تجزیه و تحلیل ما

#واردات مجموعه داده از UCI repositoryurl = “https://archive.ics.uci.edu/ml/machine-learning-databases/molecular-biology/promoter-ژن-sequences/promoters.data”names = [“Class”, “id”, “Sequence”]data = pd.read_csv(url, names=names)data.head()

این مجموعه داده شامل توالی های DNA است که با “+” یا “-” برای نشان دادن مناطق پروموتر یا غیر محرک برچسب گذاری شده اند. ما شغل آموزش یک طبقه بندی کننده برای پیش بینی این برچسب ها بر اساس داده های توالی است.

توالی های DNA ما به صورت رشته ای ذخیره می شوند، اما مدل های یادگیری ماشینی به ورودی عددی نیاز دارند. بیایید هر نوکلئوتید را تبدیل کنیم (A, C, G,… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/exploring-dna-classification-with-next-generation-sequencing-ngs-and-machine-learning