نویسنده(های): سورادیپ پال
در ابتدا منتشر شد به سمت هوش مصنوعی.
باز کردن بینش در توالی های DNA با استفاده از یادگیری ماشینی و تکنیک های بیوانفورماتیک
این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.
DNA اغلب به عنوان طرح اولیه زندگی توصیف می شود که دستورالعمل های ژنتیکی را برای هر موجود زنده رمزگذاری می کند. اما خواندن و تفسیر این دستورالعمل ها نیازمند ابزارهای پیشرفته ای است. در سالهای اخیر، توالییابی نسل بعدی (NGS) با ایجاد امکان رمزگشایی توالیهای DNA در مقیاسی بیسابقه، انقلابی در این زمینه ایجاد کرده است.
در این راهنما، ما به یک پروژه بیوانفورماتیک شگفتانگیز شیرجه میزنیم. ما از دادههای NGS برای طبقهبندی توالیهای DNA و شناسایی نواحی پروموتر استفاده خواهیم کرد – نواحی کلیدی در DNA که شروع کننده هستند. ژن رونویسی با استفاده از یادگیری ماشینی، ما این توالی ها را به قالبی مناسب برای الگوریتم ها تبدیل می کنیم و عملکرد آنها را با هم مقایسه می کنیم.
آماده کاوش در دنیای طبقه بندی DNA هستید؟
قبل از اینکه بتوانیم در یادگیری ماشینی غوطه ور شویم، به داده نیاز داریم. در اینجا نحوه بارگذاری a مجموعه داده توالی های DNA برای تجزیه و تحلیل ما
#واردات مجموعه داده از UCI repositoryurl = “https://archive.ics.uci.edu/ml/machine-learning-databases/molecular-biology/promoter-ژن-sequences/promoters.data”names = [“Class”, “id”, “Sequence”]data = pd.read_csv(url, names=names)data.head()
این مجموعه داده شامل توالی های DNA است که با “+” یا “-” برای نشان دادن مناطق پروموتر یا غیر محرک برچسب گذاری شده اند. ما شغل آموزش یک طبقه بندی کننده برای پیش بینی این برچسب ها بر اساس داده های توالی است.
توالی های DNA ما به صورت رشته ای ذخیره می شوند، اما مدل های یادگیری ماشینی به ورودی عددی نیاز دارند. بیایید هر نوکلئوتید را تبدیل کنیم (A, C, G,… وبلاگ کامل را به صورت رایگان در Medium بخوانید.
منتشر شده از طریق به سمت هوش مصنوعی