به گزارش پایگاه خبری خبرآنی به نقل از نیواطلس، سال گذشته دیپ مایند، زیر مجموعه آلفابت یک مخزن داده با دسترسی آزاد از ساختارهای سه بعدی صدها هزار پروتئین از جمله ۲۰ هزار پروتئین شناخته شده در بدن انسان را ارائه کرد.
پروتئین ها در حقیقت جور کش سلول های زنده هستند و تعدادی از فرایندهای ناشناخته زیست شناختی حیاتی را انجام می دهند. آنها از زنجیره آمینواسیدهایی تشکیل شده اند که به اشکال سه بعدی پیچیده درهم پیچیده شده اند و همین امر عملکرد آنها را تعیین می کند. ردیابی ساختارهای پروتئین برای درک فعالیت آنها، شیوه عملکرد آنها و شیوه ایجاد اشتباه در فعالیت آنها برای تحقیقات درباره موارد مختلف از جمله داروها و درمان های جدید گرفته تا بهبود محصولات کشاورزی و حفظ حیوانات کارآمد است.
البته ردیابی تعداد دقیق ساختارهای پروتئین براساس آمینواسیدهای تشکیل دهنده آن کار سختی است. این امر نیازمند قدرت رایانشی فوق العاده و ساعت های متمادی فعالیت انسانی است. این شرایط به عنوان چالش تا شدن پروتئین شناخته می شود. بنابراین پیشرفت در این زمینه طی دهه های قبل بسیار اندک بوده است.
اما هنگامیکه آلفابت سیستم هوش مصنوعی قدرتمند دیپ مایند را ایجاد کرد، امیدی برای حل چالش به وجود آمد. این سیستم در اصل روی ۱۰۰ هزار ساختار پروتئین شناخته شده آموزش دید. این سیستم توانایی پیش بینی ساختار میلیون ها پروتئین دیگر را یافت. با کمک دیپ مایند مدت زمان شناسایی این ساختار ها به جای چند ماه و سال به چند دقیقه یا ثانیه رسید.
در جولای ۲۰۲۱ میلادی نخستین مخزن «AlphaFold Protein Structure» به طور عمومی برای محققان ارائه شد. این مخزن در اصل شامل ۳۵۰ هزار ساختار پروتئین بود که حدود ۹۸.۵ درصد پروتئین های بدن انسان و همچنین پروتئین های موجود در مگس های میوه، موش ها، مخمر و باکتری ای کولای نیز جزو آن بودند.
این مخزن به حدود یک میلیون ساختار پروتئین از ۱۰ هزار گونه حیوان، گیاه، باکتری، قارچ و ارگانیسم های دیگر توسعه یافت.
اکنون دیپ مایند آپدیت جدیدی از مخزن را منتشر کرده که شامل حدود ۲۱۴ میلیون ساختار پروتئین مربوط به یک میلیون گونه است. این مخزن تقریبا شامل هرنوع پروتئین شناخته شده در علم است و کمک شایانی به تحقیقات درباره درمان بیماری، تولید واکسن، حفظ محیط زیست، مقابله با مقاومت در برابر آنتی بیوتیک و حتی آلودگی پلاستیکی نیز منجر می شود.
حجم کل مخزن داده ساختار پروتئین بیش از ۲۵ ترابایت است که از طریق google cloud public datasets قابل دانلود است.