कैसे कंप्यूटर जीवों की सहायता जीवन की गोपनीयता को क्रैक करें

एक बार तीन अरब अक्षरों वाले मानव जीनोम का अनुक्रम किया गया, हम एक नए "omics"जैविक अनुसंधान के युग वैज्ञानिक अब विभिन्न जीवों के जीनोम (सभी जीन) या प्रोट्योम (सभी प्रोटीन) को अनुक्रमित करने के लिए दौड़ रहे हैं - और इस प्रक्रिया में बड़ी मात्रा में डेटा संकलित कर रहे हैं

उदाहरण के लिए, एक वैज्ञानिक "ओमिक्स" उपकरण का उपयोग कर सकता है जैसे कि डीएनए सिक्वेंसिंग से यह पता चलेगा कि वायरल फ्लू के संक्रमण में कौन से मानव जीन प्रभावित हैं। लेकिन क्योंकि मानव जीनोम के पास कुल में कम से कम 25,000 जीन हैं, इस तरह के एक सरल परिदृश्य में भी जीन की संख्या हजारों में संभवतः बदल सकती है

यद्यपि जीन और प्रोटीन की पहचान और पहचान करने से उन्हें एक नाम और जगह मिलती है, लेकिन यह हमें नहीं बताती कि वे क्या करते हैं। हमें यह समझने की आवश्यकता है कि ये जीन, प्रोटीन और कैसे बीच में सभी सामान विभिन्न जैविक प्रक्रियाओं में बातचीत करें

आज, यहां तक ​​कि बुनियादी प्रयोगों में भी बड़ा आंकड़ा उत्पन्न होता है, और सबसे बड़ी चुनौतियों में से एक पृष्ठभूमि शोर से संबंधित परिणामों को अलग-थलग कर रहा है। कंप्यूटर हमें इस डेटा पहाड़ पर काबू पाने में मदद कर रहे हैं; लेकिन वे इसके अलावा एक कदम आगे भी जा सकते हैं, हमें वैज्ञानिक अवधारणाओं के साथ आने में और नई जैविक प्रक्रियाओं की व्याख्या करने में मदद कर सकते हैं। डेटा विज्ञान, संक्षेप में, अत्याधुनिक जैविक अनुसंधान सक्षम बनाता है

बचाव के लिए कंप्यूटर

कंप्यूटर बड़े डेटा सेटों को संभालने के लिए विशिष्ट रूप से योग्य हैं क्योंकि वे एक साथ विश्लेषण के लिए आवश्यक सभी महत्वपूर्ण स्थितियों का ट्रैक रख सकते हैं।


आंतरिक सदस्यता ग्राफिक


हालांकि वे मानव त्रुटियों को प्रदर्शित कर सकता है वे प्रोग्राम कर रहे हैं, कंप्यूटर कुशलतापूर्वक डेटा की बड़ी मात्रा से निपट सकते हैं और वे परिचित की ओर पक्षपाती नहीं हैं, क्योंकि मानव जांचकर्ता शायद हो सकते हैं

कंप्यूटर को प्रयोगात्मक डेटा सेटों में विशिष्ट पैटर्न के रूप में देखने के लिए भी सिखाया जा सकता है - एक अवधारणा को मशीन सीखना कहा जाता है, जो पहले 1950 में प्रस्तावित था, सबसे महत्वपूर्ण गणितज्ञ द्वारा एलन ट्यूरिंग। एक एल्गोरिथ्म जिसने डेटा सेटों के पैटर्न को सीखा है, तब नए डेटा के आधार पर भविष्यवाणियां करने के लिए कहा जा सकता है जिसे कभी भी इससे पहले कभी नहीं मिला है

मशीन सीखने ने जैविक शोध में क्रांति ला दी है क्योंकि अब हम बड़े डेटा सेट का उपयोग कर सकते हैं और अंतर्निहित जीव विज्ञान को समझने में मदद करने के लिए कंप्यूटर से पूछ सकते हैं।

मस्तिष्क प्रक्रियाओं का अनुकरण करने के लिए सोचने के लिए प्रशिक्षण कंप्यूटर

हमने एक दिलचस्प प्रकार की मशीन सीखने का उपयोग किया है, जिसे कृत्रिम तंत्रिका नेटवर्क (एएनएन) कहा जाता है, हमारे अपने प्रयोगशाला में। मस्तिष्क न्यूरॉन्स के अत्यधिक जुड़े हुए नेटवर्क हैं, जो तंत्रिका तारों के माध्यम से बिजली के दालों को भेजकर संवाद करते हैं। इसी प्रकार, एएनएन कंप्यूटर में न्यूरॉन्स के एक नेटवर्क को सिग्नल करता है क्योंकि वे न्यूरॉन्स के संकेतों के जवाब में बंद और बंद करते हैं।

एल्गोरिदम लागू करने से, जो वास्तविक न्यूरॉन्स की प्रक्रियाओं की नकल करते हैं, हम नेटवर्क को कई प्रकार की समस्याओं को हल करने के लिए सीख सकते हैं। Google अपने अब प्रसिद्ध के लिए शक्तिशाली एएनएन का उपयोग करता है दीप ड्रीम प्रोजेक्ट जहां कंप्यूटर वर्गीकृत कर सकते हैं और यहां तक ​​कि छवियां भी बना सकते हैं

हमारा समूह प्रतिरक्षा प्रणाली का लक्ष्य, के लक्ष्य के साथ है कैंसर के लिए नई चिकित्सा का पता लगाना। हमने एएनएन कॉम्प्युटेशनल मॉडल का इस्तेमाल करते हुए कम सतह प्रोटीन कोड का अध्ययन करने के लिए हमारी प्रतिरक्षा कोशिकाओं का निर्धारण करने के लिए उपयोग किया जाता है कि क्या कुछ हमारे शरीर के लिए विदेशी है और इस प्रकार हमला किया जाना चाहिए। यदि हम इस बारे में अधिक समझते हैं कि हमारे प्रतिरक्षा कोशिकाओं (जैसे टी-कोशिकाएं) सामान्य / स्व और असामान्य / विदेशी कोशिकाओं के बीच भेद करती हैं, तो हम बेहतर टीके और उपचार तैयार कर सकते हैं।

हमने वर्षों से शोधकर्ताओं द्वारा पहचाने जाने वाले हजारों प्रोटीन-कोड के सार्वजनिक रूप से उपलब्ध कैटलॉग भरे थे। हमने इस बड़े डेटा को दो में विभाजित किया है: स्वस्थ मानव कोशिकाओं से प्राप्त सामान्य आत्म-प्रोटीन कोड और वायरस, ट्यूमर और जीवाणु से उत्पन्न असामान्य प्रोटीन कोड। फिर हम अपनी प्रयोगशाला में विकसित एक कृत्रिम तंत्रिका नेटवर्क में बदल गए।

एएनएन में प्रोटीन-कोड को खिला जाने के बाद, एल्गोरिथ्म पहचानने में सक्षम था मौलिक मतभेद सामान्य और असामान्य प्रोटीन-कोड के बीच लोगों को इन प्रकार की जैविक घटनाओं का नज़रिया रखना मुश्किल होगा - बड़ी मात्रा में डेटा सेट में विश्लेषण करने के लिए हजारों प्रोटीन कोड का शाब्दिक अर्थ है। ये जटिल समस्याएं झेलने और नई जीव विज्ञान को परिभाषित करने के लिए एक मशीन लेता है

मशीन सीखने के माध्यम से पूर्वानुमान

जीव विज्ञान में मशीन सीखने का सबसे महत्वपूर्ण उपयोग बड़ी डेटा के आधार पर भविष्यवाणियों को बनाने में इसकी उपयोगिता है। कम्प्यूटर आधारित भविष्यवाणियां बड़े डेटा, परीक्षाओं की अवधारणाओं को समझ सकती हैं और कीमती समय और संसाधनों को बचा सकती हैं।

उदाहरण के लिए, टी-सेल जीव विज्ञान के हमारे क्षेत्र में, यह जानने के लिए कि कौन सा वायरल प्रोटीन-कोड लक्षित करने के लिए टीके और उपचार विकसित करने में महत्वपूर्ण है। लेकिन किसी भी दिए गए वायरस से बहुत सारे व्यक्तिगत प्रोटीन-कोड हैं जो यह बहुत महंगा है और प्रयोग करने के लिए प्रयोग करने में मुश्किल है।

इसके बजाय, हम कृत्रिम तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए मशीन को प्रोटीन-कोड के दो प्रकार के सभी महत्वपूर्ण जैव रासायनिक विशेषताओं को सीखने में प्रशिक्षित किया - सामान्य बनाम असामान्य। फिर हमने मॉडल को "भविष्यवाणी" करने के लिए कहा कि जो नए वायरल प्रोटीन कोड "असामान्य" श्रेणी के समान हैं और टी-कोशिकाओं द्वारा देखा जा सकता है और इस तरह प्रतिरक्षा प्रणाली हमने विभिन्न वायरस प्रोटीनों पर एएनएन मॉडल का परीक्षण किया है, जो पहले कभी नहीं पढ़ा गया है।

ज़रूर, एक मेहनती छात्र की तरह शिक्षक को खुश करने के लिए उत्सुक, तंत्रिका नेटवर्क इस वायरस के भीतर इस तरह के टी-सेल सक्रिय प्रोटीन कोड के अधिकांश की पहचान करने में सक्षम था। हमने प्रयोगात्मक रूप से एएनएन की भविष्यवाणियों की सटीकता को सत्यापित करने के लिए ध्वजांकित प्रोटीन कोड का परीक्षण भी किया है। इस तंत्रिका नेटवर्क मॉडल का उपयोग करके, एक वैज्ञानिक इस प्रकार कर सकता है तेजी से भविष्यवाणी एक हानिकारक वायरस से सभी महत्वपूर्ण लघु प्रोटीन-कोड और उन्हें व्यक्तिगत रूप से अनुमान लगाने और उनका परीक्षण करने के बजाय उपचार या एक टीका विकसित करने के लिए परीक्षण करें।

मशीन सीखना बुद्धिमानी से कार्यान्वित करना

लगातार शोधन, बड़ी डेटा विज्ञान और मशीन सीखने के लिए धन्यवाद किसी भी प्रकार के वैज्ञानिक अनुसंधान के लिए तेजी से अपरिहार्य बन रहे हैं। कंप्यूटरों को जीव विज्ञान में प्रशिक्षित और भविष्यवाणी करने की संभावनाएं लगभग अंतहीन हैं यह पता लगाने से कि बायोमार्कर का कौन सा संयोजन एक बीमारी का पता लगाने के लिए सर्वोत्तम क्यों है, यह जानने के लिए कि केवल क्यों कुछ रोगियों को एक विशेष कैंसर उपचार से लाभ होता है, कंप्यूटर का इस्तेमाल करने वाले खनन के बड़े डेटा सेट अनुसंधान के लिए एक महत्वपूर्ण मार्ग बन गए हैं।

बेशक, सीमाएं हैं बड़े डेटा विज्ञान के साथ सबसे बड़ी समस्या स्वयं डेटा है यदि -ऑमिक्स अध्ययनों से प्राप्त आंकड़ों से शुरू करने के लिए दोषपूर्ण है या खराब विज्ञान के आधार पर, मशीनों को खराब डेटा पर प्रशिक्षित किया जाएगा - जिससे खराब भविष्यवाणियां। छात्र शिक्षक के रूप में ही उतना ही अच्छा है

क्योंकि कंप्यूटर संवेदनशील नहीं हैं (अभी तक), वे पैटर्न के लिए अपनी तलाश में उनके साथ आ सकते हैं, भले ही कोई भी अस्तित्व में न हो, फिर भी खराब डेटा और गैर-उत्पादक विज्ञान को जन्म दे।

और कुछ शोधकर्ताओं ने कंप्यूटर के बारे में चिंताओं को उठाया है डेटा के ब्लैक बॉक्स उन वैज्ञानिकों के लिए जो उनकी तरफ से किए गए छेड़छाड़ और साजिशों को स्पष्ट रूप से नहीं समझते हैं।

इन समस्याओं के बावजूद, बड़े डेटा और मशीनों के लाभ वैज्ञानिक अनुसंधान में उन्हें बहुमूल्य भागीदारों बनाना जारी रखेंगे। मन में चेतावनियों के साथ, हम एक मशीन की आंखों के माध्यम से जीव विज्ञान को समझने के लिए विशिष्ट रूप से तैयार हैं।

के बारे में लेखकवार्तालाप

श्री कृष्णा, पीएचडी उम्मीदवार, जैविक डिजाइन, स्कूल ऑफ जैविक और हेल्थ सिस्टम इंजीनियरिंग, एरिजोना स्टेट यूनिवर्सिटी और डिएगो चॉवेल, एप्लाइड मैथमैटिक्स में पीएचडी स्टूडेंट, एरिजोना स्टेट यूनिवर्सिटी

यह आलेख मूलतः पर प्रकाशित हुआ था वार्तालाप। को पढ़िए मूल लेख.


संबंधित पुस्तक:

at इनरसेल्फ मार्केट और अमेज़न