Wednesday 6 December 2017

बहुपरत तंत्रिका नेट फॉरेक्स में न्यूरोड


विदेशी मुद्रा की भविष्यवाणी करने के लिए आवर्तक न्यूरल नेटवर्क का उपयोग करना यह पत्र अनुभवजन्य सबूत बताता है कि एक तंत्रिका नेटवर्क मॉडल विदेशी मुद्रा दरों की सांख्यिकीय विश्वसनीय भविष्यवाणी पर लागू होता है। समय श्रृंखला डेटा और चलती औसत जैसे तकनीकी संकेतक, मुद्रा विनिमय दर में आंदोलन के अंतर्निहित नियमों पर कब्जा करने के लिए तंत्रिका जाल को खिलाया जाता है। प्रशिक्षित आवर्तक तंत्रिका नेटवर्क ने अमेरिकी डॉलर और चार अन्य प्रमुख मुद्राओं, जापानी येन, स्विस फ्रैंक, ब्रिटिश पाउंड और यूरो के बीच विनिमय दर का अनुमान लगाया है। पूर्वानुमान गुणवत्ता के विभिन्न सांख्यिकीय अनुमान किए गए हैं। नतीजे वाले परिणाम दिखाते हैं, कि तंत्रिका नेटवर्क कई दृढ़ संकल्प के गुणांक के साथ पूर्वानुमान देने में सक्षम हैं, फिर भी 0.65 नहीं। रैलीयर और गैर-रेखीय सांख्यिकीय डेटा प्रीप्रोसेटिंग, जैसे कि कोलमोगोरोव-स्मिर्नोव परीक्षण और हर मुद्रा के लिए हर्स्ट एक्सपोनेंट की गणना और विश्लेषण किया गया था। मुख्य शब्द: तंत्रिका नेटवर्क, विदेशी विनिमय दर, सांख्यिकीय परीक्षण, हर्स्ट एक्सपोनेंट, कॉम्प्लेक्स सिस्टम थ्योरी फ़ॉरेक्स वित्तीय बाजारों का सबसे बड़ा और सबसे अधिक तरल है, जिसकी लगभग 1 ट्रिलियन हर दिन कारोबार करता है। यह वित्त के इस क्षेत्र के लिए गंभीर रुचि की ओर जाता है और स्पष्ट करता है कि विभिन्न कारणों से विदेशी मुद्रा पर कोई भी व्यापारी विनिमय दर का सटीक पूर्वानुमान करना चाहता है अधिकांश व्यापारियों ने पुराने फैशन पद्धतियों में मौलिक एक के संयोजन के साथ तकनीकी विश्लेषण के रूप में पूर्वानुमान की इस पारंपरिक विधि का उपयोग किया है। इस पत्र में हम न्यूरल नेटवर्क प्रौद्योगिकी पर आधारित न केवल तंत्रिका नेटवर्क पर आधारित बल्कि वित्तीय प्रणालियों के सिद्धांत और उसके विभिन्न प्रयोजनों के विश्लेषण के आधार पर वित्तीय समय श्रृंखला के विश्लेषण और पूर्वानुमान के लिए तंत्रिका नेटवर्क दृष्टिकोण विकसित करते हैं (मैन्टेग्ना एट अल। 2000 पीटर्स, 1996 ) और, विशेष रूप से, विदेशी मुद्रा के लिए सामान्य सांख्यिकीय विश्लेषण और जटिल प्रणालियों सिद्धांत के कुछ तरीकों के आधार पर हम तंत्रिका नेटवर्क की वास्तुकला और रणनीति की भविष्यवाणी की रणनीति तैयार कर रहे थे: आरएस-विश्लेषण, गैर-अक्षांश और अराजक गतिशीलता के तरीकों (मैन्टेग्ना एट अल। 2000 पीटर्स, 1996 )। वर्तमान पत्र में हम उन सभी का वर्णन नहीं करते हैं। हम यहां केवल कोल्मोगोरोव-स्मरनोव टेस्ट के परिणाम और आरएस-विश्लेषण के नतीजे पेश करते हैं। हालांकि हम इस बात पर बल देते हैं कि प्रारंभिक विश्लेषण ने तंत्रिका नेटवर्क के मापदंडों को अनुकूलित करने की अनुमति दी है, ताकि भविष्यवाणी की क्षितिज को निर्धारित किया जा सके और विभिन्न मुद्राओं की पूर्वानुमानित गुणवत्ता की तुलना कर सकें। नीचे हम पारंपरिक तरीकों से तंत्रिका नेटवर्क के फायदे से संबंधित कुछ टिप्पणियां देते हैं और अन्य लेखकों के तरीकों के साथ हमारे दृष्टिकोण की तुलना करते हैं सबसे पहले, तंत्रिका नेटवर्क विश्लेषण तकनीकी जानकारी के रूप में इनपुट जानकारी के प्रकार पर किसी भी सीमा का अनुमान नहीं लगाता है। यह समय श्रृंखला के संकेतक के रूप में हो सकता है, क्योंकि अन्य वित्तीय साधनों के व्यवहार के बारे में जानकारी। यह नींव के बिना नहीं है, न्यूरल नेटवर्क का इस्तेमाल संस्थागत निवेशकों (उदाहरण के लिए पेंशन फंड) द्वारा किया जाता है, जो बड़े पोर्टफोलियो के साथ सौदा करता है और जिसके लिए विभिन्न बाजारों के बीच संबंध आवश्यक हैं। दूसरा, तकनीकी विश्लेषण के विपरीत, जो आम सिफारिशों पर आधारित है, तंत्रिका नेटवर्क दिए गए समय-सारिणी, पूर्वानुमान की रणनीति के लिए, दिए गए वित्तीय साधन, संकेतक के लिए इष्टतम, और इष्टतम बनाने में सक्षम हैं। हमें यह याद दिलाना है कि वर्तमान अध्ययन में हमने विदेशी मुद्रा बाजार में केवल चयनित मुद्राओं की विनिमय दरों की भविष्यवाणी की थी। जैसा कि मुद्राओं से निपटने के लिए, हमने ब्रिटिश पाउंड, स्विस फ्रैंक, यूरो और जापानी येन को चुना। निम्नलिखित इस विकल्प को प्रेरित करते हैं: विदेशी मुद्रा पर व्यावहारिक रूप से सभी प्रमुख वॉल्यूम इस मुद्राओं के साथ बनाए जाते हैं हमें ध्यान दें कि बहुत सारे कागजात प्रकाशित किए गए थे, जहां ऐसी ही समस्याओं का अध्ययन किया गया है। (जिंगताओ याओ एट अल 2000 कास्टिग्लिओन, 2001 कुपरिन एट अल। 2001 ली एट अल। 1997 टीनो एट अल। 2001 मैकक्लुस्की, 1 99 3)। आइए हम उनमें से कुछ के परिणामों को संक्षेप में देखें (कैस्टिग्लिओन, 2001) में मूल्य वृद्धि की भविष्यवाणी के संकेत की समस्या का अध्ययन किया गया। एक विश्लेषण डेटा के रूप में ऐसे SampP500, Nasdaq100 और डो जोन्स जैसे सूचकांक लिया गया। अलग-अलग कॉन्फिगरेशनों के बहुपरत प्रतिेंद्रों को ले लिया गया है, जिसमें विभिन्न न्यूरॉन्स शामिल हैं। नतीजतन, 50 की तुलना में थोड़ा अधिक होने की संभावना के साथ कीमतों में बढ़ोतरी के संकेत के पूर्वानुमान की संभावना है, यानी थोड़ी बेहतर तो बस सिक्का पटकना। हम मानते हैं कि इस तरह के परिणाम व्यावहारिक दृष्टिकोण से अप्रासंगिक हैं और एक अकादमिक रुचि है। मल्टी-लेयर न्यूरल नेटवर्क एक पर्यवेक्षित सीखने की समस्या पर विचार करें जहां हमें लेबल प्रशिक्षण उदाहरण (x, y) तक पहुंच है। तंत्रिका नेटवर्क, hypotheses (x) के जटिल, गैर-रैखिक रूप को परिभाषित करने का एक तरीका देते हैं। मापदंडों डब्ल्यू, बी के साथ कि हम अपने डेटा के लिए फिट हो सकते हैं तंत्रिका नेटवर्क का वर्णन करने के लिए, हम सरलतम संभव तंत्रिका नेटवर्क का वर्णन करके शुरू करेंगे, जिसमें एक न्यूरॉन शामिल होगा। हम एक न्यूरॉन को निरूपित करने के लिए निम्नलिखित आरेख का उपयोग करेंगे: यह न्यूरॉन एक कम्प्यूटेशनल इकाई है जो इनपुट x1, x2, x3 (और 1 इंटरसेप्ट टर्म) के रूप में लेता है, और टेक्स्ट स्टाइल एच (एक्स) एफ (डब्ल्यूटीएक्स) एफ (योग 3 डब्ल्यू एक्सआई बी) जहां एफ पुनः मैपस्टो रे को सक्रियण फ़ंक्शन कहा जाता है। इन नोटों में, हम सी (सीडीओटी) को सिग्मोयॉइड फ़ंक्शन का चयन करेंगे: इस प्रकार, हमारे एकल न्यूरॉन को वास्तव में इनपुट-आउटपुट मैपिंग से मेल खाती है जो रिक्तिगत प्रतिगमन द्वारा परिभाषित होती है। यद्यपि ये नोट सिग्मोयॉइड फ़ंक्शन का प्रयोग करेंगे, यह ध्यान देने योग्य है कि च के लिए एक अन्य आम विकल्प हाइपरबॉलिक स्पर्शरेखा या टैन्ह, फ़ंक्शन है: हाल ही के अनुसंधान में एक अलग सक्रियण फ़ंक्शन पाया गया है, सुधारात्मक रैखिक फ़ंक्शन, अक्सर गहराई के लिए अभ्यास में बेहतर काम करता है तंत्रिका जाल। यह सक्रियण समारोह सिग्मोयॉइड और तन्ह से अलग है क्योंकि यह घिरा या निरंतर अलग-अलग नहीं है। सुधारात्मक रैखिक सक्रियण फ़ंक्शन द्वारा दिया गया है, यह सिग्मोओड, टैनह और सुधारात्मक रैखिक फ़ंक्शंस के भूखंड हैं: टैन्ह (जेड) फ़ंक्शन सिग्मॉइड का एक पुनर्विकल्पित संस्करण है, और इसकी आउटपुट रेंज -1,1 के बजाय -1.1 है । सुधारात्मक रैखिक फ़ंक्शंस टुकड़े-वार रैखिक और संतृप्त होता है जब 0 में इनपुट z कम होता है। ध्यान दें कि कुछ अन्य जगहों के विपरीत (ओपनक्लासरूम वीडियो, और सीएस 22 9 के कुछ हिस्सों सहित), हम यहां x01 के सम्मेलन का उपयोग नहीं कर रहे हैं । इसके बजाय, इंटरसेप्ट टर्म को पैरामीटर b से अलग से नियंत्रित किया जाता है। अंत में, एक पहचान जो बाद में उपयोगी हो सकती है: अगर एफ (जेड) 1 (1 एक्सपी (-Z)) सिग्मोयॉइड फ़ंक्शन है, तो इसके डेरिवेटिव एफ (जेड) एफ (जेड) (1-एफ (जेड)) द्वारा दिया गया है। (अगर च टैन फंक्शन है, तो इसके डेरिवेटिव को एफ (जेड) 1- (एफ (जेड)) 2 के द्वारा दिया जाता है।) सिग्मायॉइड (या टैन) फ़ंक्शन की परिभाषा का उपयोग करके आप खुद को प्राप्त कर सकते हैं। सुधारात्मक रैखिक फ़ंक्शन में ढाल 0 है जब z leq 0 और 1 अन्यथा। ढाल z0 पर अनिर्धारित है। हालांकि यह अभ्यास में समस्याओं का कारण नहीं है क्योंकि हम ऑप्टिमाइज़ेशन के दौरान कई प्रशिक्षण उदाहरणों की तुलना में ढाल का औसत है। तंत्रिका नेटवर्क मॉडल एक तंत्रिका नेटवर्क को एक साथ हमारे सरल न्यूरॉन्स के साथ हुक करके रखा जाता है, ताकि एक न्यूरॉन का उत्पादन दूसरे के इनपुट हो। उदाहरण के लिए, यहां एक छोटा तंत्रिका नेटवर्क है: इस आंकड़े में, हमने सर्कल का इस्तेमाल नेटवर्क पर इनपुट को भी दर्शाया है। 1 लेबल वाले हलकों को पूर्वाग्रह इकाइयां कहा जाता है और इंटरसेप्ट टर्म के अनुरूप है। नेटवर्क की बाईं ओर की परत को इनपुट परत कहा जाता है और सबसे ऊपर की परत आउटपुट परत (जो, इस उदाहरण में, केवल एक नोड है)। नोड्स की बीच की परत को छिपी परत कहा जाता है क्योंकि इसके मूल्यों को प्रशिक्षण सेट में नहीं देखा गया है हम यह भी कहते हैं कि हमारे उदाहरण तंत्रिका नेटवर्क में 3 इनपुट इकाइयां हैं (पूर्वाग्रह इकाई नहीं की जाती है), 3 छिपी हुई इकाइयां और 1 आउटपुट इकाई हम एनएल हमारे नेटवर्क में परतों की संख्या को निरूपित कर देंगे, इस प्रकार हमारे उदाहरण में nl3। हम एलएल के रूप में लेयर लेयर लेबल करते हैं इतना परत L1 इनपुट परत है, और परत एल आउटपुट परत है। हमारे तंत्रिका नेटवर्क के पैरामीटर (डब्ल्यू, बी) (डब्ल्यू, बी, डब्लू, बी) हैं। जहां हम लेयर एल में यूनिट जे में कनेक्शन के साथ जुड़े पैरामीटर (या वजन) को दर्शाने के लिए W लिखते हैं। और परत i1 में इकाई i (सूचकांक के आदेश को नोट करें।) इसके अलावा, बी मैं परत 1 में इकाई i से जुड़े पूर्वाग्रह है। इस प्रकार, हमारे उदाहरण में, हमारे पास डब्ल्यू री है और पुनः में डब्ल्यू ध्यान दें कि पूर्वाग्रह इकाइयों में इनपुट या कनेक्शन नहीं होते हैं, क्योंकि वे हमेशा मूल्य 1 का उत्पादन करते हैं। हम भी परत को l में नोडों की संख्या को दर्शाते हैं (पूर्वाग्रह इकाई नहीं की गणना)। हम परत i में यूनिट 1 की सक्रियण (अर्थ आउटपुट मान) को दर्शाने के लिए एक लिखेंगे I एल 1 के लिए हम i - th इनपुट को दर्शाने के लिए एक i xi का उपयोग भी करते हैं I मापदंडों की एक निश्चित सेटिंग को देखते हुए, बी हमारे तंत्रिका नेटवर्क एक अवधारणा को परिभाषित करता है h (x) जो वास्तविक संख्या को आउटपुट करता है। विशेष रूप से, यह तंत्रिका नेटवर्क का प्रतिनिधित्व करता है जो गणना द्वारा दी गई है: अगली कड़ी में, हम भी z I को लेयर l में यूनिट 1 में कुल भारित योगों को दर्शाते हैं। पूर्वाग्रह शब्द (उदाहरण के लिए टेक्स्टस्टाइल ज़ी राशि एन डब्ल्यू एक्सजे बी आई) सहित, ताकि एक आई एफ (जेड आई) ध्यान दें कि यह आसानी से एक अधिक कॉम्पैक्ट नोटेशन के लिए खुद को उधार देता है। विशेष रूप से, यदि हम एक्टिवेशन फ़ंक्शन एफ (सीडीओटी) को एक तत्व-वार फैशन में (यानी एफ (z1, z2, z3) f (z1), f (z2), f (z3)) में लागू करने के लिए बढ़ाते हैं, तो हम अधिक समीपवर्ती से ऊपर समीकरण लिख सकते हैं: हम इस कदम आगे प्रचार को कहते हैं। अधिक सामान्यतः, याद करते हुए कि हम इनपुट स्तर से मूल्यों को भी निरूपित करने के लिए एक्स का उपयोग करते हैं, फिर परत की सक्रियताओं को एक। हम परत l1 के सक्रियणों को एक के रूप में गणना कर सकते हैं: मैट्रिक्स में हमारे मापदंडों को व्यवस्थित करके और मैट्रिक्स-वेक्टर संचालन का उपयोग करके, हम अपने नेटवर्क में जल्दी से गणना करने के लिए तेजी से रेखीय बीजगणित पद्धति का लाभ उठा सकते हैं। हमने अभी तक एक उदाहरण तंत्रिका नेटवर्क पर ध्यान केंद्रित किया है, लेकिन एक अन्य आर्किटेक्चर (न्यूरॉन्स के बीच कनेक्टिविटी के पैटर्न) के साथ न्यूरल नेटवर्क भी बना सकता है, जिसमें कई छिपी हुई परतें शामिल हैं सबसे आम विकल्प एक टेक्स्टस्टाइल एनएल-प्लेयर नेटवर्क है जहां परत पाठ शैली 1 इनपुट परत है, परत पाठ शैली nl आउटपुट परत है, और प्रत्येक परत टेक्स्टस्टाइल l परत पाठ शैली l1 से जुड़ा हुआ है। इस सेटिंग में, नेटवर्क के आउटपुट की गणना करने के लिए, हम क्रमिक परत पाठ शैली L2 में सभी सक्रियणों की गणना कर सकते हैं। तो परत पाठ शैली L3 और इतने पर, परत टेक्स्टस्टाइल एल तक उपरोक्त समीकरणों का उपयोग करना जो आगे के प्रचार चरण का वर्णन करता है। यह फीडवर्वर न्यूरल नेटवर्क का एक उदाहरण है, क्योंकि कनेक्टिविटी ग्राफ़ में कोई निर्देशित लूप या चक्र नहीं है। तंत्रिका नेटवर्क में कई आउटपुट इकाइयां भी हो सकती हैं। उदाहरण के लिए, यहां दो छिपी हुई परत परतों L2 और L3 के साथ एक नेटवर्क है और परत L4 में दो आउटपुट इकाइयां हैं: इस नेटवर्क को प्रशिक्षित करने के लिए, हमें प्रशिक्षण उदाहरण (x, y) की आवश्यकता होगी जहां y2 में Re2 इस प्रकार का नेटवर्क उपयोगी होता है, यदि आप भविष्य में दिलचस्पी रखते हैं तो कई आउटपुट होते हैं। (उदाहरण के लिए, एक चिकित्सीय निदान आवेदन में, वेक्टर x एक मरीज की इनपुट फीचर दे सकता है, और अलग-अलग आउटपुट ये सकते हैं कि ये विभिन्न रोगों की मौजूदगी या अनुपस्थिति का संकेत दे सकते हैं।) Backpropagation एल्गोरिदम मान लें कि हमारे पास एक निश्चित प्रशिक्षण सेट है, y) , ldots, (एक्स, वाई) मी प्रशिक्षण उदाहरणों की हम अपने तंत्रिका नेटवर्क को बैच ग्रेडिएंट वंश का उपयोग करके प्रशिक्षित कर सकते हैं। विस्तार में, एक प्रशिक्षण उदाहरण के लिए (एक्स, वाई) हम उस एकल उदाहरण के संबंध में लागत कार्य को परिभाषित करते हैं: यह एक (एक-आधा) चुकता-त्रुटि लागत कार्य है एम के उदाहरणों का एक प्रशिक्षण सेट देखते हुए, हम फिर समग्र लागत कार्य को परिभाषित करते हैं: जे की परिभाषा में पहला शब्द (डब्ल्यू, बी) एक औसत समीकरण वर्ग की त्रुटि अवधि है। दूसरा शब्द एक नियमितकरण शब्द है (जिसे वज़न क्षय शब्द भी कहा जाता है) जो वजन की भयावहता को कम करता है, और अधिक से अधिक को रोकने में मदद करता है। (ध्यान दें: आम तौर पर वजन क्षय पक्षपात शर्तों पर लागू नहीं होता है i। जैसा कि जे (डब्ल्यू, बी) के लिए हमारी परिभाषा में दर्शाया गया है। पूर्वाग्रह इकाइयों को वजन क्षय लगाने से आम तौर पर अंतिम नेटवर्क में केवल एक छोटा सा अंतर होता है। आपने स्टैनफोर्ड में सीएस 22 9 (मशीन लर्निंग) लिया है या यूट्यूब पर पाठ्यक्रम वीडियो देखे हैं, आप ये वज़न क्षय पहचान सकते हैं जो मूलतः Bayesian नियमितकरण पद्धति का एक प्रकार है जो आपने देखा था, जहां हमने पैरामीटर से पहले गाऊसी रखा था और एमएपी ( अधिकतम संभावना के बजाय अनुमान)। वजन घटाने के पैरामीटर लैम्ब्डा दो शर्तों के सापेक्ष महत्व को नियंत्रित करता है। जम्मू (डब्लू, बी) एक समान उदाहरण जे (डब्लू, बी) के संबंध में स्क्वेर्ड त्रुटि लागत है, जो थोड़ी अधिक भारित नोटेशन को भी नोट करते हैं, जिसमें कुल लागत का कार्य होता है, जिसमें वजन का क्षय शब्द शामिल होता है। उपरोक्त यह लागत कार्य अक्सर वर्गीकरण और प्रतिगमन समस्याओं के लिए दोनों के लिए उपयोग किया जाता है। वर्गीकरण के लिए, हम y 0 या 1 को दो वर्ग लेबल्स का प्रतिनिधित्व करते हैं (याद रखें कि सिग्मोओड सक्रियण फ़ंक्शन 0,1 में मान देता है यदि हम एक tanh सक्रियण फ़ंक्शन का उपयोग कर रहे थे, तो हम लेबल्स को दर्शाने के लिए 1 और 1 का उपयोग करेंगे)। प्रतिगमन समस्याओं के लिए, हम पहले अपने आउटपुट को यह सुनिश्चित करने के लिए स्केल करते हैं कि वे 0,1 रेंज (या यदि हम एक तनह सक्रियण फ़ंक्शन का उपयोग कर रहे थे, तो -1, 1 श्रेणी) में हैं। हमारा लक्ष्य डब्ल्यू और बी के फ़ंक्शन के रूप में जे (डब्ल्यू, बी) को कम करना है हमारे तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए, हम प्रत्येक पैरामीटर डब्ल्यू और शून्य के पास एक छोटे से यादृच्छिक मूल्य के लिए प्रत्येक द्विगुणित करेंगे (कुछ छोटे एपिसलॉन के लिए एक (0, एपिसिलोन 2) वितरण के अनुसार कहते हैं 0.01), और फिर एक अनुकूलन एल्गोरिदम लागू करें जैसे कि बैच ढाल वंश चूंकि जे (डब्लू, बी) एक गैर-बहिर्वक्र फ़ंक्शन है, ढाल वंश स्थानीय ऑप्टिमा के लिए अतिसंवेदनशील है, हालांकि, अभ्यास में ढाल वंश में काफी अच्छी तरह से काम करता है। अंत में, ध्यान दें कि पैरामीटरों को बेतरतीब ढंग से प्रारंभ करने के लिए सभी 0s के बजाय, महत्वपूर्ण है यदि सभी पैरामीटर समान मानों पर शुरू होते हैं, तो सभी छिपी परत इकाइयां इनपुट के समान कार्य (और औपचारिक रूप से, वही I के सभी मूल्यों के लिए समान होती हैं) सीखने को समाप्त हो जाएंगी ताकि 1 2 2 3 एलडीट्स किसी भी इनपुट x के लिए) यादृच्छिक आरम्भिकरण सममिति को तोड़ने के प्रयोजन में कार्य करता है। ढाल वंश के एक आवृत्ति मापदंडों W, b को निम्नानुसार अद्यतन करता है: जहां अल्फा सीखने की दर है महत्वपूर्ण कदम ऊपर आंशिक डेरिवेटिव कंप्यूटिंग है। अब हम बैकप्रोपेगेक्शन एल्गोरिथ्म का वर्णन करेंगे, जो इन आंशिक डेरिवेटिवों की गणना करने का एक प्रभावी तरीका प्रदान करता है। हम पहले वर्णन करेंगे कि backstopagation के लिए textstyle frac जे (डब्ल्यू, बी एक्स, वाई) और textstyle frac जे (डब्ल्यू, बी एक्स, वाई) की गणना करने के लिए इस्तेमाल किया जा सकता है। लागत समारोह जे (डब्लू, बीएक्स, वाई) के आंशिक डेरिवेटिव एक उदाहरण के संबंध में परिभाषित (एक्स, वाई)। एक बार जब हम इन्हें गणना कर सकते हैं, तो हम देखते हैं कि समग्र लागत समारोह जे (डब्ल्यू, बी) के व्युत्पन्न के रूप में गणना की जा सकती है: उपर्युक्त दो पंक्तियां थोड़ा भिन्न हैं क्योंकि वज़न का क्षय डब्ल्यू पर लागू होता है लेकिन बी नहीं। बैकप्रॉपैजेशन एल्गोरिदम के पीछे अंतर्ज्ञान इस प्रकार है: प्रशिक्षण उदाहरण (एक्स, वाई) को देखते हुए हम पहले नेटवर्क पर सभी सक्रियणों की गणना करने के लिए एक अग्रेषित पास चलाएंगे, जिसमें परिकल्पना एच (एक्स) का आउटपुट मूल्य भी शामिल है। फिर, प्रत्येक नोड के लिए मैं परत में l। हम एक त्रुटि शब्द डेल्टा i की गणना करना चाहते हैं जो यह मापता है कि हमारे आउटपुट में किसी भी त्रुटि के लिए यह नोड कितना ज़िम्मेदार था। आउटपुट नोड के लिए, हम नेटवर्क सक्रियण और सच्चे लक्ष्य मान के बीच अंतर को सीधे माप सकते हैं, और डेल्टा आई (जहां परत nl आउटपुट परत है) को परिभाषित करने के लिए इसका उपयोग करते हैं। उन छिपे हुए इकाइयों के बारे में, उन नोड्स के त्रुटि नियमों के भारित औसत के आधार पर हम डेल्टा की गणना करेंगे I इनपुट के रूप में I का उपयोग करता है विस्तार में, यहां बैकप्रोपेगेक्शन एल्गोरिदम है: परतों L2 के लिए सक्रियण की गणना करते हुए, एक फीडवर्डवर्ड पास करें। एल 3। और इतने पर आउटपुट परत एल तक। प्रत्येक आउटपुट यूनिट में मैं परत एनएल (आउटपुट परत) में, एल एनएल-1, एनएल -2, एनएलएल -3, एलडीओटी, 2 के लिए प्रत्येक स्तर पर नोड के लिए सेट करता हूं। निर्धारित इच्छित वांछित आंशिक डेरिवेटिव, जो इस रूप में दिए गए हैं: अंत में, हम मैट्रिक्स-वेक्टरियल नोटेशन का उपयोग करके एल्गोरिथम को फिर से लिख सकते हैं। हम टेक्स्ट-स्टाइल बुलेट का इस्तेमाल तत्व-वार उत्पाद ऑपरेटर को दर्शाने के लिए करेंगे (मैटलैब या ओक्टेव में इंगित किया गया है, और हदामर्ड उत्पाद भी कहा जाता है), ताकि पाठशाला में एक बुलेट सी हो। तो टेक्स्टस्टाइल ऐ बीसीआई वैसा ही तत्वों को लागू करने के लिए हम टेक्स्टस्टाइल एफ (सीडीओटी) की परिभाषा को कैसे बढ़ाते हैं, हम टेक्स्टस्टाइल एफ (सीडीओटी) के लिए भी ऐसा करते हैं (ताकि टेक्स्टस्टाइल एफ (z1, z2, z3) f (z1), एफ (z2), f (z3))। एल्गोरिथ्म तब लिखा जा सकता है: परतों टेक्स्टस्टाइल L2 के लिए सक्रियण की गणना करते हुए, एक फीडवर्डवर्ड पास करें। पाठ शैली L3 आउटपुट परत टेक्स्टस्टाइल एल तक आउटपुट परत (परत टेक्स्टस्टाइल एनएल) के लिए, टेक्स्टस्टाइल एल एनएल -1, एनएल-2, एनएलएल -3, एलडीओटी, 2 के लिए निर्धारित समीकरणों का इस्तेमाल करना। इच्छित वांछित आंशिक डेरिवेटिव की गणना करें: कार्यान्वयन नोट: चरणों में ऊपर 2 और 3, हमें टेक्स्टस्टाइल के प्रत्येक मान के लिए टेक्स्टस्टाइल f (zi) की गणना करने की आवश्यकता है I मान लें कि पाठ्यचर्या एफ (जेड) सिग्माओड सक्रियण फ़ंक्शन है, हम पहले से ही टेक्स्टस्टाइल वाले होंगे जो मैं नेटवर्क के माध्यम से आगे से पारित किया था। इस प्रकार, अभिव्यक्ति का उपयोग करते हुए हमने पहले पाठ शैली f (z) के लिए काम किया। हम इसे टेक्स्टस्टाइल f (z i) a i (1- i i) के रूप में गणना कर सकते हैं। अंत में, हम पूर्ण ढाल वंश एल्गोरिथम का वर्णन करने के लिए तैयार हैं। छद्म कोड में, टेक्स्टस्टाइल डेल्टा डब्ल्यू एक मैट्रिक्स है (टेक्स्टस्टाइल डब्ल्यू के समान आयाम), और टेक्स्टस्टाइल डेल्टा बी एक वेक्टर (टेक्स्टस्टाइल बी के समान आयाम) है। ध्यान दें कि इस नोटेशन में, टेक्स्टस्टाइल डेल्टा डब्ल्यू एक मैट्रिक्स है, और विशेष रूप से यह टेक्स्टस्टाइल डेल्टा टाइम्स टेक्स्ट स्टाइल डब्ल्यू नहीं है। हम बैच के ढाल वंश के एक चलन को निम्न प्रकार से लागू करते हैं: टेक्स्टस्टाइल डेल्टा डब्ल्यू: 0। टेक्स्टस्टाइल डेल्टा बी: 0 (शून्य के मैट्रिक्सवेक्टर) सभी टेक्स्ट स्टाइल के लिए। टेक्स्टस्टाइल 1 टेक्स्टस्टाइल के लिए, टेक्स्टस्टाइल नाबाला जम्मू (डब्लू, बीएक्स, वाई) और टेक्स्टस्टाइल नाबाला जे (डब्ल्यू, बीएक्स, वाई) की गणना करने के लिए बैकप्रोपेगेशन का उपयोग करें। टेक्स्टस्टाइल डेल्टा डब्ल्यू सेट करें: डेल्टा डब्ल्यू नाबाला जे (डब्ल्यू, बीएक्स, वाई)। टेक्स्टस्टाइल डेल्टा बी सेट करें: डेल्टा बी नाबाला जे (डब्ल्यू, बीएक्स, वाई)। मापदंडों को अपडेट करें: हमारे तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए, हम बार-बार ढाल के उपायों के कदम को हमारी लागत समारोह टेक्स्टस्टाइल जे (डब्ल्यू, बी) को कम करने के लिए ले जा सकते हैं।

No comments:

Post a Comment