DOI: http://dx.doi.org/10.22059/jitm.2016.57818
Journal of Information Technology Management د ناوری اطلاعات
دانشكدة مديريت دانشگاه تهران دورة 8، شمارة 3 پاييز 1395
ص. 498- 477

كشف تقلب در تراكنش هاي كارت هاي بانكي با استفاده از پردازش
موازي ناهنجاري در بزرگ داده
محمدرضا تقوا1، طاها منصوري2، كامران فيضي3، بابك اخگر4
چكيده: با رشد روزافزون استفاده از كارتهاي الكترونيكي، به خصوص در صنعت بانكي، حجم تراكنش با اين كارتها نيز به سرعت افزايش پيدا كرده است. به علاوه، ذات مالي اين كـارت هـاسبب ايجاد مطلوبيت تقلب در اين حوزه شده است. تحقيق حاضر با رويكرد پـردازش مـوازي و راهحل نگاشت كـاهش، از شـبكة عصـبي مـدل كوهـونن بـراي كشـف ناهنجـاري در تـراكنش كارتهاي بانكي اسـتفاده كـرده اسـت. بـراي ايـن منظـور، در مرحلـة نخسـت راهحلـي بـراي طبقهبندي تراكنش ها به تقلب آميز و قانوني پيشنهاد شد كه نسبت به روشهاي ديگـر عملكـردبهتري از خود نشان داد. در مرحلة بعد، روش پيشنهادي بهدست آمده از تبديل شبكة كوهونن به فرم استفاده شدة نگاشت كاهش، توانست قابليت مناسبي را از نظر زمان اجرا به نمايش بگـذارد؛ به طوريكه انتظار ميرود در تراكنش هايي با مفروضات بزرگ داده بهخوبي پياده سازي شود.

واژه هاي كليدي: بزرگ داده، كارتهاي بانكي، كشف تقلب، مدل شبكة عصبي كوهونن.

دانشيار گروه مديريت صنعتي، دانشكدة مديريت و حسابداري دانشگاه علامه طباطبايي، تهران، ايران
دانشجوي دكتري مديريت فناوري اطلاعات، دانشكدة مديريت و حسابداري دانشگاه علامه طباطبايي، تهران، ايران
استاد گروه مديريت صنعتي دانشكدة مديريت و حسابداري دانشگاه علامه طباطبايي، تهران، ايران
استاد گروه انفورماتيك، دانشگاه شفيلد هلم، شفيلد، انگلستان

تاريخ دريافت مقاله: 09/03/1395 تاريخ پذيرش نهايي مقاله: 07/06/1395 نويسندة مسئول مقاله: محمد رضا تقوا
E-mail: Taghva@gmail.com
مقدمه
رشد سريع و پيشرفت در حوزة تجارت الكترونيك، كاربرد كارتهاي بانكي را به عنوان ابزاري كارا براي انجام تعاملات الكترونيك افزايش داده است. در كنار همين رشد، تراكنشهـاي تقلـب آميـز نيز به صورت روزافزوني در حال افزايش است (ميشرا، پاندا، و ميشرا، 2013). تقلب كـارت بـانكي موضوعي حياتي است كه هز ينههاي شايان توجه ي براي بانك هـا و مؤ سسـه هـاي صـادر كننـدة كارت به دنبال دارد. سي ستمهاي كشف تقلب با قابليت تمييزدادن دادههاي تقلبآميز از دادههـاي قانوني و نما يانكردن رفتارهاي متقلبانه همراه با ايجاد قابل يـت توسـعة راهبردهـاي مناسـب، در كاهش تأثير آن براي تصميم گيرندگان و كسبوكارها بسيار حياتي هستند (گاي، هو، ونگ، چـن و سان، 2011).
از آنجا كه بهراحتي نميتوان درخصوص انگيزة قانوني يا غير قانوني بـودن تـراكنش هـا حكـمصادر كرد، بهترين و كمهزينه ترين ايده، رهگيري تقلب با استفاده از روش هاي ري اضـي از م يـان دادههاي موجود است (فوآ، لي، اسميت و گايلر، 2005). بنابراين، بايـد بـه كمـك الگـوري تم هـاي داده كاوي بوميسازي شده، پاي گاههاي دادهاي بزرگ را تحليل كرد. با توجـه بـه اهم يـت تحل يـل بزرگ داده براي صنايع مختلف و رشد و توسعة ابزارهاي تجارت الكترونيك، به خصوص در حـوز ة كارتهاي بانكي، در ايران نيز حجم انبوهي از دادهها جمـع آوري شـده اسـت و اسـ تخراج ارزش نهفته در اين دادهها مانند ساير نقاط دنيا بسيار اهميت دارد. از سوي ديگر، همانطور كه پيشتـراشاره شد، مسئلة تقلب در اين تراكنش ها بسيار جدي است؛ بنابراين هدف تحقيق حاضـر يـافتن مدل مناسب تحليل دادههاي بزرگ از تراكنش كارتهاي بانكي، بـراي دسـتيابي بـه الگوهـايياست كه بتوان از طريق آنها تراكنش ورودي را به تراكنش قانوني يا تقلب آميز طبقه بندي كرد.
بيان مسئله
در كشورهاي ديگر، تحقيقات گسترده اي در خصـوص اسـتفاده از كـارت هـاي اعتبـاري صـورتپذيرفته است، اما در ايران استفادة اعتباري از اين كارت ها رايج نيسـت و اغلـب تنهـا بـه صـورتكارت پرداخت برخط استفاده مي شو د. علاوه بر اينكه در عمل نيز، سامانه هاي كشف تقلب فعـال ي در كشور وجود ندارند و حتي نسبت به ساير كشورها، تحقيقات در اين زمينه بسـيار انـدك اسـت(وثوق، تقوي فرد و البرزي، 1393). بـا در نظـر گـرفتن وضـعيت حـاكم بـر بـزرگ داده، بـه ويـژهامكان ناپذيري اجراي بسياري از الگوريتم ها روي آن، تحقيقات صـورت گرفتـه در كشـور و سـايرنقاط دنيا در اين زمينه، بسيار محدود مي شوند. يادآوري مي شود كه اصولاً داده هـا زمـاني بـزرگناميده مي شوند كه سرعت تغيير، حجم و گوناگوني آنها بسـ يار بيشـتر از تـوان سيسـتم ف نـاوري اطلاعات موجود براي بازيابي، ذخيره، تحليل و پردازش باشد (لوشن، 2013). كارت هـاي بـانكي ، يكي از اهداف مناسب براي متقلبان شناخته مي شوند؛ زيرا چنانچه حملـه كننـده موفـق شـود، در زمان بسيار كوتاهي مي تواند مقدار شايان توجهي پول برداشت كند، در حاليكه اغلب اين برداشت در روزهاي بعد شناسايي مي شود ( زريپور و شمسالمعالي، 2015). همان گونه كه گفته شد هدف مهم، شناسايي سريع تقلب و توقف آن در كوتاه ترين فاصلة زماني ممكـن پـس از رخ دادن اسـت(نصيري و مينايي، 1391)؛ به اين معنا كه بتوان بي درنگ آزمايش داده هاي تراكنش را انجام داد و رفتارهاي مبهم كاربر را قبل از تكميل تراكنش كشـف كـرد ( حلـوايي و اكبـري، 2014). ا يـن انتقال پردازش داده از بعد به قبل از ذخ يرهسازي آن به شكل شايان توجهي زمان مقدور را بـراي ارزيابي تقاضاهاي جديد از سيستم و به كارگيري تصميم دقيقي براي كشف تقلب، كاهش م يدهد (حلوايي و اكبري، 2014).
شايان ذكر است كه روش هاي كشف تقلب آماري بـه دو ز يـر شـاخة بـا سرپرسـتي و بـدونسرپرستي تقسيم ميشوند ( زريپور و شمس المعالي، 2015). ي كـي از دغدغـه هـاي پژوهشـگرانانتخاب رويكرد مناسبتر از ميان اين دو است (دال-پوزولو، كائلن، لوبرين، واترشوت و بـونتمپي ، 2014). از يك سو الگوريتم هاي با سرپرستي به برچسب گذاري تراكنش هـاي قبلـي ن يـاز دارنـد ومعمولاً تنها به الگوهاي تقلبي اي كه در گذشته رخ داده است، محدود مـي شـوند (دال-پوزولـو و همكاران، 2014). از سوي ديگر، روش هاي غيرسرپرستي از طبقة تراكنشها استفاده نميكننـد و مي توانند رفتارهاي تقلبآميز جديد را نيز شناسايي كنند. بهعلاوه، درخصوص هر نوع روشي كـه از رويكردهاي با سرپرستي استفاده م يكند، انتقادهايي وارد اسـت : 1. هزي نـة محاسـباتي ز يـادي دارند؛ 2. زمان لازم براي برچسبزدن به مشاهدات جديد زياد اسـت؛ 3. انحـراف هـاي ناشـي از انتخاب نمونه مي تواند سبب بروز خطا در برچسب هاي داده هاي آموزش شـود (فـوآ و همكـاران ، 2005).
با در نظر گرفتن اين موارد، مسئلة تحقيق حاضر، شناسايي سريع و درستي قابل قبول تقلـبدر تراكنش كارت هاي بـانكي بـا اسـتفاده از رويكـرد غيرسرپرسـتي شـبكة عصـبي نقشـه هـايخودسازمانده كوهونن در محـيط بـزرگ داده اسـت. مطـابق بررسـيهـاي صـورت گرفتـه، مـدلپيشنهادشدة اين پژوهش بـا اسـتفاده از شـبكة عصـبي كوهـونن و پـردازش مـوازي در كشـفناهنجاري تراكنش كارت هاي پرداخت، نوعي نوآوري است و نمونة مشابهي در پژوهش هاي قبلي نداشته است. يكي از رويكردهاي استفاده از روش باسرپرستي براي تشكيل الگوي دارندة كـارت قانوني و متقلب، براساس يادگيري تراكنشهاي تاريخي و توسعة مجموعه اي از قواعد اسـت . در رويكرد غيرسرپرستي، بيشتر كشف الگو دنبال مي شود؛ به اين معنا كه اگر تراكنشـ ي بـه الگـويدارندة كارت قانوني مرتبط نباشد يا شبيه به الگوهاي تقلب باشد، با عنـوان مشـكوك بـه تقلـبطبقه بندي مي شود (زاسلاوسكي و استريژاك، 2006).
پيشينة پژوهش پيشينة نظري
به طور ساده، تقلب در كارت سوءاستفاده از آن بدون مجوز صاحب يا صادركننده تعريف مـي شـود (تريپاتي و راگا، 2013). چنانچه در محيط رقـابتي تقلـب شـايع شـود و س يسـتم پـيش گيرنـده و محدود كنندهاي وجود نداشته باشد، مي تواند به مسئلة تهد يـد كننـدة ح يـاتي بـراي كسـب وكـار و سازمان تبديل شود (فوآ و همكاران، 2005). از سوي ديگر، با رشد سريع تعداد كارت هاي بـانكيتوزي عشده، طبيعي است كه فعالي تهاي مجرمانه در اين حوزه نيز افزايش يابـد (زري پـور ، سـيجا،علم و افشار، 2012). برخي از انواع شناخته شدة تقلب در كارت هاي بانكي كه معمولاً بـه صـورت استفاده از شبكة ارتباطي يا با حضور فيزيكي كارت صورت مي پذيرند، عبـارت انـد از : تقلـب هـايفروشنده، تقلب هاي اينترنتي، كارت گم شده يا ربوده شده، در اختيار گرفتن حساب، استفاده نكـردناز كارت، دريافت نكردن كارت، جست وجو در سطل زباله، كارتهاي جعلي، سرقت پستي، افشـاياطلاعات در محل كار يا منزل، شبكه هاي اجتمـاعي، تقلـب ورشكسـتگي، تقلـب دسـتگاه هـايخودپرداز و غصب كـردن ( وثـوق و همكـاران ، 1393؛ نصـيري و مينـايي، 1391؛ زاسلاوسـكي واستريژاك، 2006؛ سريواستاوا، كونـدو، سـورال و ماجومـدار، 2008). هـدف از شناسـايي تقلـب،متوقف كردن آن در كوتاه ترين فاصلة زمـاني ممكـن پـس از رو يـداد اسـت (وثـوق و همكـاران، 1393). فارغ از اينكه سيستم كشف تقلب مد نظر، به صورت دستي يا سيستمي است، اصولاً بايـد از ويژگي هاي زير برخوردار باشد:
بايد كاملاً درست تقلب را تشـخيص دهـد، يعنـي نبايـد تـراكنش اصـلي بـا تـراكنشتقلب آميز اشتباه شود (درصد اعلان اشتباه آن پايين باشد)، در غير ايـن صـورت ممكـناست كاربران نسبت به هشدارهاي سيستم بيتفاوت شوند (اكسلسون، 2000)؛
بايد در كمترين زمان ممكن تقلب را تشخيص دهد (نصيري و مينايي، 1391).
با وجود اين، در زمينة كشف تقلب چالش هايي وجود دارد كه به طور خلاصه عبارت اند از:
در دسترس نبودن مجموعه داده هاي واقعي: يكي از محدوديت هاي مهم در اين زمينـه ، نداشتن مجموع ه داده هاي واقعي براي آزمون بـهدلايـل امنيتـي و كسـب وكـار اسـت( زريپور و شمس المعالي، 2015 ؛ كيبي و چونهوآ، 2011 ؛ گاي و همكاران، 2011)؛
مجموعه داده هاي نامتقارن: مجموعه داده هاي تراكنش كارت به شدت چـولگي دارنـد؛يعني نسبت وجود تراكنش تقلب به تراكنش قانوني بسيار پايين است (كيبي و چونهـوآ ، 2011). معمولاً در وضعيت واقعي 98 درصد از دادهها قانوني اسـت و تنهـا 2 درصـد از آنها متقلبانه اند ( زريپور و شمس المعالي، 2015 ؛ دال-پوزولو و همكاران، 2014 ؛ ويترو، هند، جوزاك، و وستن، 2008)؛
اندازة مجموعه داده ها: هر روز ميليون ها تراكنش كارت بانكي انجام مـيشـود (چـان و همكاران، 1999) و تحليل چنين مقدار بي شماري از اطلاعات به روش هاي بسيار مؤثر و مق ياسپذير محاسباتي نياز دارد ( زريپور و شمس المعالي، 2015)؛
رفتار پوياي متقلب: متقلبان رفتار پويايي دارند، ي عنـي در طـي زمـان رفتـار خـود را در مقابل سيستم تغيير مي دهند. بنابراين با سپري شدن زمـان ، تقلـب هـا ن يـز پيچ يـده تـر ميشوند ( زريپور و شمس المعالي، 2015 ؛ كوريا بنسن، اوآوا، استوجانويچ، و اوترسـتن ، 2016)؛ كمابيش همة تراكنشهاي متقلبانه ظاهر قانوني دارند و چنانچه هر يك از آنها جداگانه بررسي شود، هيچ نشانة مشكوكي از آنها ديده نمـيشـود ( وثـوق و همكـاران ، 1393).
پيشينة تجربي
در اين بخش به پيشينة عملي مطالعات صورت گرفته در خصوص كشف تقلب كارت هـاي بـانكيكه معمولاً به عنوان كارت هاي اعتباري مي شناسـيم، پرداختـه مـي شـود . بـراي كشـف تقلـب در كارتهاي بانكي، از روش ها و الگوريتمهاي متعددي استفاده مي شود كه در زير به بعضي از آنهـااشاره شده است:
الگوريتم هاي همجوشي اطلاعات مانند تئوري گواه دمپستر و شيفر و يـادگيري ب يـزي
(رآج و پرتيا، 2011؛ برمودز، پرز، آيوسو، گومز و وازكوئز، 2008)؛
مدل مخفي ماركوف (سريواستاوا و همكاران، 2008 ؛ بوساري و پاتيل، 2011)؛
شبكه هاي عصبي (زري پور و همكاران، 2012؛ رآج و پرتيا، 2011؛ وثـوق و همكـاران ،
1393؛ زاسلاوسكي و اسـتريژاك، 2006؛ گنـزالس و ولاسـكوئز، 2013؛ اولزووسـكي،
2014؛ پتيدار و شارما، 2011)؛
الگوريتم ژنتيك (راماكالياني و اومادوي، 2012 ؛ دومان و ازليك، 2011)؛
سيستم هاي ايمني مصنوعي (حلوايي و اكبري، 2014).
سريواستاوا و همكارانش (2008) براي شناسايي تقلب در كارت هاي بـانكي ، از مـدل مخفـي ماركوف محدود با بهره مندي از رويكرد كشف ناهنجاري رفتاري استفاده كردند. اپيلارد و بـوگيلا(2016) با استفاده از مدل مخفي ماركوف در داده هاي به دست آمده از پردازش تصوير دوربينهاي شهري، به دنبال كشف ناهنجاري بودند. وثوق و همكارانش (1393) براي تشخيص سريع تقلـبدر تراكنش هاي بانكي از مدل شبكههاي عصبي مصنوعي چندلاية جلوسـو بهـره بردنـد. آنهـا از داده هاي واقعي استفاده كردند، اما به دليل نداشتن برچسب، تراكنشهـاي مشـكوك را بـه كمـكدانش خبرگان و ادبيات موضوع شبيه سازي كردند.
اولزووسكي (2014) به كمك مدل شبكة عصبي نقشه هاي خود سازمان ده، چارچوبي به منظـوركشف تقلب ارائه داد. او با استفاده از بصري سازي رفتار كاربر و يك ماتريس يو1، آستانة سنجش رفتار ناهنجار را تعيين كرد. گنزالس و ولاسـكوئز (2013) در كـار خـود، بـراي مشـخص كـردنفرارهاي مالياتي از نوعي نقشة خودسازمانده براي ايجاد مدل كلي طبقـه بنـدي اسـتفاده كردنـد.
هوانگ، ساي و يو (2014) در پژوهش خود از يك كوهونن سلسـله مراتبـي رشـد يابنـده دو گانـهاستف اده كردند و آن را GHSOM ناميدند. اين مدل براي كشف ناهنجاري در گزارش هاي مـاليبه كار رفته است. هلمن، ترسپ، و سيمولا (1999) بر اساس مدل شبكة عصبي نقشة خودسازمان دهنده، نوعي سيستم كشف تقلب ارائه داد ند كه در آن مدل پس از آموزش با استفاده از مدل هاي احتمالي پروفايل كاربر، تقلبهـاي احتمـالي را براسـاس كشـف ناهنجـاري خوشـهبنـدي محـور،شناسايي ميكند. زاسلاوسكي و استريژاك (2006) با اسـتفاده از مـدل كوهـونن، بـراي صـاحبكارت پروفايل رفتار عادي ساختند. آنها ابتدا با استفاده از تراكنش هاي قبلـي و شـبكة كوهـونن،ماتريس وزن ها را به عنوان پروفايل ذخيره كردند، سپس با اندازهگيري فاصلة تراكنش ورودي بـاپروفايل به دست آمده، ميزان عادي يا ناهنجار بودن آن را بررسي كردند.
كوا و سريگانش (2008) با استفاده از شبكه هاي عصبي مدل كوهونن، سيستم خود را به سه لايه تقسيم كردند. مدل آنها تركيبي و نيمه سرپرستي است و در آن از يك شبكة عصبي كوهونن به همراه شبكة عصبي پرسپترون استفاده شده است. درخصوص كشف ناهنجـاري در بـزرگ داده نيز مي توان به كار حلوايي و اكبري (2014) اشاره كـرد كـه بـا اسـتفاده از سيسـتم هـاي ايمنـيمصنوعي و مدل نگاشت كاهش در محيط پردازش ابر، نوعي مدل كشف تقلب با سرپرستي ارائه دادن د. هوان گ، ژو، يان گ و فن گ (2016) ب راي كش ف ناهنج اري ب ر اس اس رويكرده اي چگالي محور، روش جست وجويي به نام جست وجوي همسايگي محلي ارائه دادند. به، وانگ، زيـن
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. U-Matrix
و وانگ (2016) نيز بر كشف ارزش هاي ناهنجار در محـيط هـاي بـزرگ دادة توزيـ ع شـده تمركـزكردند. روش استفادهشدة آنها كشف ناهنجاري چگالي محور است.
با بررسي پيشينة عملي مشاهده مي شود، هيچ يك از مدلهاي بدون سرپرستي شبكة عصـبيكوهونن، بهصورت تركيب با نگاشت كاهش براي غلبه بر الزامات بزرگ داده استفاده نكردهاند.
مدل مفهومي
همان گونه كه پيش از اين بيان شد، مسئلة تحقيق شناسايي سريع و با درستي قابل قبـول تقلـبدر تراكنش كارتهاي بانكي است.
در نظر بگيريد كه در يكي از پايگاههاي داده، مجموعه اي مانند ,⋯,1 = به عنوان مجموعه كارتهاي ذخيره شـده در سيسـتم پرداخـت و زيرمجموعـه,⋯,1 =، كـارتيمتشكل از s ويژگي است. در ضمن، مجموعة بزرگ || ,⋯,1||X =، كل تراكنشهاي موجود در سيستم و X1, ⋯ , X= ||، ركوردهاي مربوط به كـارت شـمارةi تـا زمـان است. هر يك از اين ركوردها، بردارهايي مانند X =x1, ⋯ , x، هسـتند كـه از m ويژگـيعددي يا اسمي تشكيل شده اند. , ⋯ , X1 نيز تراكنش هاي پس از زمان هستند. حال براي كارتي مانند i، مسئلة يافتن قانوني يا تقلب آميـز بـودن تـراكنش 1X در كمتـرين زمـانممكن است. مجموعة X از تراكنشهاي سيستم پرداخت به دو زيرمجموعة جمـع ناپـذير تقسـيمقانوني X ⊆ X، و تقلب آميز X⊆ X بهطوري كه ∅ =X ∩ X تقسيم مي شود. اگر فـرض بـراين قرار گيرد كه تصوير عددي (نقاط موجود در برخي از فضاهاي چنـد بعـدي ) از تـراكنش هـايقانوني و تقلب آميز به زيرفضاهاي متفاوتي تعلق دارنـد؛ ممكـن اسـت دربـارة نگاشـت تـراكنشجديدي مانند 1X به هر يك از زيرفضاها، تصميم گيري شود. فضاي تصميم براي طبقه بنـديتراكنش جديد از رابطة 1 بهدست مي آيد.
رابطة 1) ,Θ =
در اين رابطه، و به ترتيب تقلب آميز يا قانوني بودن تراكنش هستند. بنـابراين، عضـويتتراكنش به هر يك از زير فضاهاي ياد شـده بـر اسـاس ميـزان مشـابهت 1X، بـه زيرمجموعـة⊆؛ و از طريق آموزش يك پروفايل از رفتـار هنجـار دارنـدة كـارت، سـنجيده مـي شـود .
بنابراين، با توجه به هدف تحقيق، مدل رياضي به صـورت رابطـة 2 اسـت كـه در آن خطـايطبقه بندي، زمان يافتن پاسخ و (1 ) تابع طبقه بندي است.
رابطة 2) 〉,〈 =
:() ∈
شكل 1 مدل مفهومي پژوهش را بـا در نظـر گـرفتن اهـداف آن، يعنـي دقـت و سـرعت درطبقه بندي نشان مي دهد.

آموزش شبكه عصبي

كارت

دارنده

تراكنشهاي

مجموعه
i

تا

زمان
n
t
:
i
X
i
P
شكل

ت
غيير
كوهونن

عصبي

شبكه
نگاشت
نگاشت
نگاشت
كاهش
پروفايل

ساخت
.
.
.
.
.
.
.
پروفايل
ها

وزن

ماتريس

قالب

در
:
W
دريافت

دارنده

ورودي

تراكنش

كارت
i

زمان

در
1
+
n
t
:
1
+
n
X
1
+
n
P
فاصله

سنجش
نگاشت
نگاشت
نگاشت
كاهش
[
L,F
]
شكل

تغيير
مقايسه
ا
ستنتاج

كارت

دارنده

تراكنشهاي

مجموعه

i



قیمت: تومان


پاسخ دهید