G-B7N2H7TNZP
top of page

e-Ticarette Makine Öğrenmesi: Amazon Örneği

Güncelleme tarihi: 20 Oca 2022



İçindekiler

1.Özet

2.Giriş

3.Literatür taraması

4.Teorik çerçeve

5.Sonuç


Özet

e-Ticaret kavramına makine öğrenmesi bakış açısıyla yaklaşılan bu çalışmada, Amazon'da kullanılan metriklerden birkaçına yer verilmiştir. Bu metriklerin Amazon kullanıcıları tarafından da kolayca analiz yapılabileceğinin düşünülmesi bahse konu metriklerin paylaşımında bir etken olmuştur. Best Seller Rank (BSR), Review Count ve Review Velocity kavramları üzerinden okuyucuya Amazon'daki metrikler tanıtılmaya çalışılmıştır. Makine öğrenmesindeki süreçlere de değinilen bu yazıda Supervised Learning, Unsupervised Learning ve Two-Phase Modeling yaklaşımlarına dair örnekler verilmiştir. Bu yazının en enteresan bulgusu ise Google Akademik üzerindeki "İstatistiksel Öğrenme" kelime kalıbına ait girdilerin 2000 yılı sonrasına denk gelmesidir. Ulusal Tez Merkezi'ndeki arama sonuçlarındaki girdi ise 1997 yılına aittir. Bu kelime kalıbının İngilizce karşılığında ise geniş bir akademik araştırma bulunmaktadır.


Giriş

Makine öğrenmesinin e-Ticaretteki kullanımına dair bir girişin yapılacağı bu yazıda belirli metrikler üzerinden bir çerçeve oluşturulmaya çalışılacaktır. İçerikteki başlıklar sıralanacak olursa e-Ticaret için literatürde kullanılan Amazon metriklerini içeren çalışmalara değinilecektir. İkinci olarak teorik çerçeve kısmında Amazon metrikleri ve İstatistiksel (Makine) Öğrenmesi başlıkları açıklanmaya çalışılacaktır. Son olarak ise sonuç kısmı ile yazının noktalanması beklenmektedir.


Literatür taraması

Amazon ve makine öğrenmesi ile ilgili yapılan literatür taramasına geçmeden önce fark edilen bir nokta ise "Sentiment Anlaysis" kavramının çokluğu olmuştur. Genelleme yapma amacı gütmeden burada şu şekilde bir yorum yapılabilir. Müşterilerin yorumları Amazon ile ilgili süreçleri anlamlandırmak için bir önem arz ediyor denebilir. Amazon'a ait diğer metriklerin de bu satış kanalındaki kişiler için önemli olduğu düşünülürse "müşteri" kavramının önemini anlamak için önemli bir gerçekliğe denk gelinmiştir [1]. Sentiment Analysis kullanılarak yapılan bir araştırma ile literatür taramasına başlayalım. Neha vd. (2020) tarafından yapılan çalışmada spam ve sahte, olumsuzlama, alay vb. gibi kavramları algılayabilecek bir araç (tool) yardımına başvurulması gerektiğine değinilmiştir. Bir önceki cümleden şu çıkarım yapılması yanlış olmayacaktır. Yorumlarda kullanılan kelimelerin ek anlamlar içermesi bahse konu kelimelerin analizini yapan programlar için bir engel oluşturmaktadır. Dahası bu kelimeleri kullanan kişilerin, yorumları okuyan kişiler üzerinde manipüle edici etkiler yaratabilecekleri sorusu akla gelmektedir.


Rathor vd. (2018) tarafından yapılan bir diğer çalışmada Support Vector Machines (SVM), Naive Bayes (NB) and Maximum Entropy (ME) metotları uygulanmıştır. Bu metotlar yardımıyla müşterilerin yorumları pozitif, nötr ve negatif olarak üç sınıfa ayrılmıştır. Sonuç olarak yapılan bu çalışma için SVM metotu seçilmiş olup verinin çokluğuna göre elde edilecek sonuçların tutarlılığının artacağına değinilmiştir. Amazon Hindistan'daki (Amazon.in) kitap satışlarının makine öğrenmesi ile tahminlenmeye çalışıldığı bir çalışmada Linear Regression, Decision Tree ve Artificial Neural Networks metotlarına yer verilmiştir (Sharma vd., 2019). Hindistan'ın sahip olduğu nüfus itibarıyla Amazon için çok bir satış alanı olabileceği gerçeği ile bu tarz çalışmaların hem ürün alan kişiler için hem de ürün satan kişiler için önemli olduğu fikri akla gelmektedir. Çalışmanın özüne dönülecek olursa ANN sonuçlarına göre indirim oranının indirim tutarından daha anlamlı bir tahmin edici olduğu ortaya çıkmıştır. Çalışma ile ilgili bir diğer enteresan detay ise indirim oranı ile yorum hacminin adı geçen üç metot için de önemli tahmin ediciler olduklarını yansıtmalarıdır.


Farklı bir çalışma örneği ile konuyu genişletmek gerekirse Shokri vd. (2017) tarafından yürütülen bir çalışmada bulut servisi aracılığıyla makine öğrenmesi hizmeti veren işletmelerdeki verilere kullanıcı gibi saldırılması durumunda bulut sistemlerindeki kişisel verilere verilebilecek zararlar anlaşılmaya çalışılmıştır. Saldırının yapıldığı alana üyelik çıkarımı (membership inference) adı verilmiş olup "shadow training" diye bir yöntem de üretilmiştir. Bu çalışmanın sonucunda görülmüştür ki hizmet olarak makine öğrenimi platformları (machine-learning-as-a-service) kullanılarak oluşturulan modellerin, eğitim veri kümeleri (train data sets) hakkında birçok bilgi sızdırabilecekleridir. Durumun önemine değinmeden önce "train dataset" denilen kavramın sahip olunan veri setlerinin %80 train % 20 test olacak şekilde ikiye ayrıldıkları söylenebilir (Goodfellow vd., 2016). Burada yüzdelikleri sayı anlamında ifade etmek doğru olacaktır. 20 bin kişiye ait bir veri setinde 10 bin kişinin bilgisine ulaşıldığının düşünmek bile korkutucu gelmektedir. Bu cümleden sonra tekrar araştırmaya dönmek gerekirse "differential privacy" metotunun bu çalışmadaki saldırıları sınırlama olasığını göstermiş olması enteresan bir detay olarak karşımıza çıkmıştır. Diferansiyel mahremiyet metotu farklıbir tartışma konusu olduğu için burada bahsedilmeyecektir.


Teorik Çerçeve


Amazon Metrikleri

Amazon'dan ürün aldığımızda belki de çok dikkat etmediğimiz fakat ürün satan kişilerin dikkatinden hiç kaçmayan bazı metrikler var. Nedir bu metrikler? Örnek olarak bir ürünün ağırlığı bizim için sadece gramlardan ibaret iken Amazon'daki hesap sahipleri için büyük önem arz etmektedir. Misal bir ürünün 348 gr olarak ölçüldüğünde satıcının "FBA" hizmetine ödeyeceği tutar ile ürünün 351 gr olarak ölçüldüğünde ödeyeceği tutar çok farklı olabilmektedir [2]. Kısaca, FBA olarak da belirtilen, yani Fulfillment by Amazon, hizmet satılan ürünlerin Amazon tarafından paketlendiği süreçleri ifade etmektedir. FBA konusu farklı bir araştırmada anlatılacak derinlikte olduğu için burada detaylandırılmayacaktır. Konumuza geri dönecek olursak Price, Sales, Revenue, BSR, FBA Fees, Active Sellers, Ratings, Review Count, Images, Review velocity, Buy Box, Category, Size Tier, Delivery, Dimensions, Weight, Creation Date başlıkları altında toplanabilecek metrik türlerine örnek olabilirler. Biraz uğraşı sayesinde, belki bütün firmalar için değilse de, bu metriklere Amazon'daki ürünleri alan kişiler de ulaşabilir. Yalnız öncelikle bu metriklerin birkaçını açıklamaya çalışalım. En azından bazı kelime kalıplarının direk İngilizce karşılıklarını bulmak için arama motorlarında gezinmek gerekebilir. BSR, yani Best Seller Rank, Amazon'da satılan diğer ürünler arasında satıcılara ve alıcılara bahse konu ürünün yerini gösteren bir metriktir. Örnek olarak yemek kategorisinde sıralamaya girilebileceği gibi bu kategorinin alt kategorilerinden biri olan baharat kategorisinde de sıralamaya girilebilir. Bu noktadan hareketle her kategori/alt kategori için bir sıralama üzerinden analizlerin yapıldığı anlaşılabilir.

Amazon Best Seller
Tablo 1 - Amazon Best Seller Sayfa Açılış Örneği

Yapılan aramaların direk olarak "Best Sellers" kategorisinden ulaşılabileceğini atlamadan örneklendirmelerimize devam edelim. Bir diğer metrik türü ise Review Count olacaktır. Direk İngilizce karşılığı okuyan kişilerde bir çağrışım yapsa da ürünler için yapılan yorum sayılarının diğer metrikleri farklı yönlerde etkilediğini söyleyebiliriz. Örnek olarak bir ürüne 3 yorum yapıldığındaki tepkimiz ile benzer bir başka ürüne 37 yorum yapıldığını gördüğümüzde vereceğimiz tepki aynı olmayacaktır. Bu noktada ürünlere yorum yapan kişilerin ne yazdıkları önem kazanmaktadır. Ürünün alınmadan yorum yapılması mümkün olmadığı için daha çok yorum alan ürün avantajlı konumda olacaktır. Fakat yapılan yorumların içindeki kelimelerin önemi burada devreye girmektedir. Ne gibi? Şöyle ki, yapılan yorumlardaki kelimelerin okuyan kişilerde oluşturabileceği duygusal karşılıklar üzerinden bir test yapılması hâlinde bahse konu yorumların gerçek karşılıklarını bulmak çok da güç olmayacaktır. Böylelikle yapılan yorumlardaki Ratings metriğine dair de bir gözlemleme yapılabilmesi söz konusudur. Bütün bu işlemlerin uygulanabilmesi için geçerli metot Sentiment Analysis olarak bilinmektedir (Bhatt vd., 2015; Elmurngi & Gherbi, 2018; Katić& Milićević, 2018).


Bu yazıda açıklanabilecek bir diğer metrik ise Review Velocity olacaktır. Türkçeye yorum hızı olarak da çevrilebilecek bu metrik bahse konu satılan ürünlerin almış oldukları yorumlardaki değişikliği gözlemlemek için kullanılmaktadır. Örnek vermek gerekirse bir ürüne ait 147 adet yorum olduğu varsayılsın yalnız bu ürünün son 34 gündür hiç yorum almadığı gözlemlendiği bir senaryoda acaba bu ürüne ne oldu sorusu akla gelmektedir. Açıkçası bu soru önemli bir sorudur. Niye? Çünkü satın alınmak istenen ürünün güncelliği alıcıların -satıcıların da-dikkat etmesi gereken bir husustur. Örnek vermek gerekirse bu ürün belki de satıcının artık üretmekten vazgeçtiği bir ürün konumuna düşmüş olabilir. Veyhaut bu ürüne ait bir stok sayısında azalma yaşanmış olabilir. Hatta ve hatta bahse konu ürünün üretiminde bir sorun yaşanmış olabilir. Adıgeçen sebeplerin ise sayısal karşılıkları ise artı ve eksi haneli olabilmektedir. Bir ürün +157 sonucuna ulaşabileceği gibi aynı sonucun eksi karşılığıile de ulaşabilir. Velhasılı yorumlardaki değişkenlik farklı süreçlere sebebiyet olabileceği için analiz yapılırken dikkat edilmesi gereken bir metriktir.

Logistic Regression
Tablo 2 - Logistic Regression Model Çıktısı Örneği

İstatistiksel Öğrenme

Makine öğrenmesi başlığı yerine istatistiksel öğrenme kullanılmasının sebebi yapılan analizlerde İstatistik biliminin kullanıldığı gerçeğinin okuyucular tarafından ne kadar bilindiği sorusuna verilebilecek yeterli bir yanıt bulunamamasından kaynaklıdır. Ek olarak Google Scholar'da "istatistiksel öğrenme" kelime kalıbı kullanılarak yapılan araştırmada ancak 2000 yılından sonra yazılan akademik çalışmalara rastlanmıştır [3]. Ulusal Tez Merkezinde bu kelime kalıbına dair yapılan araştırmada ise elde edilen en eski tarih 1997 yılıdır [4]. Aynıkelime kalıbı"Statistical Learning" olarak değiştirildiğinde ise 1800 yılında yapılan bir çalışmaya denk gelinmiştir [5]. Bu kavrama ait farkındalık yaratmak bu çalışmanın amacı olduğu söylenebilir. e-Ticaret ve İstatistiğin birleşimi bir kenara bırakılmaması gereken durumdur. Bu yazının oluşturulmasına dönülecek olursa istatistiksel öğrenmenin üç başlığıa ayrıldığı söylenebilir. Denetimli öğrenme, denetimsiz öğrenme ve iki aşamalı modelleme bu başlıkları oluşturmaktadır. Reinforcement Learning diye bir alan olduğu bilinmekle birlikte bu yazıda adıgeçen konu başlığına değinilmeyecektir (Barto &Sutton, 1995; Sutton & Barto, 1998).


Supervised Learning yaklaşımlarıikiye ayrılmaktadır. İlk yaklaşım türü "tahmin" amaçlıyürütülüp aylık (çeyrek/yıllık vb.) satıştutarlarına ait hedef belirlemede kullanılmaktadır. Bu yaklaşımlara örnek olarak Decision Trees (Holmes, 2009), Random Forest (Psychoula et al., 2021), Baggigng (Shrivastava et al., 2017), Boosting (Livne et al., 2020) gibi metotlar tercih edilmektedir. İkinci yaklaşım türü ise "sınıflandırma" amaçlıyürütülüp aylık satıştutarlarınıbelii bir adetin altı/üstü için "Evet" ya da "Hayır" kodlamasıgirilerek satışpazarıiçin hedef model oluşturmada kullanılabilir (Agarwal, 2013; Madila, 2021). Örnek model şu satışpazarıiçin "ürün fiyatı", "ürün ağırlığı" ve "yorum sayısı" değişkenlerine odaklanılmasıüzerine kurulabilir (Harahap et al., 2018; Najmi, 2019; Archchitha & Charles, 2019).


Unsupervised Learning yaklaşımı ise veri setindeki değişkenlerin matematiksel modeller yardımıyla araştırmacıya bir hedef sunmasıdır. Örnek olarak araştırmacının elindeki 11 değişkenin modelin sonucuna göre 6'ya düşmesi, Unsupervised Learning yaklaşımı sayesinde azaltılabilmektedir. Bu yaklaşım "boyut indirgiyor" (dimensionality reduction) şeklinde de ifade edilmektedir. Unsupervised Learning yaklaşımına örnek olarak ise Principal Component Analysis (Chhetri et al., 2018), Hierarchical Clustering (Pireva &Kefalas, 2017 ) ve K-means Clustering (Joshi, n.d.) verilebilir.


Two-Phase Modelling yaklaşımında ise değişkenlerin önce Unsupervised Learning yaklaşımı ile sayısı azaltılıp Supervised Learning yaklaşımı ile de aylık tahminleme metotları ile bir hedef belirlenebilir. Bu sürecin iki aşamalı olması kişi faktörünü ortadan kaldırma ihtimali taşıdığı için önerilebilir. Yapay Zeka(Cohenet al., 2021), Makine Öğrenmesi (Vazquez, 2017), Karar Destek Sistemleri (MA &Sun, 2020) ve Yapay Sinir Ağları(Fridrich, 2017) gibi kavramların işletmelerin gündelik süreçlerine daha çok entegre olduğunu iddiasını ele aldığımızda Two-Phase Modelling yaklaşımı araştırmacıya sadece süreçleri kontrol etme (denetleme) imkanı sunmaktadır ki; olası insan faktörü devre dışı bırakılabilir mi sorusuna cevap bulunabileceği fikri akla gelmektedir.


AUC, ROC Curve, Area Under the Curve
Tablo 3 - Area Under the Curve - ROC Eğrisi Örneği

Sonuç

Amazon metrikleri başlığında hem ürün satan kişilerin hem de satılan bu ürünleri alan kişilerin erişebileceği metriklere değinilmiştir. Bu metriklerin genişletilebileceği fikri akla gelmekle birlikte bu yazının odağını koruma açısından diğer metriklere değinilmemiştir. Veri kelimesinin Covid-19 pandemisinden sonra dizilerde bile ana başlık hâline geldiği düşünülürse bu tarz bir yazının öneminin sadece araştırmacılar için değil okuyucular için de vurgulanması gerektiği düşünülmektedir (Armstrong, 2018). Bu sebepten dolayıdır ki, e-Ticaret ve Amazon kavramları birleştirilerek bir yazı oluşturulmaya çalışılmıştır. Sonuç itibarıyla makine öğrenmesi ile yapılabilecek çalışmaların sonucunda elde edilebilecek çıktıların yapacağı etki farklı bakış açılarının üretilmesine sebep olabilir. İstatiksel öğrenme kelime kalıbının Google Akademik arama motorundaki sonuçlarda 2000 yılında önce kendisine yer bulamamış olması bu çalışmanın belki de en önemli bulgusudur. Bu bulgunun destekçisi ise Ulusal Tez Merkezindeki arama sonucu olmuştur. Aynı kelime kalıbının 1997 yılından önce girilmemiş olması enteresan bir detaydır. Son tahlilde istatistiksel öğrenme kavramının kendine yer bulamamış olması acaba bu alana gerekli önem verilmiyor mu sorusunu akla getirmiştir.


Gelecek çalışmalar için örnek vermek gerekirse veri setlerinin eklenmesi makine öğrenmesi ve e-Ticaret ile ilgili kavramların detayına inmek açısından yararlı olacağı düşünülmektedir. Literatür taramasında da değinildiği gibi diferansiyel mahremiyet gibi veri korumasına dair konuların incelenmesi Veri Bilimi ile ilgili yapılan çalışmaları daha renkli hâle getirebileceği düşünülmektedir.


Kaynakça

  • Agarwal, D. (2013, October). Computational advertising: the linkedin way. In Proceedings of the 22nd ACM international conference on Information & Knowledge Management (pp. 1585-1586).

  • Archchitha, K., & Charles, E. Y. A. (2019, September). Opinion Spam Detection in Online Reviews Using Neural Networks. In 2019 19th International Conference on Advances in ICT for Emerging Regions (ICTer) (Vol. 250, pp. 1-6). IEEE.

  • Armstrong, J. (Producer). (2018) Succesion [Television series]. HBO

  • Barto, A. G., & Sutton, R. S. (1995). Reinforcement learning. Handbook of brain theory and neural networks, 804-809.

  • Bhatt, A., Patel, A., Chheda, H., & Gawande, K. (2015). Amazon review classification and sentiment analysis. International Journal of Computer Science and Information Technologies, 6(6), 5107-5110.

  • Chhetri, M. B., Lumpe, M., Vo, Q. B., & Kowalczyk, R. (2018, July). To bid or not to bid in streamlined EC2 spot markets. In 2018 IEEE International Conference on Services Computing (SCC) (pp. 129-136). IEEE.

  • Cohen, D., Naim, O., Toch, E., & Ben-Gal, I. (2021). Website categorization via design attribute learning. Computers & Security, 107, 102312.

  • Elmurngi, E. I., & Gherbi, A. (2018). Unfair reviews detection on amazon reviews using sentiment analysis with supervised learning techniques. J. Comput. Sci., 14(5), 714-726.

  • Fridrich, M. (2017). Hyperparameter optimization of artificial neural network in customer churn prediction using genetic algorithm. Trends Economics and Management, 11(28), 9-21.

  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Machine learning basics. Deep learning, 1(7), 98-164.

  • Harahap, F., Harahap, A. Y. N., Ekadiansyah, E., Sari, R. N., Adawiyah, R., & Harahap, C. B. (2018, August). Implementation of Naïve Bayes Classification Method for Predicting Purchase. In 2018 6th International Conference on Cyber and IT Service Management (CITSM) (pp. 1-5). IEEE.

  • Holmes Jr, J. S. (2009). Societal and economic valuation of technology-transfer deals. Acta Astronautica, 65(5-6), 834-840.

  • Joshi, M. M. k-Means Clustering to enhance SEO: A data-driven approach.

  • Katić, T., & Milićević, N. (2018, September). Comparing sentiment analysis and document representation methods of Amazon reviews. In 2018 IEEE 16th International Symposium on Intelligent Systems and Informatics (SISY) (pp. 000283-000286). IEEE.

  • Livne, A., Dor, R., Mazuz, E., Didi, T., Shapira, B., & Rokach, L. (2020). Iterative boosting deep neural networks for predicting click-through rate. arXiv preprint arXiv:2007.13087.

  • Ma, L., & Sun, B. (2020). Machine learning and AI in marketing–Connecting computing power to human insights. International Journal of Research in Marketing, 37(3), 481-504.

  • Madila, S. S., Dida, M. A., & Kaijage, S. (2021). A Review of Usage and Applications of Social Media Analytics. Journal of Information Systems Engineering and Management, 6(3).

  • Najmi, A. (2019). Imputation of missing product information using deep learning: A use case on the amazon product catalogue (Doctoral dissertation, Master’s thesis, TECHNISCHE UNIVERSITÄT MÜNCHEN).

  • Pireva, K., & Kefalas, P. (2017, October). A recommender system based on hierarchical clustering for cloud e-learning. In International Symposium on Intelligent and Distributed Computing (pp. 235-245). Springer, Cham.

  • Psychoula, I., Gutmann, A., Mainali, P., Lee, S. H., Dunphy, P., & Petitcolas, F. A. (2021). Explainable Machine Learning forFraud Detection. arXiv preprint arXiv:2105.06314.

  • Rathor, A. S., Agarwal, A., & Dimri, P. (2018). Comparative study of machine learning approaches for Amazon reviews. Procediacomputer science, 132, 1552-1561.

  • Sharma, S. K., Chakraborti, S., & Jha, T. (2019). Analysis of book sales prediction at Amazon marketplace in India: a machinelearning approach. Information Systems and e-Business Management, 17(2), 261-284.

  • Shokri, R., Stronati, M., Song, C., & Shmatikov, V. (2017, May). Membership inference attacks against machine learning models. In 2017 IEEE Symposium on Security and Privacy (SP) (pp. 3-18). IEEE.

  • Shrivastava, A., Sondhi, J., & Kumar, B. (2017). Machine learning technique for product classification in ecommerce data using Microsoft Azure Cloud. International Research Journal of Engineering & Applied Sciences, 5(2), 11-13.

  • Sutton, R. S., & Barto, A. G. (1999). Reinforcement learning. Journal of Cognitive Neuroscience, 11(1), 126-134.

  • Vazquez, L. R. S. (2017). Repurchase intention for lodging recommendation.


İnternet Kaynakları

  1. https://scholar.google.com/scholar?hl=tr&as_sdt=0%2C5&q=%22Amazon%22+%22machine+learning%22&btnG=

  2. https://sellercentral.amazon.com.tr/gp/help/external/201115050?language=en_GB&ref=efph_201115050_cont_201074420

  3. https://scholar.google.com/scholar?q=%22istatistiksel+%C3%B6%C4%9Frenme%22&hl=tr&as_sdt=0%2C5&as_ylo=&as_yhi=2000

  4. https://tez.yok.gov.tr/UlusalTezMerkezi/tezSorguSonucYeni.jsp

  5. https://scholar.google.com/scholar?q=%22Statistical+Learning%22&hl=tr&as_sdt=0%2C5&as_ylo=&as_yhi=1800


bottom of page