摘要:針對當(dāng)前電商平臺中客戶投訴處理效率低下、解決周期長且準(zhǔn)確率不高等問題,本文提出一種基于機(jī)器學(xué)習(xí)的客戶投訴精準(zhǔn)定位方法;針對收集到的客戶投訴文本進(jìn)行預(yù)處理,以確保后續(xù)分析的有效性;采用BERT等深度學(xué)習(xí)技術(shù)來提取投訴文本中的關(guān)鍵特征,以反映投訴的主要內(nèi)容和情感傾向;基于此特征集,構(gòu)建一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,自動識別和分類客戶投訴的不同類型及其優(yōu)先級;最后,通過對比實(shí)驗(yàn)驗(yàn)證了所提方法的有效性和優(yōu)越性。本方法的整體平均F1分?jǐn)?shù)為0.96,預(yù)測標(biāo)簽與真實(shí)標(biāo)簽之間的差異程度為0.05,緊急投訴響應(yīng)時(shí)間預(yù)測誤差僅為0.45 h,為電商平臺提供了一套高效、可靠的客戶投訴管理方案。
關(guān)鍵詞:機(jī)器學(xué)習(xí);電商平臺;投訴定位
doi:10.3969/J.ISSN.1672-7274.2025.01.006
中圖分類號:F 713.36;TP 393.4" " " " " " " " "文獻(xiàn)標(biāo)志碼:A" " " " " " 文章編碼:1672-7274(2025)01-00-04
Research on Precise Positioning of Customer Complaints on e-Commerce Platforms Based on Machine Learning
JING Yixin
(Wuhan IPASON Technology Co., Ltd., Wuhan 430000, China)
Abstract: In response to the low efficiency, long resolution cycle, and low accuracy of customer complaint handling in current e-commerce platforms, this article proposes a machine learning based method for accurate customer complaint localization; Preprocess the collected customer complaint texts to ensure the effectiveness of subsequent analysis; Using deep learning techniques such as BERT to extract key features from complaint texts to reflect the main content and emotional tendencies of the complaint; Based on this feature set, construct a convolutional neural network model to automatically identify and classify different types of customer complaints and their priorities. Finally, the article validated the effectiveness and superiority of the proposed method through comparative experiments. The results showed that the overall average F1 score of this design was 0.96, the degree of difference between predicted labels and real labels was 0.05, and the prediction error of emergency complaint response time was only 0.45 hours, providing an efficient and reliable customer complaint management solution for e-commerce platforms.
Keywords: machine learning; E-commerce platform; complaint positioning
隨著電子商務(wù)的迅速發(fā)展,越來越多的消費(fèi)者選擇在線購物作為主要的消費(fèi)方式。這種趨勢不僅推動了電商平臺的繁榮,也帶來了新的挑戰(zhàn),其中之一就是如何有效地管理和處理大量的客戶投訴?蛻敉对V是電商企業(yè)獲取客戶反饋的重要途徑之一,及時(shí)而準(zhǔn)確地響應(yīng)這些投訴對于維護(hù)品牌形象、提升客戶滿意度至關(guān)重要。然而,傳統(tǒng)的客戶投訴處理方式通常依賴于人工審核和分類,這種方式不僅耗時(shí)費(fèi)力,而且容易出現(xiàn)錯(cuò)誤。而人工智能技術(shù)的進(jìn)步,特別是機(jī)器學(xué)習(xí)的發(fā)展,為解決這一難題提供了新的思路。鑒于上述背景,本文開發(fā)了一種基于機(jī)器學(xué)習(xí)的客戶投訴精準(zhǔn)定位方法,以幫助電商平臺加速客戶投訴問題的解決流程,改善客戶服務(wù)流程,提升客戶滿意度和忠誠度。
1" "文本預(yù)處理
文本預(yù)處理是確保后續(xù)分析準(zhǔn)確性和效果的基礎(chǔ),它主要包括以下四個(gè)步驟:數(shù)據(jù)清洗、分詞、去除停用詞、詞干提取與詞形還原。這一階段的目標(biāo)是將原始的、非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為可供機(jī)器學(xué)習(xí)算法使用的格式。
第一步,采用Python中的re模塊,對原始文本數(shù)據(jù)進(jìn)行清洗。具體而言,通過正則表達(dá)式lt;.*?gt;識別并移除所有的HTML標(biāo)簽,確保文本內(nèi)容的純凈性。接著,通過模式[^\w\s]來過濾掉非字母數(shù)字字符以及特殊符號,利用\d+來剔除任何單獨(dú)出現(xiàn)的數(shù)字序列。為了進(jìn)一步標(biāo)準(zhǔn)化文本,應(yīng)用.lower()方法將文本中的所有字符統(tǒng)一轉(zhuǎn)換為小寫字母形式,以顯著減少詞匯變體的數(shù)量,如“Example”“EXAMPLE”和“example”均將被視為相同的詞匯。
第二步,進(jìn)行分詞處理,即將文本切分成單詞或短語。對于中文文本,可使用jieba分詞庫進(jìn)行分詞處理;而對于英文文本,則使用NLTK庫中的word_tokenize函數(shù)進(jìn)行處理。例如,對于一條英文投訴:“This product is not good.”,能夠得到一個(gè)分詞列表:['This', 'product', 'is', 'not', 'good']。
第三步,使用NLTK或Scikit-learn提供的停用詞列表,過濾文本中頻繁出現(xiàn)但不攜帶太多意義的詞匯,如“的”“是”“和”等停用詞,以減少特征空間的維度,同時(shí)提高后續(xù)處理的效率。
2" "特征提取
為了實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)的電商平臺客戶投訴精準(zhǔn)定位,利用雙向Transformer架構(gòu)來生成上下文敏感的詞語嵌入,以捕捉更深層次的語義關(guān)系[1-2]。為了最小化預(yù)測被屏蔽單詞的概率與實(shí)際單詞之間的負(fù)對數(shù)似然,損失函數(shù)的計(jì)算公式如式(1)所示:
(1)
式中,L表示損失函數(shù);表示被隨機(jī)屏蔽的單詞集合;表示被屏蔽的第個(gè)單詞,而表示未被屏蔽的其他單詞;表示單詞出現(xiàn)的概率。
除了文本特征,還需考慮用戶的購買歷史、瀏覽行為以及與客服的互動記錄等行為特征。利用PCA(Principal Component Analysis)降維技術(shù),通過對原始數(shù)據(jù)進(jìn)行線性變換,提取出數(shù)據(jù)的主要成分,即那些能夠最大程度解釋數(shù)據(jù)方差的特征向量。具體而言,從原始行為特征矩陣中計(jì)算協(xié)方差矩陣,如式(2)所示:
(2)
式中,表示協(xié)方差矩陣,用于描述各特征之間的線性關(guān)系強(qiáng)度和方向;n表示樣本數(shù)量;表示原始行為特征矩陣,每一行代表一個(gè)樣本,每一列代表一個(gè)特征;表示原始行為特征矩陣的均值向量,每一維對應(yīng)一個(gè)特征的平均值;T表示轉(zhuǎn)置。接著,找到其特征值和特征向量,進(jìn)而選取前k個(gè)最大的特征值所對應(yīng)的特征向量作為新的基底,形成一個(gè)降維后的空間。通過利用降維后的特征,分析用戶在提交投訴前后的購物行為模式,如用戶在投訴前后的時(shí)間段內(nèi)購買頻率的變化、瀏覽頁面的數(shù)量以及與客服交流的次數(shù)等,以便于更有效地識別可能導(dǎo)致投訴的因素,并采取相應(yīng)的措施來改善用戶體驗(yàn)。
3" "構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型
鑒于文本中預(yù)處理和特征提取已作為前期工作完成,將處理好的數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集,比例分別為70%、15%和15%。訓(xùn)練集用于模型訓(xùn)練,驗(yàn)證集用于調(diào)整超參數(shù)和防止過擬合,而測試集則用來評估最終模型的泛化能力[3]。而后,采用包含三個(gè)卷積塊的網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)卷積塊由一個(gè)卷積層和一個(gè)最大池化層組成。每個(gè)卷積層配置不同大小的濾波器(如3、4、5),以便捕獲不同長度的n-gram特征。
考慮到任務(wù)的本質(zhì)是分類問題,選擇交叉熵?fù)p失(Cross-Entropy Loss)作為損失函數(shù),以有效度量預(yù)測概率分布與真實(shí)標(biāo)簽之間的差異。假設(shè)有個(gè)樣本,每個(gè)樣本屬于個(gè)類中的一個(gè)。對于第個(gè)樣本,設(shè)其真實(shí)的標(biāo)簽為,并且將這個(gè)標(biāo)簽轉(zhuǎn)換為one-hot編碼形式,即,其中當(dāng)且僅當(dāng)是該樣本的真實(shí)類別,否則。而模型預(yù)測的概率向量為。整個(gè)數(shù)據(jù)集平均交叉熵?fù)p失的計(jì)算公式,如式(3)所示:
(3)
式中,表示模型預(yù)測第個(gè)樣本屬于第類的概率;而是第個(gè)樣本的真實(shí)標(biāo)簽向量中的元素。
確保電商平臺在面對不同的客戶群體和不斷變化的市場環(huán)境時(shí),仍然能夠準(zhǔn)確地識別和定位客戶投訴的問題所在。
4" "投訴優(yōu)先級評估
為了更高效地處理客戶投訴,根據(jù)預(yù)定義的規(guī)則對投訴進(jìn)行優(yōu)先級排序;诳蛻舻馁徺I歷史、商品類別、問題嚴(yán)重程度等因素,使用Python的pyparsing庫設(shè)計(jì)一系列邏輯規(guī)則,解析客戶投訴信息中的關(guān)鍵字段,如投訴內(nèi)容、客戶ID、商品ID等。對于高價(jià)值客戶(如VIP會員),將其投訴優(yōu)先級設(shè)置為10分(滿分10分),確保這些客戶的投訴能夠得到最快響應(yīng)。針對涉及健康安全問題的商品投訴,在規(guī)則引擎中添加一個(gè)特殊條件,用于識別包含關(guān)鍵詞如“過敏”“傷害”或“安全”等的投訴內(nèi)容,一旦發(fā)現(xiàn)這些關(guān)鍵詞,不論客戶的等級如何,該投訴的優(yōu)先級就會被自動設(shè)為10分,以確保這類投訴能夠立即處理。如表1所示。
通過將所有調(diào)整后的分?jǐn)?shù)相加,得出最終優(yōu)先級分?jǐn)?shù),確保所有的投訴都能夠得到適當(dāng)?shù)闹匾,并且最重要和緊急的投訴問題能夠得到優(yōu)先處理,從而提升電商平臺的整體客戶滿意度和服務(wù)質(zhì)量。
5" "測試與評估
5.1 測試準(zhǔn)備
為了確保測試過程的準(zhǔn)確性和可重復(fù)性,需進(jìn)行軟件、硬件資源以及測試數(shù)據(jù)集的準(zhǔn)備。其中,操作系統(tǒng)為Ubuntu 20.04 LTS,ython版本則為Python 3.8.5。測試服務(wù)器配備兩個(gè)Intel Xeon Gold 6248 CPU,總計(jì)40個(gè)物理核心,以保證足夠的并行處理能力。測試數(shù)據(jù)來源于某大型電商平臺的客戶服務(wù)中心,包括過去兩年內(nèi)近10萬條真實(shí)客戶的投訴記錄,涵蓋各種類型的投訴,如物流延誤、商品質(zhì)量問題、售后服務(wù)不滿意等,以全面評估本方法的效果。
5.2 評估指標(biāo)設(shè)計(jì)
由于客戶投訴涉及到多種類型的問題,為了評估模型對不同類別投訴的識別能力,引入多分類F1分?jǐn)?shù)(Macro-F1 Score),如式(4)所示:
(4)
式中,表示多分類F1分?jǐn)?shù);是類別總數(shù);是第類別的F1分?jǐn)?shù)。
在一個(gè)投訴案例可能包含多個(gè)問題的情況下,為了衡量模型在處理復(fù)雜多標(biāo)簽投訴時(shí)的表現(xiàn),引入Hamming Loss指標(biāo),如式(5)所示:
(5)
式中,表示Hamming Loss指標(biāo);表示樣本數(shù)量;是每個(gè)樣本可能擁有的標(biāo)簽數(shù)量;表示第個(gè)樣本的真實(shí)標(biāo)簽向量中的第個(gè)元素;表示第個(gè)樣本的預(yù)測標(biāo)簽向量中的第個(gè)元素;是指示函數(shù),當(dāng)時(shí)返回1,否則返回0。
鑒于電商平臺的特殊性,還需關(guān)注模型在處理緊急投訴時(shí)的性能。因此,定義一個(gè)新指標(biāo)——緊急響應(yīng)時(shí)間預(yù)測誤差(ERTPE),用來評估模型預(yù)測緊急投訴響應(yīng)時(shí)間的準(zhǔn)確性。緊急響應(yīng)時(shí)間預(yù)測誤差的計(jì)算公式如式(6)所示:
(6)
式中,是緊急投訴的數(shù)量;是第個(gè)緊急投訴的實(shí)際響應(yīng)時(shí)間;是模型預(yù)測的第個(gè)緊急投訴的響應(yīng)時(shí)間。
通過對上述三個(gè)指標(biāo)的計(jì)算和應(yīng)用,可以全面評估本方法在處理不同客戶投訴時(shí)的能力和效率,從而確保其在實(shí)際電商場景中的有效性和實(shí)用性。
5.3 結(jié)果分析
本方法在測試集上的表現(xiàn)如圖1所示。
實(shí)驗(yàn)結(jié)果顯示,在測試集上,本方法對于物流延誤的識別達(dá)到了0.98的F1分?jǐn)?shù),對于商品質(zhì)量問題的識別達(dá)到了0.95,對售后服務(wù)不滿類別則達(dá)到了0.96。在整體平均F1分?jǐn)?shù)方面,當(dāng)前方法比之前方法提高了0.12,這表明本方法在識別不同類型的投訴方面表現(xiàn)良好,尤其是在物流延誤方面,顯示出較高的識別精度。同時(shí),本方法在測試集上的平均Hamming Loss為0.5,即在每條記錄上平均只錯(cuò)誤預(yù)測了5%的標(biāo)簽,相比之前降低了0.13,能夠較好地處理多標(biāo)簽投訴問題;相較于原方法,本方法在預(yù)測緊急投訴響應(yīng)時(shí)間方面的平均誤差僅為0.45 h,能夠相對準(zhǔn)確地預(yù)測緊急投訴的處理速度,具有一定的應(yīng)用價(jià)值。
6" "結(jié)束語
綜上所述,本文所述方法不僅在識別不同類型的投訴方面表現(xiàn)出色,而且在處理多標(biāo)簽投訴和預(yù)測緊急投訴響應(yīng)時(shí)間方面也顯示出了高效和準(zhǔn)確的特點(diǎn),將有助于電商平臺提高客戶滿意度和服務(wù)效率。未來的研究方向可以從以下幾個(gè)方面展開:一是進(jìn)一步優(yōu)化模型結(jié)構(gòu),探索更高級的自然語言處理技術(shù),如注意力機(jī)制和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiRNN),以提高模型的能力;二是擴(kuò)展數(shù)據(jù)集,引入更多樣化的投訴案例,使模型具有更強(qiáng)的泛化能力,為企業(yè)和社會帶來更多的價(jià)值。■
參考文獻(xiàn)
[1] 黃偉.大數(shù)據(jù)技術(shù)的機(jī)器學(xué)習(xí)算法[J].中國新通信,2024,26(11):47-49.
[2] 周毅勇.基于機(jī)器學(xué)習(xí)和社群互動信息的用戶購買意愿分析[J].科技創(chuàng)新與生產(chǎn)力,2024,45(2):28-31.
[3] 李翠萍.基于機(jī)器學(xué)習(xí)的直播電商客戶流失風(fēng)險(xiǎn)預(yù)測[J].互聯(lián)網(wǎng)周刊,2023(10):40-42.
作者簡介:景奕昕(1978—),男,漢族,湖北武漢人,副高級工程師,博士,研究方向?yàn)槿斯?a class="channel_keylink" href="/search.asp">智能、兩化融合、信息安全。