近日,在2024年世界人工智能大會(WAIC)上,合合信息推出TextIn智能文檔處理平臺,這一創(chuàng)新舉措不僅旨在解決當(dāng)前大模型訓(xùn)練面臨的數(shù)據(jù)局限與質(zhì)量問題,特別是針對中文語料稀缺和復(fù)雜文檔解析的難題,更為合合信息的IPO之路增添了濃墨重彩的一筆,為其在AI行業(yè)發(fā)展提供了強(qiáng)有力的“加速器”。
隨著人工智能技術(shù)的飛速發(fā)展,大模型展現(xiàn)出前所未有的強(qiáng)大能力,其性能的提升離不開海量高質(zhì)量數(shù)據(jù)的支持。然而,在中文領(lǐng)域,高質(zhì)量數(shù)據(jù)資源的匱乏成為了制約大數(shù)據(jù)性能進(jìn)一步提升的瓶頸。合合信息此次推出的Textin智能文檔處理平臺,針對這一痛點(diǎn)為行業(yè)帶來了前所未有的解決方案,同時(shí)也為公司未來的IPO市場表現(xiàn)奠定了堅(jiān)實(shí)的基礎(chǔ)。
該平臺集成了TextIn文檔解析、TextIn Embedding(文本向量數(shù)據(jù)模型)以及OpenKIE三大核心工具,旨在從源頭提升語料質(zhì)量,加速大模型的訓(xùn)練與迭代。使用后的大模型具備了更快速、優(yōu)秀的文檔要素分析、表格內(nèi)容識別能力。其中,TextIn文檔解析引擎以其卓越的性能和廣泛的適用性,在復(fù)雜文檔解析方面展現(xiàn)出了強(qiáng)大實(shí)力,為大模型提供了更加純凈、結(jié)構(gòu)化的訓(xùn)練數(shù)據(jù)。
除了文檔解析,TextIn Embedding模型也是該平臺的重要組成部分。該模型通過深入學(xué)習(xí)大量中文語料,能夠迅速定位目標(biāo)信息,提取有效文本特征,提高大模型在信息搜索和問答方面的質(zhì)量、效率和準(zhǔn)確性。相比其他開源模型,TextIn Embedding模型具有體積小、占用資源少、支持可變輸出維度等優(yōu)勢,能夠更好地適應(yīng)不同場景的需求。
此外,OpenKIE信息抽取工具也為TextIn智能文檔處理平臺增色不少。該工具能夠自動抽取文檔中的關(guān)鍵信息,并直接應(yīng)用于其他系統(tǒng),極大地提高了工作效率。在大模型文檔處理場景中,合合信息與百川智能等頭部企業(yè)合作,共同破解了多文檔元素識別、版面分析等難題,將百頁文檔的整體處理速率提升超過10倍。
合合信息智能創(chuàng)新事業(yè)部總經(jīng)理唐琪表示,TextIn智能文檔處理平臺目前已覆蓋金融、醫(yī)學(xué)、財(cái)經(jīng)、媒體等47個場景,共支持3200余類文檔的處理。該平臺已被多家頭部大模型廠商納入預(yù)訓(xùn)練流程,并積累了小批量開發(fā)者用戶。。
未來,合合信息將繼續(xù)深耕文檔處理領(lǐng)域,為大模型的訓(xùn)練與應(yīng)用提供更多優(yōu)質(zhì)“燃料”,推動人工智能技術(shù)的持續(xù)進(jìn)步。同時(shí),隨著公司IPO進(jìn)程的推進(jìn),合合信息將進(jìn)一步加速其在AI領(lǐng)域的布局和發(fā)展,為社會創(chuàng)造更大的價(jià)值。