10月30日,百川智能发布Baichuan2-192K大模型,其上下文窗口长度高达192K,是目前全球最长的上下文窗口。Baichuan2-192K能够处理约35万个汉字,是目前支持长上下文窗口最优秀的大模型Claude2(支持100K上下文窗口,实测约8万字)的4.4倍,更是 GPT-4(支持32K上下文窗口,实测约2.5万字)的14倍。
今年9月25日,百川智能已开放Baichuan2的API接口,正式进军企业级市场,开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户。目前,百川智能已经启动Baichuan2-192K的API内测,开放给法律、媒体、金融等行业的核心合作伙伴,不久后将全面开放。
上下文窗口长度是大模型的核心技术之一,通过更大的上下文窗口,模型能够结合更多上下文内容获得更丰富的语义信息,更好捕捉上下文的相关性、消除歧义,进而更加准确、流畅的生成内容,提升模型能力。
扩大上下文窗口能有效提升大模型性能是人工智能行业的共识,但是超长上下文窗口意味着更高的算力需求和更大的显存压力。本次百川发布的Baichuan2-192K通过算法和工程的极致优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。
据介绍,全面开放API之后,Baichuan2-192K便能够与更多的垂直场景深度结合,真正的在人们工作、生活、学习中发挥作用,助力行业用户更好的降本增效。
举例而言,它可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科研人员快速浏览大量论文,总结最新的前沿进展。
不仅如此,更长的上下文还为其更好的处理和理解复杂的多模态输入,以及实现更好的迁移学习提供了底层支撑,这将为行业探索Agent、多模态应用等前沿领域打下良好的技术基础。
百川智能成立于2023年4月10日,由前搜狗公司CEO王小川创立。公司核心团队由来自搜狗、百度、华为、微软、字节、腾讯等知名科技公司的AI顶尖人才组成。成立不到100天,百川智能便发布Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型,且在多个权威评测榜单名列前茅,下载量破百万。