谷歌现在让开发者可以更方便从档案资料获取信息,并用于建置新的大型语言模型应用程序,这项新功能仰赖BigQuery与Document AI整合。 此功能允许BigQuery用户创建Document AI自定义撷取器,运用基础模型对文件和后设数据进行自定义,用户能够直接从BigQuery呼叫这些自定义模型,实现从文件中撷取并储存结构化数据的目标。
过去用户要建立独立的Document AI工作管线,需要手动管理撷取逻辑和模式,因为缺乏原生的整合功能,需要自己开发定制化基础设施,同步和维护数据的一致性,这使得用户需要投入大量的资源在档案分析上。 而现在谷歌推出Big Query与 Document AI 的整合,用户可以在BigQuery中,创建用于 Document AI 自定义撷取器的远程模型,进行大规模文件分析和生成式人工智能应用。
首先用户需要先在Document AI中建立自定义撷取器,借由选择样本档案,并基于Document AI基础模型训练撷取器模型。 而Document AI也提供现成的撷取器,可用于处理各种常见档案类型,像是发票或是身份证件等。
接着,Document AI自定义撷取器便可于BigQuery中使用,透过SQL在BigQuery中注册远程模型,呼叫并使用自定义撷取器,来分析档案撷取相关字段资料。 从档案提取出来的信息,可以进行文本分析、摘要生成和建立各种创新应用。
BigQuery ML支持训练和部署多种文本模型,可以用来辨识客户服务通话中的情绪,或是Python开发者也可使用BigQuery DataFrames for pandas,和类似scikit-learn的API来分析数据。 用户也能运用PaLM 2大型语言模型对文件进行摘要,甚至将文件后设数据和储存在BigQuery表格中的其他结构化数据整合,开发创新应用。