激光网
当前位置: 首页 > 光粒网 > 软件 > 正文

谷歌整合BigQuery与Document AI简化文件资料撷取工作

2024-01-08 15:16:35  来源:激光网原创    

谷歌现在让开发者可以更方便从档案资料获取信息,并用于建置新的大型语言模型应用程序,这项新功能仰赖BigQuery与Document AI整合。 此功能允许BigQuery用户创建Document AI自定义撷取器,运用基础模型对文件和后设数据进行自定义,用户能够直接从BigQuery呼叫这些自定义模型,实现从文件中撷取并储存结构化数据的目标。

过去用户要建立独立的Document AI工作管线,需要手动管理撷取逻辑和模式,因为缺乏原生的整合功能,需要自己开发定制化基础设施,同步和维护数据的一致性,这使得用户需要投入大量的资源在档案分析上。 而现在谷歌推出Big Query与 Document AI 的整合,用户可以在BigQuery中,创建用于 Document AI 自定义撷取器的远程模型,进行大规模文件分析和生成式人工智能应用。

首先用户需要先在Document AI中建立自定义撷取器,借由选择样本档案,并基于Document AI基础模型训练撷取器模型。 而Document AI也提供现成的撷取器,可用于处理各种常见档案类型,像是发票或是身份证件等。

接着,Document AI自定义撷取器便可于BigQuery中使用,透过SQL在BigQuery中注册远程模型,呼叫并使用自定义撷取器,来分析档案撷取相关字段资料。 从档案提取出来的信息,可以进行文本分析、摘要生成和建立各种创新应用。

BigQuery ML支持训练和部署多种文本模型,可以用来辨识客户服务通话中的情绪,或是Python开发者也可使用BigQuery DataFrames for pandas,和类似scikit-learn的API来分析数据。 用户也能运用PaLM 2大型语言模型对文件进行摘要,甚至将文件后设数据和储存在BigQuery表格中的其他结构化数据整合,开发创新应用。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com