当前位置：首页 > 光粒网 > 软件 > 正文

谷歌整合BigQuery与Document AI简化文件资料撷取工作

2024-01-08 15:16:35　来源：激光网原创　

谷歌现在让开发者可以更方便从档案资料获取信息，并用于建置新的大型语言模型应用程序，这项新功能仰赖BigQuery与Document AI整合。 此功能允许BigQuery用户创建Document AI自定义撷取器，运用基础模型对文件和后设数据进行自定义，用户能够直接从BigQuery呼叫这些自定义模型，实现从文件中撷取并储存结构化数据的目标。

过去用户要建立独立的Document AI工作管线，需要手动管理撷取逻辑和模式，因为缺乏原生的整合功能，需要自己开发定制化基础设施，同步和维护数据的一致性，这使得用户需要投入大量的资源在档案分析上。而现在谷歌推出Big Query与 Document AI 的整合，用户可以在BigQuery中，创建用于 Document AI 自定义撷取器的远程模型，进行大规模文件分析和生成式人工智能应用。

首先用户需要先在Document AI中建立自定义撷取器，借由选择样本档案，并基于Document AI基础模型训练撷取器模型。而Document AI也提供现成的撷取器，可用于处理各种常见档案类型，像是发票或是身份证件等。

接着，Document AI自定义撷取器便可于BigQuery中使用，透过SQL在BigQuery中注册远程模型，呼叫并使用自定义撷取器，来分析档案撷取相关字段资料。 从档案提取出来的信息，可以进行文本分析、摘要生成和建立各种创新应用。

BigQuery ML支持训练和部署多种文本模型，可以用来辨识客户服务通话中的情绪，或是Python开发者也可使用BigQuery DataFrames for pandas，和类似scikit-learn的API来分析数据。用户也能运用PaLM 2大型语言模型对文件进行摘要，甚至将文件后设数据和储存在BigQuery表格中的其他结构化数据整合，开发创新应用。

免责声明： 激光网遵守行业规则，本站所转载的稿件都标注作者和来源。激光网原创文章，请转载时务必注明文章作者和来源“激光网”，不尊重本站原创的行为将受到激光网的追责，转载稿件或作者投稿可能会经编辑修改或者补充，如有异议可投诉至：Email：133 467 34 45@qq.com