无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟

2023-06-25 08:52 作者:bili_2084577828  | 我要投稿


之前我們介紹了一些OCR前期圖片處理的技術(shù),其實(shí)要將圖片上的表格識別出來,前期的圖片處理和OCR技術(shù)是遠(yuǎn)遠(yuǎn)不夠的,我們還需要用到數(shù)據(jù)集構(gòu)建技術(shù),那么,它的實(shí)現(xiàn)大致步驟是怎樣的呢?

1. 收集數(shù)據(jù):收集包含表格的圖像或PDF文件(圖片型PDF)。我們會首先從公共數(shù)據(jù)集中獲取,如ICDAR產(chǎn)生的和COCO-Text等,其次也會自行收集大量的不同類型的帶表格的圖片,包括有表格線和無表格線的。

2. 標(biāo)注數(shù)據(jù):對于每個圖像或PDF文件,需要手動標(biāo)注表格的位置和單元格的邊界框,這個過程可能會比較繁瑣,但為了獲得更準(zhǔn)確的識別率和更好的表格識別效果,這一步又是必不可少的??梢允褂玫臉?biāo)注工具有LabelImg、VGG Image Annotator等。

3. 數(shù)據(jù)清洗:對標(biāo)注不準(zhǔn)確或不完整的數(shù)據(jù)進(jìn)行清洗,以確保數(shù)據(jù)集的質(zhì)量,為后面的處理提供高質(zhì)量的數(shù)據(jù)支撐。

4. 數(shù)據(jù)劃分:將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集。通常采用80/10/10的比例。

5. 數(shù)據(jù)增強(qiáng):我們對于訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng),會使用旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等技術(shù),以增加數(shù)據(jù)集的多樣性和數(shù)量。

6. 數(shù)據(jù)格式轉(zhuǎn)換:將數(shù)據(jù)集轉(zhuǎn)換為模型所需的格式,如TFRecord、COCO等。

7. 數(shù)據(jù)集評估:使用評估指標(biāo),如準(zhǔn)確率、召回率、F1值等,對模型進(jìn)行評估。

以上是我們的構(gòu)建數(shù)據(jù)集的大致步驟,由于數(shù)據(jù)集的質(zhì)量對訓(xùn)練模型的性能有很大影響,因此我們每天都需要花費(fèi)了大量時間和精力去不斷地完善。

#excel技巧#

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟的評論 (共 條)

分享到微博請遵守國家法律
普陀区| 通渭县| 苍南县| 肇庆市| 阿拉善盟| 康定县| 凤阳县| 平顶山市| 隆回县| 兴文县| 镇雄县| 勐海县| 淳安县| 赣榆县| 连云港市| 凤阳县| 横山县| 左贡县| 璧山县| 渑池县| 洮南市| 富川| 南华县| 当阳市| 巴林右旗| 凌源市| 寻甸| 高陵县| 慈利县| 泗洪县| 蒙山县| 南丹县| 西乌珠穆沁旗| 朝阳区| 江门市| 武强县| 汉川市| 大兴区| 青州市| 堆龙德庆县| 榆社县|