回复 1楼mysunnyday的帖子 123,959 22,963,139 17,538,251之间是怎么分割的 oqo 发表于 2022-10-24 23:03
回复 1楼mysunnyday的帖子 直接Google啊,大姐! 星月花草 发表于 2022-10-24 23:06
楼主怎么从pdf抓数字下来? ocr么? 估计是之间有过多的空白pixelmrr666 发表于 2022-10-24 23:07
回复 1楼mysunnyday的帖子 假设这个是str0, str_list = str0.split(‘ ‘) # split by two blanks ’ ‘.join([s.replace(‘ ‘, ‘’) for s in str_list]) blueskysea 发表于 2022-10-24 23:31
上面这组数字是我从一个pdf文件里抓下来的,其实它们应该是“123,959 22,963,139 17,538,251”, 不知道为什么这些数字第一个digit和第二个digit之间会有空白,怎样才能把它们变成“123,959 22,963,139 17,538,251”?
谢谢指教!
123,959 22,963,139 17,538,251之间是怎么分割的
直接Google啊,大姐!
用空白space分割
Google过了,没看到解决方法
用pdfplumber
啊 这个我就不太清楚了 如果有setting可以把setting设大一些 也就是就算有空了几个pixels 还是会认为是一个连续的单词 你查查doc
``` "1 23,959 2 2,963,139 1 7,538,251".replace(' ', '') ```
假设这个是str0, str_list = str0.split(‘ ‘) # split by two blanks ’ ‘.join([s.replace(‘ ‘, ‘’) for s in str_list])
对,大致就是这个。 不过最好不要用loop, 慢。用apply 或者 map